01.引言
2025年伊始,越來越多的信息中心在審批IT運維項目時,要求提供ROI測算,說明項目建設完成后可以帶來哪些成本的節約和效率的增長,并且非常審慎進行多輪評估。此外,也有更直接的IT部門,要求全年IT運維外包人員縮減20%,簡單直接地用KPI牽引推動降本增效。
一時間運維降本增效成為企業IT重點關注的任務之一,無論是國央企、政府還是民營企業都在追求效率提升和成本降低,包括進一步的服務能力提升等。其必要性主要來自以下幾個因素:
對于運維組織來說,“降本增效”看似是一項艱巨的挑戰,但“降本增效”的目的絕非單純的“削減開支”,它更是運維組織的機遇,通過技術升級、流程創造、組織進化三位一體的方式,推動運維組織從“救火隊”轉型為“業務賦能者”,成為企業數字化轉型的核心引擎。那么該如何抓住這次機遇?
02.運維降本與增效的思考
在回答運維如何降本增效這個問題前,我們需要先明確,該如何描述和評價“運維效率”。
從局部或具體任務看,效率就是運維服務中各類KPI指標,如一線關單率、服務平均響應時長、平均發布耗時等,通過指標的量化衡量某項任務或者服務效率的高低。組織可以通過技術或管理等手段優化提升,比如可以通過大模型、智能客服等技術手段提升服務響應效率,也可以通過培訓賦能、考核激勵等手段激勵一線提升服務響應速度。KPI指標可以反饋和衡量某項任務、流程、職能的效率,但無法反饋全局運維效率情況。
從全局或組織整體視角看,運維效率是一個組織服務能力和服務價值的體現,反映的是在相同運維成本條件下,組織服務能力水平,包括服務項、服務范圍、服務質量等,如下公式:
其他衡量全局效率的方式包括運維應用系統數量/運維人數、負責資源數量/運維人數、全年業務可用性等等。
通過公式可推導運維效率提升的手段包括:
但無論是何種辦法,效率提升的前提是對運維成本和運維能力做量化,并能夠與組織管理者、運維服務客戶通過共同的語言建立共識,比如“錢”。
1)運維成本構成與控制分析
在明確如何衡量運維效率后,我們再來看IT運維成本的構成,然后基于成本來分析如何控制成本和提升效率。
IT運維成本由直接成本和間接成本兩部分構成,運維的直接成本指IT運維的直接開銷,如人員、資源、采購等成本,直接成本是IT運維為了支撐業務和組織所必需的投入,可以通過技術和管理的手段進行節約和優化。直接成本中的各項組成并不是相互獨立的,如運維外采,主要是服務采購、設備采購、軟件采購,其中的服務和設備采購,分別與人員成本和資源成本相關。
運維的間接成本指IT運維中投入的隱性成本,如溝通成本、停機損失等,如果管理不當可能會導致直接成本的直線上升。
對應的各項成本控制與優化,可以通過在線化、自動化、智能化和體系化的方式依次開展。
2)人員成本控制與提效方法
人員成本是IT成本中的重要部分,根據Gartner 2023年IT運維成本報告顯示:
運維部門除了面對如此高的人員成本外,另一個難題是運維技術人才培養周期長,運維組織成“金字塔”結構,大中型企業中,基礎運維人員數量占比可達40%~50%,如何驅動基礎和中級運維人員,在有限的組織成本下,激活員工,發揮和創造更高的價值?
通過在線化-自動化-智能化-體系化的成本控制方法看人員成本:
(1)人員成本管理的在線化
通過在線化的手段,記錄、統計、跟蹤運維人員日常工作,對于一線運維人員,理論上其工作在線化率可以達到100%,即所有的服務受理、運維工作開展、變更操作等均可通過在線化手段進行。通過運維工作在線化執行和記錄,進而實現服務水平的衡量和評價,在服務范圍不變的情況下,可以通過優化SLA的方式提升服務效率。
同時運維組織對外提供的服務也均通過在線化開展,通過統一的服務目錄規范運維組織提供的服務范圍和服務價值。組織可以通過擴展服務客戶范圍、增加服務項等手段,提升服務價值,在運維人員成本不變的情況下,實現提效。
(2)人員成本管理的自動化
自動化運維,作為運維人員提效的最直接有效的手段,因其批量執行效率高、人工干預少無誤操作、操作質量高等優勢逐漸被廣泛地應用于IT基礎設施運維和應用運維中。
如某證券通過應用發布自動化建設,實現公司100余套應用系統、2萬+主機的集中發布管控,相較于傳統發布,單套系統發布效率提升3倍以上,單應用系統每周發布可節約人力投入6.2人/天。
同樣,自動化運維也可用于承接外包運維服務工作,從而降低服務外采費用,如某能源操作系統運維外包小組(共6人),通過自動化運維工具實現服務器巡檢、基線掃描、漏洞修復、補丁更新等運維變更自動化,全年節約人力投入3397個工時,人力成本可節約28%。
那么組織該如何建設自動化運維能力,通過OASR框架模型來看:
(3)人員成本管理的智能化
運維人員效率低下,一方面是需要從事大量繁瑣且重復的運維工作,另一方面是在面對復雜運維問題時,個人經驗不足導致的。自動化運維有效地改善了運維工作繁瑣和重復的問題。而大模型的出現為第二個難題也帶來了一定的轉機。
對于基礎運維人員來說,一般會存在個人經驗不足和專業知識匱乏的問題:
通過大模型,可以改善運維人員知識有限,專業能力不足的問題,結合大模型以及私域運維知識庫,可以建設專業運維助手,輔助運維人員進行專項運維工作。
運維問答助手:
運維任務引導:
(4)人員成本管理的體系化
針對組織人員設定階段發展目標,并在各階段分別配套組織角色職能、管理流程和規范以及配套工具能力,實現有序發展。
3)資源成本控制與提效方法
根據Gartner 2023年及IDC 2024年報告分析,組織中資源成本占比為30%~60%,是除人力成本外的另一大成本項。
而在成本管理過程中,往往會存在以下問題:
我們同樣可以通過在線化-自動化-智能化-體系化的成本控制方法來對資源成本進行控制與優化:
(1)資源成本控制的在線化
同樣的,資源成本管理的基礎是能夠對運維資源對象有清晰的認知,通過線上化的手段厘清配置資源信息,為資源優化、成本控制提供數據支撐,而資源信息在線化最有效的載體是CMDB。CMDB的核心價值是實現IT設施 “數字鏡像化”,凡是屬于信息科管理的IT對象,均可在配置庫中找到唯一實例數據,助力于資產盤點、資源利用率分析及規劃等運維工作開展。
(2)資源成本控制的自動化
資源的自動化管理可以分為自動化采集、自動化盤點、自動化調配三部分。
(3)資源成本控制的智能化
基于數據統計和分析,通過數據化和智能化的手段進行資源調整,比如通過容量趨勢預測,提前預測性能瓶頸,進行主動擴容。
或通過全局算力調度,利用不同應用忙閑時間的差異,實現資源的錯峰調配,有效節約資源。
即使不借助AI,通過簡單的資源統計與分析,也能夠主動發現資源空耗和浪費,主動優化資源,節約成本。如僵尸業務統計和低負載分析。
通過清退僵尸系統和長期低負載資源,能夠非常直觀地降低企業資源投入,從而降低運營成本;既能夠減少不必要的維護成本,提升運營維護效率;也能夠識別和清退長期較少維護,存在安全風險、漏洞高的僵尸系統,提升網絡安全。
如嘉為藍鯨在某項目中:通過CMDB主機資產梳理排查出1000+臺僵尸虛機,排查agent異常主機,其中有982臺確定已經關機不用;總計排查的空閑虛機資源數量已經有2000+臺,預計成本節省約200萬/年。
(4)資源成本控制的體系化
無論是資源配置管理還是資源容量管理,均可以形成一套管理體系。
如配置管理,需要形成配置采集、配置存儲、配置管理和配置消費于一體的可消費的配置管理體系,其中:
進而構建容量管理體系,實時了解全局容量情況,包括總量、使用量、可調配資源容量等,通過容量管理實現:
同時,結合云、云管平臺可以實現資源成本的體系化和精細化管理,提升資源利用率、量化資產價值,并優化資源總體成本。
針對企業用云全生命周期,從工具-流程-人員等多維度體系保障用云成本的持續優化。
4)外采成本的控制與提效方法
外采成本主要包括運維服務外采、軟硬件資源外采以及運維軟件外采。
運維服務外采一般包括系統運維、應用運維、桌面運維等服務外包。此類外包工作特點包括重復性高、附加值低、風險可控等,如系統巡檢、補丁更新;但因外包人員成本控制,人員調整等因素,導致服務采購成本增加,但服務范圍、服務能力并沒有提升,難以真正的降本增效,此部分同樣可以通過在線化手段進行管理,并通過自動化和智能化的手段減少外采人員數量。軟硬件外采主要是資源成本,可以參考上文資源成本控制方法。
那么運維軟件采購成本該如何控制?因系統異構以及場景化運維需求,需要采購運維軟件,如監控、流程、自動化等,商用軟件的封閉性導致難以生長,采購成本居高不下。當前企業運維工具建設正從煙囪式建設向平臺化建設邁進,一體化運維因其開放、生長、自主可控等特點,有效改善運維工具重復建設,無法滿足個性化擴展需求的困局。在一體化業務設計規劃與建設中,建議組織充分考慮運維工具現狀、管理要求與行業實踐,實現運維業務一體化,技術架構平臺化、運營賦能數智化。
運維軟件工具體系建設建議藍圖:實現運維在線化、操作自動化、場景智能化。
但即使采用平臺化建設運維工具體系,依然無法避免需要投入大量的采購成本,尤其是針對個性化場景時,標準產品軟件無法滿足需求,定制開發成本采購持續居高不下。建議組織構建運維開發平臺如嘉為藍鯨PaaS,培養運維開發力量,實現運維軟件自主開發自主建設,進一步節約成本。采用平臺化運維的優勢包括:
同時,可以借助藍鯨社區和生態的力量,進一步分擔運維軟件開發成本,在藍鯨社區中由社區成員和生態伙伴上傳了大量的運維場景工具,運維人員可以快速獲取并部署到本地實現能力復用,從而減少開發重復投入,降低成本。借助社區生態,運維人員能快速掌握平臺運維及開發能力,降低運維開發轉型難度,助力運維組織成長。
5)停機損失成本控制與優化
業務保障作為運維組織的核心價值,業務異常將導致業務損失以及服務滿意度下降,這部分損失對于運維組織是不可接受的。相應地為了提升業務連續性,需要有配套的運維成本投入,如監控、發布、應急等。
對于業務連續性建設,可以參考SRE相關實踐,如國內的SRE精英聯盟,來自于互聯網、運營商、金融等行業領軍企業的 SRE 團隊組織了SRE研討社區,定期開展社區分享活動,共同探討 SRE 在各企業的發展路徑,分享各自的實戰經驗,并總結出了這份來自一線實戰的、詳實而持續更新的《SRE實踐白皮書》。
SRE的主要目標是通過結合軟件工程和系統運維的最佳實踐,提高大規模分布式系統的可靠性、可用性、性能和效率。以下是部分 SRE 追求的核心目標:
組織可以參考SRE服務領域實踐開展運維體系建設,但綜合考慮成本與收益,建議組織有選擇性地建設,比如對不可接受的損失的配套工具必須建設,如監控、代碼檢查等;其他工具綜合考慮ROI建設,如用戶體驗優化等。
6)溝通成本的控制與優化
據某大型企業調研顯示,運維團隊每周花費30%工時在無效溝通上,這無疑導致了人員成本的增加。
導致運維人員溝通成本增高的主要原因包括:
針對上述問題,建議組織可以采用在線化-自動化-智能化的方式進行優化和控制。
溝通在線化,打造統一服務入口,通過統一的ITSM受理、記錄、評價運維服務,既規范了服務方式,又實現了運維服務的在線化,如通過藍鯨ITSM構建企業數字化運維服務工作臺。
服務實現自動化:通過自動化與IT服務打通,實現服務受理后自動化交付,提升響應效率和用戶滿意度。同時對于非運維專業工作,鼓勵通過工具進行提效,如豆包、Kimi,輔助知識檢索、生成會議紀要、編寫文檔等,讓運維人員聚焦專業工作。
服務交互智能化:通過大模型提升一線服務效率。
普通用戶一般會向IT提出大量重復性的問題。這類問題大同小異,往往多人詢問同一個問題,但是仍需一對一指導,費時費力。一些日常咨詢問題,通過搜索引擎等其他方式可以解決,仍需求運維工程師解決。通過大模型、知識庫等建立知識智能問答、工單智能提交、自動派單智能化能力,釋放一線運維人員精力,提升用戶滿意度。
7)管理成本的控制與優化
管理成本指保障IT運維體系正常運轉所需的非直接技術支出,包括流程管理、制度合規、培訓與知識、風險管理、組織協調等。管理成本高的主要原因包括流程低效、組織協同難度大、工具碎片化、信息不集中等原因。通過人員、資源、溝通等成本和效率優化方式,能夠為管理成本帶來一定的優化空間,但仍可能因為信息分散、數據不集中導致決策難度增大,管理效率下降。
因此,優化管理成本的首要任務是能夠將運維數據進行量化展示和統計,包括系統運行態勢、運維任務狀態、安全態勢等等。通過數據構建運維駕駛艙,實現一圖觀全局。如:
(1)核心業務監測
(2)全局應用狀態
(3)事件問題追蹤
除了實現運維數據可視化外,可以通過成本分攤、核算、貨幣化等手段,將運維成本進行可視化,通過工單、系統等手段對運維服務做成本量化,明晰成本構成,為運維預算規劃提供基礎,同時可以有針對性地進行成本優化和控制。
如某央企公司IT成本攤銷管理,通過ITSM實現服務計價,量化服務成本,并通過報表展示成本攤銷,為IT預算設計和優化提供數據支撐。首先分析IT組織成本構成,包括固定成本、服務成本、資產折舊、人員薪酬。
其次明確各項成本的數據來源,比如服務成本通過服務工單進行統計和結算,固定分攤圖、人員薪資通過財務和人力系統提供數據。最后對數據進行匯總統計,形成IT部門成本明細。實現運維成本可視化、管理規則可優化、運維預算可規劃的目標。
03.運維降本增效與轉型實踐
1)某集團公司運維價值量化實踐
某集團公司,人均運維1000+服務器,人均對接和服務30+研發用戶。極高的運維效率背后,是其多年運維降本增效的實踐與沉淀。
當前運維團隊業務覆蓋研發過程可靠性、版本發布連續性、持續運營穩定性以及降本增效持久性4大類200余項服務項。目前已實現100%運維在線化、自動化運維工具積累400+、智能化場景全面普及,以及運維管理體系化建設。
(1)在線化:以ITSM為核心的人效管理
將運維組織負責的工作100%線上化,ITSM服務目錄覆蓋業務操作、故障應急、質量優化、成本優化、自主建設、學習探索、會議溝通、業務體驗8類運維場景。同時通過ITSM與周邊系統聯動,實現數據統計、運維執行的自動化,提升服務效率,節約管理和溝通成本。
(2)自動化:打造工具文化,基于平臺建設自動化運維工具體系
通過運維開發平臺,賦能運維人員,鼓勵建設運維工具,已沉淀700+運維工具,實現運維效率的極致提升;
(3)智能化:數智賦能,運維向運營升級
建設運維AI平臺,降低智能運維開發門檻,實現智能運維的推廣與普及。通過平臺建設通用智能運維場景模板,并提供給各一線運維團隊使用,一線運維通過簡單的數據接入和訓練即可構建屬于該團隊的智能運維模型。
(4)體系化,通過管理賦能組織,通過工具輔助管理
基于100%在線化的運維工作,平臺可以對運維人員服務能力、工作任務進行統計,形成運維人員能力畫像,人員績效考核與管理變得有據可依。
在此基礎上,開展運維貨幣化轉型,以遠低于業務自建團隊的成本,保障相同的可靠性指標,同時提供業務開發團隊難以擴展的服務,并獲得利潤。目的是使得運維組織獲得無需自證的價值,滿足組織長期發展需要。
貨幣化推廣初年,實現運維成本節約11%。
2)某股份制銀行降本增效實踐
某銀行業務飛速發展給運維帶來了巨大的挑戰,推動運維團隊深化降本增效建設,其挑戰包括:
(1)在線化,打造企業服務管理平臺(ESM)
通過ESM構建運營數字化轉型加速器,替換100+原有運營和服務系統,服務覆蓋全行用戶,月服務工單數量超50萬條,綜合服務效率提升5倍以上,實現業務場景流程化、工單處理自動化、服務過程可視化 ,在提升服務效率的同時:
(2)自動化,運維場景自動化,運維效率全面升級
典型建設場景包括:
同時通過RPA建設自動化場景千余個,實現了超萬人次操作的全職人力替代。
(3)智能化:深化AIOps與FinOps融合
通過深化AIOps與FinOps融合,利用技術優化資源預測,實現更精準的成本控制和效率提升,為運維帶來顯著效益。結合FinOps的財務視角,AIOps能自動分析成本趨勢,識別異常支出,助力在運維層面實現精細化財務管理。
加大自動化工具投入,實現運維流程智能化,減少人工干預,進一步提升運維效率和降低成本。 持續探索AIOps與FinOps融合的新模式,推動技術創新,以適應不斷變化的業務需求,保持行業領先地位。
(4)體系化:科學化成本經營
通過成本可視、資源協同、技術治理三位一體,項目實施首年直接節省新增采購成本顯著降低,通過機器濾舊、混部、下線等措施實現間接節約。
04.總結
運維降本增效是運維組織持之以恒的目標,本質是通過技術杠桿與流程創新實現組織能力提升。對于運維組織來說,降本增效課題既是挑戰更是機遇,通過降本增效建設可以將運維從成本消耗部門轉變為業務增長引擎,支撐數字化轉型。也可以助力企業構建“技術驅動型”運維團隊,成為企業數字化轉型的核心樞紐。
1)技術杠桿:
通過技術手段放大運維的ROI,其中
2)多維成本優化:
從顯性到隱性的全面管控
降本增效的目標是實現運維角色的戰略升級,從“成本中心”轉型為“業務增長引擎”。通過服務貨幣化、SRE實踐與數據驅動決策,運維不僅保障業務連續性,更直接參與企業價值創造。降本增效的終極目標并非“少花錢”,而是“花對錢”。通過技術與管理的雙輪驅動,運維團隊將成為企業數字化轉型的核心樞紐,以更低的成本創造更高的業務價值,實現從“支撐者”到“驅動者”的跨越。
申請演示