企業數字化轉型如何護航?智能運維是必走之路_風聞
大数据在线-2021-01-21 20:42
如果要評選世界上壓力最大的工作,那麼運維管理估計會大概率的入圍。
人們形容運維人的工作日常:不是在解決問題就是在解決問題的路上。以至於運維人自己也感嘆乾的工作是操着賣白fen的心、賺着賣白菜的錢……
運維工作有多難?來通過一個真實案例直觀感受一下。
某大型汽車集團,在全球汽車行業排名前列,不僅部署了Tivoli、SAP、EP、SDAP等眾多軟件,還應用了Zabbix等諸多開源軟件;隨着雲計算的普及,該集團還將部分業務部署在公有云之中。數據量龐大且類型豐富,複雜的多雲環境,繁多的監控運維工具,超級多的無效運維事件,讓該集團運維工作挑戰巨大,運維人員日常工作中如坐針氈,“惶惶不可終日”。
類似情況在其他企業比比皆是。同為打工人,運維人不該被這樣對待。如何改變這種局面?近年來,智能運維異軍突起,成為解救企業和運維人員的及時雨。
智能運維,即通過結合大數據和機器學習等相關技術,以數據採集與分析各種數據支持所有主要的IT運營功能,將徹底改變過去傳統運維的種種詬病,被認為既是解放運維人員的救星,也可為眾多企業的數字化轉型保駕護航。
運維為何就這麼難
在當下,很多企業經過多年數字化建設,通過整合監控與告警、與ITSM集成、自動化運維,基本建成了包含“監控、管理、控制”三大維度的運維體系。但這種典型的傳統運維體系卻是大而不強、全而不準。
究其原因,它是時間的產物,伴隨着企業數字化建設的進程而逐漸搭建起的,缺乏頂層設計和全局視角,更像是眾多工具與產品的堆砌。由於底層數據並未徹底打通,導致工具與工具、方案與方案彼此之間並不存在強邏輯聯繫,依然是以“各自為政”為主。
以監控維度為例,在運維界有句老話:監控先行。整個集中監控體系的構建,從最早的網絡管理,到後續的數據庫/數據庫管理、存儲/服務器管理,再到之後的虛擬化/雲管理,才逐漸形成集中監控體系,通過不同的監控工具來實現這些平台的實時告警查看和平台優化建議。但現實中,這種監控體系卻無法覆蓋與打通鏈路監控(Traces)、指標監控(Metrics)和日誌監控(Logs)全部運維數據,不能構建起面向業務自上而下的監控全覆蓋。
監控體系自身尚且如此,監控與管理、控制之間就更缺乏全鏈路的聯動。這些情況直接導致了當前很多企業在運維上面臨着運維數據範圍不足、告警氾濫、根因分析定位難、缺少全鏈路聯動分析等情況。
首先,企業數字化轉型的進程中,面臨着IT環境日趨複雜、應用大量增加、設備種類繁多等情況。Gartner就預測設備和應用程序所產生的數據量正以每年2-3倍的速度增長,且數據類型多樣。另一方面,業務和環境的複雜性也讓運維對象、數據與指標覆蓋不足,運維數據範圍不足造成故障發生前缺少健康度洞察,難以提前預測故障事件。
其次,大量設備與應用,各種各樣的監控工具,讓監控對象條目過多、告警數量多造成當故障事件發生時,告警氾濫,誤報、漏報情況嚴重,難以實現精準告警。更加致命的是,故障事件發生之後,基於告警的機制很難有效定位問題,缺少調用鏈信息,難以定位到服務和請求類的根本原因。
另外,業務依賴關係複雜也造成了整個運維缺少全局運維視圖,跨多系統的運維無法聯動,單業務系統內部的服務調用請求難以分析。
“傳統運維是建立在CMDB的基礎之上,CMDB自身的限制性、時效性、可維護性、複雜性等決定了其無法給運維人員呈現不同運維工具之間的監控關係。”愛數運維技術專家透露道。
因此,智能運維開始呼之欲出,也即現在流行的AIOps。Gartner認為,AIOps將跨平台的數據鏈進行打通與集成,通過機器學習和大數據等技術,讓運維獲得主動、個性化和動態的洞察力,從而支撐起所有IT運營的功能。Gartner並預測到2022年,有40%的大型企業將會進行部署AIOps平台。
智能運維雖好,卻也有一個很現實的問題,即全球沒有一家公司的產品可以覆蓋全部數據範圍來幫助用户構建智能運維中心。藉助生態的力量,廠商與廠商在產品、技術以及方案層面的打通與聯動就成為當前智能運維最重要的發展方向。例如,愛數與聽雲在今年的戰略合作就開啓了智能運維方案打造的新思路。
如何讓智能運維1+1>2
愛數與聽雲在智能運維領域開啓了新模式。今年1月份,雙方攜手正式推出了智能運維整合方案,旨在幫助客户全面管理、深度洞察海量、多源、異構的機器數據。
具體來看,中國用户對於這種智能運維整合方案需求更加迫切。中國企業的業務規模性和複雜性在全球無出其右,帶來了對於日益主動的IT運營、更加細化的成本優化目標和質量期望、更加快速的故障響應與處理、更加穩定的業務持續性等運維需求。
在雙方的整合方案中,愛數聚焦在智能運維領域多年,擁有深厚的技術積累和豐富的實踐經驗,其AnyRobot是一款開放、高效、經濟的機器數據分析平台;而聽雲是國內唯一一家連續多年入選Gartner APM魔力象限的廠商,主要聚焦在應用性能管理和用户體驗優化。
愛數AnyRobot主要聚焦指標監控(Metrics)和日誌監控(Logs)數據,而聽雲智能監控產品主要聚焦鏈路監控(Traces)、指標監控(Metrics)數據,雙方聯合方案則實現了全方位接入企業各維度機器數據,可以全方位提高客户運維效率,驅動組織業務運營創新。
例如,該智能運維整體方案可以實現日誌溯源與智能分析,通過運維數據間開放集成,AnyRobot實時採集業務應用及其底層基礎設施的日誌數據,與聽雲APM應用性能監控數據進行開放共享,對用户業務系統的機器數據進行統一管理。在運維故障分析過程中,可直接追蹤事件發生過程,一鍵定位故障根源,確保業務運營高效運行,並提供端到端的完整應用性能優化方案,提升用户體驗。
另外,該智能運維整體方案還可以對配置的日誌告警數據和性能監控數據進行綜合分析,避免重複告警;並增加智能告警算法,根據告警歷史數據進行智能檢測,從而提高告警準確性,縮短故障發現時間、減少誤報漏報、提升故障修復效率。
與此同時,除了監控之外,愛數與聽雲產品的開放性,也保證瞭解決方案可以跟ITSM和自動化運維平台之間進行打通與聯動。
某種程度來看,愛數與聽雲走到一起,就是在幫助用户打通過去傳統運維的種種“壁壘”,讓運維數據、工具、平台可以實現打通與聯通,讓運維真正成為一盤棋。與此同時,雙方合作也揭示運維平台未來的發展趨勢。
運維平台趨勢:開放、高效、經濟
隨着大部分企業數字化轉型的不斷深入,業務數字化程度不斷提升,運維所面臨的複雜性、多樣性將會只增不減。由於運維所涉及的相關領域與內容實在是太過於廣泛,未來也不能一家公司就可以徹底搞定,所以在業務複雜性不斷提升的趨勢下,運維平台走向開放、高效與經濟乃是大勢所趨。
以愛數AnyRobot機器數據分析平台為例,其產品從設計開始就聚焦了開放、高效、經濟三個核心特徵。
在開放性方面,愛數AnyRobot採用了創新Hub架構,實現多源異構數據、多機器數據平台的統一納管,可以讓用户具備更多機器數據接入的能力,同時機器數據接入之後,實現統一的機器數據分析平台和通用的數據消費能力。
開放性給運維帶來何種好處?舉個例子,金融、電信、能源、互聯網等行業的眾多用户,在底層數據分析平台上採用了開源數據分析平台ELK或商業數據分析平台Splunk,並且運行多年,與各個業務捆綁緊密。隨着技術的發展,安全審計等的要求,僅僅依靠ELK或者Splunk已不能完全符合用户的真實需求,愛數AnyRobot的Hub架構讓與ELK、Splunk等共同服務用户的機器數據的採集、存儲和分析。
此外,在高效層面,愛數AnyRobot還採用了小程序架構,讓用户更好地獲取應用分析App的能力;在經濟層面,愛數AnyRobot採用了存算分離架構,實現計算與存儲分離,同時計算可以實現完全的彈性擴展,最大限度的為用户節省各種資源。
從長遠來看,開放、高效、經濟的運維平台也是最符合企業用户對於運維的要求。未來,隨着企業數字化轉型的深入,以及像愛數、聽雲這些中國智能運維廠商利用生態不斷完善聯合解決方案,中國用户有望得到更加出色的智能運維產品與服務。