今年數(shù)據(jù)中心被納入新基建范疇,這個政策也體現(xiàn)了國家對數(shù)據(jù)中心建設的重視,各地也在加速新基建的落地。全國已有數(shù)據(jù)中心機架數(shù)量超200萬個,據(jù)中國信息通信研究院的專家判斷,數(shù)據(jù)中心市場的總體規(guī)模仍在快速增長,未來三年年均復合增長率不低于30%。數(shù)據(jù)中心建設如何向著大型化、規(guī)模化、節(jié)能化、智能化的方向發(fā)展,實現(xiàn)全國資源合理布局,成為當下的一個議題。
易捷行云新一代私有云EasyStack ECS將1000+家大中型企業(yè)客戶、數(shù)萬節(jié)點規(guī)模云平臺的運維經(jīng)驗產(chǎn)品化,實現(xiàn)了輕運維。它基于安全、穩(wěn)定、高效的新一代數(shù)據(jù)中心分布式云操作系統(tǒng),通過一體化、場景化的設計理念將平臺與服務相分離,實現(xiàn)了全平臺的可進化能力和輕運維能力。在輕運維方面,它可實現(xiàn)超大規(guī)模云計算中心的智能統(tǒng)一運維,不僅實現(xiàn)了日志、監(jiān)控、告警的可視化、自動化,還可以自主探測系統(tǒng)拓撲與服務狀態(tài)的變化,進而實現(xiàn)基于智能感知的故障預診斷分析和快速自愈。
本篇為易捷行云輕運維系列之智能監(jiān)控篇。

隨著企業(yè)數(shù)字業(yè)務規(guī)模不斷擴大,上線的業(yè)務系統(tǒng)日益增多,IT系統(tǒng)的穩(wěn)定運行也日益重要。面對日益復雜多變的IT系統(tǒng),企業(yè)需要一套涵蓋基礎(chǔ)架構(gòu)、系統(tǒng)應用性能和用戶體驗管理的統(tǒng)一監(jiān)控平臺,提供統(tǒng)一監(jiān)控、日志、告警服務,構(gòu)建立體化IT監(jiān)控和運維管理體系,無后臺操作實現(xiàn)故障自愈,提高IT系統(tǒng)運維工作的整體效率及服務水平,保障業(yè)務系統(tǒng)的持續(xù)穩(wěn)定運行。
統(tǒng)一監(jiān)控、日志、告警服務,無人值守智能運維
傳統(tǒng)私有云的監(jiān)控管理、巡檢、日志等系統(tǒng)是分開建設的,監(jiān)控工具需要通過手工方式進行數(shù)據(jù)集成與分析,并且只能臨時應付IT運營團隊遇到的問題。而易捷行云新一代私有云EasyStack ECS可實現(xiàn)超大規(guī)模云計算中心一體化統(tǒng)一運維,將1000+家大中型企業(yè)客戶、數(shù)萬節(jié)點規(guī)模云平臺的運維經(jīng)驗產(chǎn)品化,常見問題內(nèi)置于產(chǎn)品內(nèi),并且不斷更新告警知識庫,實現(xiàn)監(jiān)控可進化。
易捷行云新一代私有云ECS提供智能運維監(jiān)控服務,除了為每個項目提供項目視角的云資源監(jiān)控之外,還為運維人員提供全局視角的智能運維監(jiān)控,可以對平臺運行時的各類指標進行實時監(jiān)控,第一時間了解各類資源的使用情況以及各項服務的運營狀態(tài),從故障的預警、發(fā)現(xiàn)、診斷到處理,整個流程自動化實施,大大減輕了運維保障人員的工作量。

易捷行云ECS智能運維監(jiān)控
易捷行云新一代私有云ECS具備完善的監(jiān)控告警機制,提供完善的監(jiān)控、日志、告警API,便于與企業(yè)已有系統(tǒng)集成,同時可以針對各類指標設置警報,及時通知管理員系統(tǒng)運行故障以及潛在的風險。此外,還提供日志管理服務,方便運維人員對平臺歷史運行狀態(tài)進行審計、排查等操作。
資源全棧覆蓋,智能故障處理
易捷行云新一代私有云ECS監(jiān)控服務主要對云平臺的物理資源、云服務資源、分布式存儲集群以及控制平面服務狀態(tài)等進行統(tǒng)一監(jiān)控管理,并提供豐富的監(jiān)控大屏可視化展示,覆蓋多項監(jiān)控指標,全面滿足用戶對于系統(tǒng)穩(wěn)定性和可靠性的需求。
云平臺一體化態(tài)勢實時呈現(xiàn):提供統(tǒng)一的界面,針對數(shù)據(jù)中心資源進行多維度全面監(jiān)控;態(tài)勢感知底層資源數(shù)據(jù),提供直觀友好的監(jiān)控可視化展示,直觀的體現(xiàn)應用、基礎(chǔ)架構(gòu)和告警等運維整體健康狀況,展示監(jiān)控對象的關(guān)鍵數(shù)據(jù),方便運維人員對所有業(yè)務應用和IT運營情況整體把控。

云資源多維度全面監(jiān)控
助力運維決策與容量規(guī)劃:云監(jiān)控為用戶提供即開即用式的監(jiān)控體驗,用戶登錄云監(jiān)控控制臺即可查看云服務的監(jiān)控報表,細粒度監(jiān)控指標,性能、容量、運行狀態(tài),助力運維決策與容量規(guī)劃;報警服務和自動巡檢報告可通過郵箱進行推送告知,確保基礎(chǔ)設施出現(xiàn)異常時的快速預警。

基礎(chǔ)設施異常實時告警
故障預診斷分析和快速自愈:實時、準確掌握各業(yè)務應用系統(tǒng)的運行狀態(tài),自主探測系統(tǒng)拓撲與服務狀態(tài)的變化,進而實現(xiàn)基于智能感知的故障預診斷分析和快速自愈。

高效故障定位,快速自愈
面向異構(gòu)多云構(gòu)建立體化IT監(jiān)控和運維管理體系
隨著客戶對多云的接受程度越來越高,客戶IT資源中越來越多的應用x86和non-x86不同平臺,需要支持異構(gòu)多云的云平臺,提供統(tǒng)一的服務監(jiān)控。
易捷行云基于新一代私有云ECS打造異構(gòu)多云的云服務平臺,為用戶業(yè)務應用提供x86和non-x86的異構(gòu)計算能力,并對底層異構(gòu)資源技術(shù)差異性進行有效屏蔽,充分滿足了企業(yè)用戶“多樣化計算、多云形態(tài)”訴求。同時,易捷行云基于新一代私有云ECS面向異構(gòu)多云提供統(tǒng)一服務監(jiān)控,打破數(shù)據(jù)孤島,構(gòu)建立體化IT監(jiān)控和運維管理體系。
案例:某大型國有銀行基于易捷行云新一代私有云ECS實現(xiàn)智能監(jiān)控
某大型國有銀行總資產(chǎn)超過10萬億,該銀行把金融科技提升到全行戰(zhàn)略高度,積極推進互聯(lián)網(wǎng)金融平臺建設,采用易捷行云新一代私有云ECS,構(gòu)建了基于OpenStack的金融生產(chǎn)云。由于該銀行云平臺跨越兩地三中心,部署數(shù)千節(jié)點,同時按照項目方式建設的云平臺比較多,存在多套控制平面以及監(jiān)控系統(tǒng),累加在一起對設備及資源的占用問題就浮現(xiàn)出來,資源統(tǒng)一管理、統(tǒng)一調(diào)配、統(tǒng)一運維的需求日益迫切。
易捷行云新一代私有云ECS通過整合集中化統(tǒng)一監(jiān)控運維,在運維上采用了集中可視化管理:對包括兩地三中心云系統(tǒng)提供的云服務及建設的資源池實現(xiàn)統(tǒng)一監(jiān)控、管理,最大化保障平臺的可用性。同時,借助AIOps思想,把總結(jié)的運維經(jīng)驗產(chǎn)品化,實現(xiàn)故障智能化事件調(diào)度。當出現(xiàn)某一種故障時,云平臺自動觸發(fā)故障處理機制,全平臺故障自愈設計,全面保障平臺穩(wěn)定運行,提升平臺管理和運維服務質(zhì)量。
通過易捷行云新一代私有云ECS智能運維監(jiān)控服務,可實時收集獲取私有云資源的監(jiān)控指標或用戶自定義的監(jiān)控指標,探測服務可用性,以及針對指標設置警報,全面掌控各核心系統(tǒng)的服務狀態(tài)及業(yè)務支撐能力,為業(yè)務和系統(tǒng)性能分析、IT運維管理決策奠定了數(shù)據(jù)基礎(chǔ),以簡單高效的輕運維體驗保證云應用順暢運行。