近日,在ODCC峰會(huì )“數據中心管理的開(kāi)放之路”的圓桌對話(huà)上,來(lái)自英特爾、三星和浪潮信息的技術(shù)專(zhuān)家,從多元算力時(shí)代下管理固件面臨的挑戰、OpenBMC社區的發(fā)展現狀、管理固件未來(lái)發(fā)展趨勢等方向,暢聊數據中心固件管理開(kāi)放之路,深度探討OpenBMC為數據中心固件管理發(fā)展帶來(lái)的全新機遇與變革路徑。
數據中心規模化發(fā)展,點(diǎn)燃BMC管理固件開(kāi)源開(kāi)放
BMC是在服務(wù)器中嵌入的復雜而獨立SoC(System on Chip)系統,硬件上由BMC處理器、內存、Flash和外圍I/O組成,連接著(zhù)服務(wù)器的處理器、存儲、傳感器等各類(lèi)組件,軟件上基于Linux內核構建了嵌入式操作系統固件。BMC固件是服務(wù)器、整機柜到數據中心IT設備管理的關(guān)鍵核心, BMC不僅可以通過(guò)遠程控制、故障診斷、配置部署、固件升級等各類(lèi)運維管理功能,保障服務(wù)器安全可靠運行,也可以為整機柜、數據中心管理平臺提供Redfish、IPMI、SNMP等API接口,實(shí)現海量服務(wù)器遠程集中運維管理和批量部署,是數據中心高效管理的核心組件。
英特爾云計算系統架構師劉凌云在回顧BMC的演進(jìn)過(guò)程中表示,BMC固件以往依賴(lài)IBV(Independent BMC Vendor,獨立BMC固件提供商)設計的閉源商業(yè)方案。但隨著(zhù)超大規模互聯(lián)網(wǎng)應用場(chǎng)景的增多,傳統BMC開(kāi)發(fā)周期長(cháng)、線(xiàn)上故障響應不及時(shí)、安全需求及功能固化等問(wèn)題日益突出。2014年,Meta(Facebook)面對傳統BMC開(kāi)發(fā)周期長(cháng)、問(wèn)題處理響應慢、黑盒代碼不安全等問(wèn)題,設計并開(kāi)源了其管理固件解決方案,2015年Meta、谷歌、IBM、英特爾、微軟共同發(fā)起成立OpenBMC社區,點(diǎn)燃了管理固件開(kāi)源開(kāi)放的星星之火。
對此,浪潮信息服務(wù)器固件研發(fā)經(jīng)理王興隆補充道:“服務(wù)器管理固件的產(chǎn)業(yè)生態(tài)是在數據中心規模不斷擴大的背景下逐漸成熟,而傳統BMC開(kāi)發(fā)模式封閉、代碼閉源、架構陳舊,已無(wú)法滿(mǎn)足大規模數據中心更加精細化、深層次的管理需求,OpenBMC應運而生,OpenBMC通過(guò)先進(jìn)的軟件架構讓各功能模塊深度解耦,甚至能夠按需加載功能模塊,提升了代碼的可移植性,顯著(zhù)縮短了固件開(kāi)發(fā)周期;開(kāi)源開(kāi)放讓上下游廠(chǎng)商能夠共同參與貢獻,促進(jìn)了產(chǎn)業(yè)合作與發(fā)展。隨著(zhù)2018年OpenBMC被Linux基金會(huì )接納,行業(yè)對其認可程度逐年提升。”
同時(shí),借助OpenBMC,服務(wù)器、部件等領(lǐng)域的固件創(chuàng )新也在加強,三星電子西安電子研究所資深高級工程師李寧分享了三星和浪潮信息合作的SSD帶外管理創(chuàng )新項目。三星通過(guò)優(yōu)化SSD內部架構,設計獨立的帶外管理控制器監控SSD的主控部件,將SSD的管理和主控分離,管理控制器獨立供電,不僅帶來(lái)更強大的帶外管理能力,控制邏輯也更加可靠。同時(shí)浪潮信息基于OpenBMC實(shí)現BMC與SSD的帶外管理信息交互,實(shí)現了資產(chǎn)信息獲取、SSD健康狀態(tài)監控、運行日志抓取、主動(dòng)告警等功能特性,相比傳統BMC,明顯提升協(xié)同開(kāi)發(fā)調試效率,縮短了開(kāi)發(fā)周期,加快了產(chǎn)品落地進(jìn)度。
智算崛起 數據中心管理固件開(kāi)放成為剛需
如果說(shuō)數據中心的規模化發(fā)展點(diǎn)燃了BMC固件管理開(kāi)源開(kāi)放的“星星之火”,那么數據中心算力的多元化將讓開(kāi)放的BMC管理固件形成“燎原之勢”。劉凌云指出,通用服務(wù)器BMC需管理的硬件主要有CPU、存儲、網(wǎng)絡(luò )、散熱風(fēng)扇等,但在A(yíng)IGC平臺上,BMC需要管理的硬件不但數量多,類(lèi)型也百花齊放,從之前的單一的GPU卡到現在新興的GPGPU卡、AI加速卡、FPGA卡等各種異構加速器,以及其他的通用計算平臺。面對眾多的芯片,需要定義更加開(kāi)放的BMC管理接口標準,以實(shí)現數據中心高效管理。
王興隆進(jìn)一步解釋說(shuō):傳統BMC固件架構落后,可擴展性差,無(wú)法快速適配兼容不同的處理器、加速器。開(kāi)放的OpenBMC固件基于分層解耦的軟件架構,功能模塊之間通過(guò)一致的系統總線(xiàn)接口協(xié)議進(jìn)行交互,擴展性高,能夠實(shí)現靈活的模塊化開(kāi)發(fā),同一套OpenBMC固件代碼能夠同時(shí)兼容多種處理器平臺、多種異構加速器等關(guān)鍵部件,對于新增部件能夠快速適配兼容,大幅縮短迭代周期,提升開(kāi)發(fā)效率。
除了多元算力對BMC固件擴展性、定制化的需求,劉凌云還表示,高算力帶來(lái)的高功耗也在推動(dòng)數據中心散熱體系變革,風(fēng)冷式、冷板式、浸沒(méi)式液冷方案持續并存,這些都需要BMC的統一管理調度。面對超大型互聯(lián)網(wǎng)、人工智能等應用場(chǎng)景,新興服務(wù)器硬件種類(lèi)繁多、快速迭代,OpenBMC已經(jīng)不是錦上添花,而是“非你莫屬”了。
王興隆指出,在異構多元算力需求不斷提升的背景下,算力縱向擴展瓶頸越來(lái)越明顯,橫向擴展成為趨勢,為提升算力資源協(xié)同利用率,浪潮信息設計實(shí)現融合架構3.0原型系統,將通用計算、異構加速計算、內存、存儲、I/O等資源池化,實(shí)現硬件解耦,同時(shí)面向不同應用場(chǎng)景需要通過(guò)軟件定義進(jìn)行硬件資源重構,形成適用于不同應用負載的服務(wù)器系統,而OpenBMC為軟硬件協(xié)同承擔了更多軟件定義的角色。
傳統BMC or OpenBMC,企業(yè)何去何從
OpenBMC勢不可擋,但是否意味著(zhù)傳統BMC走向末路了呢?對此,劉凌云認為傳統的BMC和OpenBMC當前是兩條技術(shù)路線(xiàn),適應于不同的應用場(chǎng)景。中小規模的數據中心用戶(hù)關(guān)注業(yè)務(wù)穩定性,關(guān)注管理固件的兼容性,對定制化要求不高,固件管理的技術(shù)投入資源有限,對技術(shù)類(lèi)別不敏感,傳統的BMC在這種場(chǎng)景仍然有著(zhù)廣闊空間。而對于大型、超大型互聯(lián)網(wǎng)客戶(hù),快速響應,更高性能、更精細化的管理、定制化等訴求則更適合采用OpenBMC。目前處理器廠(chǎng)商正在圍繞帶外管理,運用OpenBMC更精細的管理數據中心設備,在故障診斷、預警、安全等方面進(jìn)行固件技術(shù)創(chuàng )新,以保證較高可用性、可靠性和可管理性。
OpenBMC經(jīng)過(guò)近十年的發(fā)展,已經(jīng)形成較為穩定的基礎代碼,國內大型CSP已發(fā)布OpenBMC方案,服務(wù)器廠(chǎng)商也在持續開(kāi)發(fā)OpenBMC相關(guān)產(chǎn)品和配套解決方案,在剛剛結束的ODCC開(kāi)放數據中心產(chǎn)業(yè)峰會(huì )上,浪潮信息發(fā)布了基于OpenBMC的最新服務(wù)器管理固件解決方案,面向通用客戶(hù)實(shí)現OpenBMC落地應用。
產(chǎn)業(yè)界上下游攜手,加速OpenBMC發(fā)展
出席“大咖來(lái)了”的三位嘉賓一致認為OpenBMC是大勢所趨,數據中心管理固件的開(kāi)源開(kāi)放將推動(dòng)和強化服務(wù)器、部件、處理器等多方面的協(xié)同,并為數據中心高效管理提供更優(yōu)的解決方案。從部件角度,三星未來(lái)將聚焦于存儲部件帶外管理,基于OpenBMC開(kāi)源代碼進(jìn)行固件創(chuàng )新,提供增強的帶外管理能力,比如產(chǎn)品內部各組件監控,設備壽命預測,智能化故障分析,異常恢復和設備認證數據加密等方面。同時(shí),基于OpenBMC的設備帶外管理標準化對推動(dòng)產(chǎn)業(yè)上下游協(xié)同至關(guān)重要,三星攜手浪潮信息在近期的ODCC峰會(huì )中發(fā)布了《服務(wù)器插入式設備帶外管理白皮書(shū)》,希望通過(guò)定義部件管理的軟硬件接口,加速部件與主機BMC適配效率。
從英特爾角度來(lái)看,OpenBMC最重要的功能就是帶外監控和管理,未來(lái)管理會(huì )更加智能化、細粒度和更安全,從而提升數據中心SLA降低TCO。例如內存故障預測隔離,能顯著(zhù)降低服務(wù)器故障率;在線(xiàn)無(wú)縫的固件升級,還有對CPU狀態(tài)性能監測功耗的優(yōu)化管理會(huì )也更加精細,以及對硬件的保護提升安全性等等。此外OpenBMC做為開(kāi)源開(kāi)放平臺,在GPU卡、節能散熱等方面建立標準化管理接口也是未來(lái)英特爾研究的方向。
浪潮信息則認為OpenBMC的發(fā)展會(huì )更加開(kāi)放,更廣泛的產(chǎn)品應用和更穩定的社區基礎代碼,將吸引更多的上下游廠(chǎng)商參與到社區的建設當中。同時(shí)OpenBMC將會(huì )更加標準化,當前面向用戶(hù)側的管理接口已通過(guò)Redfish規范進(jìn)行了標準化,但在服務(wù)器內部的部件管理標準化程度還不夠,相信OpenBMC將推動(dòng)內部管理接口標準化。目前,為了滿(mǎn)足數據中心多元化的算力需求,浪潮信息開(kāi)發(fā)了基于OpenBMC的服務(wù)器管理固件平臺InBry,并對接數據中心集群管理平臺InManage,推動(dòng)形成從部件到服務(wù)器到數據中心的全生命周期精細化管理。
未來(lái),OpenBMC產(chǎn)品化應用更為廣泛,更多用戶(hù)將會(huì )從OpenBMC受益,OpenBMC持續健康發(fā)展將為數據中心產(chǎn)業(yè)的綠色高質(zhì)量發(fā)展創(chuàng )造更大價(jià)值。