
體驗(yàn)文章從管理員和用戶兩個(gè)維度全面展示了AIStation。管理員維度動(dòng)手體驗(yàn)了管理集群、創(chuàng)建用戶、分配資源、資源監(jiān)控等;用戶維度動(dòng)手體驗(yàn)了創(chuàng)建訓(xùn)練任務(wù),啟動(dòng)并完成任務(wù)的完整過(guò)程。此外,STH還刊載了記者就AIStation市場(chǎng)策略對(duì)浪潮AI&HPC總經(jīng)理劉軍的訪談。
STH認(rèn)為“做好AI集群運(yùn)營(yíng)可能并不像發(fā)現(xiàn)一種解決深度學(xué)習(xí)問(wèn)題的新方法那樣振奮人心,但對(duì)于在組織內(nèi)擴(kuò)展共享資源至關(guān)重要。”
附STH評(píng)測(cè)體驗(yàn)AIStation全記錄
在深入了解【用戶系統(tǒng)】前,我們先對(duì)【管理員系統(tǒng)】進(jìn)行了體驗(yàn)。基于Kubernetes容器引擎的AIStation,與許多傳統(tǒng)的GPU/HPC/AI調(diào)度系統(tǒng)比較,不管是系統(tǒng)本身還是界面設(shè)計(jì),都更具領(lǐng)先性。
01. 管理員視角
后臺(tái)的管理:AIStation在后臺(tái)開(kāi)始運(yùn)行后,大部分日常管理工作都可以使用腳本或通過(guò)Web GUI完成。管理員可以深入查看各個(gè)節(jié)點(diǎn)的負(fù)載、硬件配置,甚至可以追蹤從用戶到容器、硬件,再到單個(gè)GPU的整個(gè)流程。

浪潮AIStation管理/GPU監(jiān)控&節(jié)點(diǎn)監(jiān)控'''
浪潮AIStation管理/存儲(chǔ)監(jiān)控
- 資源組的創(chuàng)建:盡管我們的測(cè)試集群只有幾個(gè)節(jié)點(diǎn),但我們聽(tīng)說(shuō)AIStation已經(jīng)部署了數(shù)百個(gè)節(jié)點(diǎn)和上千個(gè)節(jié)點(diǎn)的集群。隨著節(jié)點(diǎn)數(shù)量的增加,創(chuàng)建資源組變得更加重要。AIStation可以創(chuàng)建多個(gè)資源組,將其指定用于開(kāi)發(fā)、訓(xùn)練或通用,也可以為該組設(shè)置一些更高級(jí)別的管理和預(yù)留權(quán)限。

浪潮AIStation管理員/新建資源組
- 用戶及用戶組的創(chuàng)建:除了創(chuàng)建資源組之外,創(chuàng)建用戶和用戶組可能更重要。AIStation可以創(chuàng)建用戶或與現(xiàn)有的用戶目錄工具集成,然后為用戶授予訪問(wèn)不同資源、存儲(chǔ)配額、GPU配額等的權(quán)限。
比如,一家公司可能不會(huì)讓一個(gè)實(shí)習(xí)生100%使用整個(gè)集群或訪問(wèn)敏感的訓(xùn)練數(shù)據(jù)/模型,而會(huì)把優(yōu)先權(quán)給到深度學(xué)習(xí)專(zhuān)家組成的內(nèi)部咨詢小組。AIStation的主要價(jià)值主張是通過(guò)單個(gè)系統(tǒng)進(jìn)行全面管理。

浪潮AIStation/Admin系統(tǒng)管理/用戶管理
- 管理員的其他權(quán)限:管理員還可以根據(jù)權(quán)限訪問(wèn)整個(gè)集群。例如,遇到作業(yè)運(yùn)行緩慢的問(wèn)題,管理員可以使用監(jiān)控工具查找他們的作業(yè)以及有問(wèn)題的容器,甚至可以直接進(jìn)入硬件查看是否有潛在的硬件問(wèn)題。

浪潮AIStation 開(kāi)發(fā)平臺(tái)/容器監(jiān)控
AIStation還具有相當(dāng)全面的可視化界面,用于監(jiān)控集群,界面上可以看到CPU、GPU和內(nèi)存的利用率等信息。在集群生命周期管理方面,這類(lèi)數(shù)據(jù)可幫助管理員查看資源配置情況以及系統(tǒng)容量。
例如,如果集群以50%的CPU、60%的GPU、95%的內(nèi)存運(yùn)行,這就充分說(shuō)明下一代節(jié)點(diǎn)需要更多的內(nèi)存容量。

浪潮AIStation管理員/報(bào)告管理/資源數(shù)據(jù)
管理員用戶還可以查看已完成的任務(wù),以查看用戶先前運(yùn)行的內(nèi)容,包括作業(yè)是否成功。在某些情況下,人們會(huì)在公司GPU集群上挖掘加密貨幣。此類(lèi)功能可根據(jù)已運(yùn)行的內(nèi)容進(jìn)行審核跟蹤,這項(xiàng)功能非常重要。

浪潮AIStation管理員/訓(xùn)練管理/已完成任務(wù)
除了上述功能之外,另一個(gè)重要功能是管理用戶在系統(tǒng)中擁有的資源。接下來(lái),我們會(huì)從用戶的角度進(jìn)行詳細(xì)闡述。
02. 用戶視角
登錄AIStation時(shí)可以看到這個(gè)界面。這里面許多使用限制是通過(guò)管理板塊中顯示的用戶、組和資源組功能定義的。每個(gè)用戶都可以訪問(wèn)到一組資源。

浪潮AIStation用戶界面
鏡像查看:開(kāi)發(fā)人員如果要開(kāi)始訓(xùn)練任務(wù),可以查看可訓(xùn)練的鏡像。這些鏡像很重要,因?yàn)樵谙到y(tǒng)中創(chuàng)建任務(wù)時(shí),它們就是可能正在使用的鏡像。它可以是來(lái)自NVIDIA GPU Cloud的鏡像或更加標(biāo)準(zhǔn)的鏡像。AIStation還具有組鏡像甚至用戶鏡像的功能,讓用戶可以更輕松地選擇容器鏡像。
用戶可以看到個(gè)人、組和公共鏡像。管理員可以將鏡像定義為個(gè)人鏡像或公共鏡像,將敏感鏡像的查看權(quán)限僅開(kāi)放給特定組或員工,這點(diǎn)也非常重要。

浪潮AIStation用戶/鏡像管理
框架選擇與任務(wù)設(shè)置:浪潮AIStation支持多種框架,用戶可以使用tensorflow、pytorch、paddlepaddle或其他框架。

注:開(kāi)發(fā)用戶通過(guò)界面化的方式選擇所需要的鏡像和資源配置,系統(tǒng)秒級(jí)完成資源配置,快速創(chuàng)建開(kāi)發(fā)環(huán)境。平臺(tái)內(nèi)置juputer和webshll開(kāi)發(fā)工具,保證用戶快速進(jìn)入模型開(kāi)發(fā)。
- 數(shù)據(jù)管理:數(shù)據(jù)管理在AI集群中極為重要,AIStation能夠定義和存儲(chǔ)數(shù)據(jù)集。
從用戶的角度來(lái)看,他們可以查看哪些數(shù)據(jù)集可供使用。用戶能夠?qū)⑷萜鲌D像、節(jié)點(diǎn)/物理資源和訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)。而管理員可以對(duì)這些數(shù)據(jù)集設(shè)置權(quán)限。這一點(diǎn)很重要,因?yàn)橛行⿺?shù)據(jù)集只有指定用戶才能查閱、使用和下載。
在AIStation中還可以加載Jupyter筆記本,直接編輯python文件,并且可以將筆記本保存在集群的存儲(chǔ)后臺(tái),并輕松與其他用戶共享。

浪潮AIStation用戶平臺(tái)/開(kāi)發(fā)平臺(tái)/Jupyter

浪潮AIStation/訓(xùn)練任務(wù)設(shè)置
注:用戶可以圖形化的方式提交分布式訓(xùn)練任務(wù),快速在K8S系統(tǒng)中展開(kāi)分布式訓(xùn)練,并通過(guò)優(yōu)化調(diào)度策略保證分布式訓(xùn)練資源快速準(zhǔn)確分配。
可視化操作:?jiǎn)?dòng)任務(wù)后,AIStation平臺(tái)將集成許多可視化工具。例如,您可以啟動(dòng)Tensorboard、Visdom或Netscope等工具,從下拉菜單中顯示可視化效果;用戶可以直接從Web GUI進(jìn)入容器的終端。
訓(xùn)練作業(yè)可能要花數(shù)小時(shí)或數(shù)天,用戶可隨時(shí)查看當(dāng)前作業(yè)狀態(tài)進(jìn)度、檢查結(jié)果以及待處理的作業(yè)及其歷史。

浪潮AIStation用戶開(kāi)發(fā)平臺(tái)可視化Tensorboard
03. 對(duì)話浪潮劉軍
AIStation上市戰(zhàn)略方面,我們采訪了浪潮AI&HPC總經(jīng)理劉軍。

STH: 浪潮如何規(guī)劃AIStation的上市?
劉軍:AIStation有直接銷(xiāo)售和渠道銷(xiāo)售兩種銷(xiāo)售方式,我們?cè)谌蛴袛?shù)十個(gè)渠道合作伙伴出售AIStation。
STH: AIStation可以集成其他服務(wù)器供應(yīng)商的集群節(jié)點(diǎn)嗎?
劉軍:是的,AIStation能夠集成其他供應(yīng)商的集群節(jié)點(diǎn)。
STH: AIStation的銷(xiāo)售是否針對(duì)特定行業(yè)?
劉軍:AIStation發(fā)布于2019年4月,目前已已實(shí)際應(yīng)用于金融、教育、互聯(lián)網(wǎng)和智慧城市等行業(yè)。
STH: 只面向大型組織、服務(wù)提供商嗎?初創(chuàng)企業(yè)等較小的組織是銷(xiāo)售目標(biāo)嗎?
劉軍:AIStation專(zhuān)為深度學(xué)習(xí)開(kāi)發(fā)領(lǐng)域而設(shè)計(jì),適用于金融、互聯(lián)網(wǎng)、通信、交通、醫(yī)療和教育等行業(yè)的大小型企業(yè)。
STH: 許可模式是怎樣的?
劉軍:按GPU服務(wù)器節(jié)點(diǎn)出售。
STH: 升級(jí)許可證需要購(gòu)買(mǎi)新密鑰,還是客戶憑借現(xiàn)有密鑰從浪潮注冊(cè)服務(wù)器上獲得新權(quán)限?(這里提醒讀者,Web GUI上有一個(gè)許可證密鑰頁(yè)面,上文未展示)
劉軍:用戶可享受三年內(nèi)AIStation的免費(fèi)升級(jí)服務(wù),然后需要購(gòu)買(mǎi)新密鑰進(jìn)行升級(jí)。
STH: 針對(duì)該解決方案,浪潮未來(lái)會(huì)提供其他新的服務(wù)嗎?
劉軍:未來(lái)AIStation將支持更多的AI加速器,并實(shí)現(xiàn)資源管理、調(diào)度、監(jiān)控、優(yōu)化等方面的異構(gòu)加速。我們將建立一個(gè)更全面的AI開(kāi)發(fā)生態(tài)系統(tǒng),為行業(yè)主流AI開(kāi)發(fā)工具、開(kāi)發(fā)框架和深度學(xué)習(xí)模型提供一個(gè)集成的開(kāi)發(fā)平臺(tái)。
最后我想強(qiáng)調(diào)一下在此展示AIStation的動(dòng)手視圖和上市策略的原因。AIStation發(fā)布第一年即獲得不俗的軟件銷(xiāo)售額。要是看到他們所投資公司的AI管理軟件平臺(tái)首年就獲得如此成績(jī),投資者一定會(huì)非常興奮。重點(diǎn)是,盡管浪潮將其作為產(chǎn)品發(fā)布,但實(shí)際上它已經(jīng)有很多付費(fèi)客戶。這些客戶已經(jīng)在使用此解決方案來(lái)管理其AI集群和開(kāi)發(fā)團(tuán)隊(duì)。
結(jié)合當(dāng)前的功能,再想想異構(gòu)加速器的概念,就能馬上明白該解決方案的前景。隨著組織中集群的增多,調(diào)度和管理集群資源將成為越來(lái)越嚴(yán)峻的挑戰(zhàn),浪潮AIStation的作用也將進(jìn)一步凸顯。

掃碼獲取AIStation技術(shù)白皮書(shū)
閱讀原文獲取完整評(píng)測(cè)內(nèi)容
*注:浪潮今年重磅發(fā)布了元腦生態(tài)計(jì)劃,在元腦生態(tài)中浪潮將與合作伙伴共享三大核心平臺(tái)能力,包括AI計(jì)算平臺(tái)、AI資源平臺(tái)和AI算法工具平臺(tái)。其中AIStation作為AI資源平臺(tái)具備重要的作用,構(gòu)建開(kāi)放的AI創(chuàng)新生態(tài),無(wú)縫對(duì)接行業(yè)ISV,賦能生態(tài)伙伴,兼容各AI應(yīng)用和場(chǎng)景。目前AIStation已經(jīng)聚合了包含百度、第四范式、英特爾、英偉達(dá)、VMware等數(shù)十家家企業(yè)的AI框架、模型和工具組件,已應(yīng)用到互聯(lián)網(wǎng)、通信、金融、交通、制造、醫(yī)療等場(chǎng)景中,成為生態(tài)豐富的人工智能資源平臺(tái)。