——馬歇爾。麥克盧漢,思想家

大數(shù)據(jù)和人工智能正以前所未有的態(tài)勢洶涌而來。一方面是風投和創(chuàng)業(yè)創(chuàng)新,堅信大數(shù)據(jù)和人工智能是下一個尚未被開墾的寶地;另一方面是應用,比起概念盛行的階段,現(xiàn)在的AlphaGo、AR/VR、疾病預測、精準營銷等已經(jīng)把大數(shù)據(jù)和人工智能技術(shù)帶到了“看得到摸得著”的境地。
反觀國內(nèi),雖然大數(shù)據(jù)領域的建設如火如荼,但項目多以解決傳統(tǒng)數(shù)據(jù)處理技術(shù)性能瓶頸,以及利用數(shù)據(jù)統(tǒng)計進行探索性分析為主。真正利用機器學習、人工智能技術(shù)進行數(shù)據(jù)挖掘,還未形成通用行業(yè)標準,但這正是大數(shù)據(jù)未來發(fā)展的重要方向。
機器學習(ML)與人工智能(AI)
人工智能(Artificial Intelligence,縮寫為AI),是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學,是計算機科學的一個重要分支,也是大數(shù)據(jù)領域不可忽視的一個發(fā)展方向。可以預見,未來的大數(shù)據(jù)系統(tǒng)勢必會變得更加智能,我們的生活也勢必因為AI帶來巨大的改變。而機器學習(Machine Learning,簡稱ML)作為人工智能研究的核心問題,也備受關(guān)注。該子學科是實現(xiàn)人工智能的重要途徑之一,也推動了人工智能、人機互補的進步。未來,人工智能(AI)、商業(yè)智能(Business Intelligence,簡稱BI)、機器學習(ML)都將成為我們生活中的重要工具,在機器人、經(jīng)濟政治決策、控制系統(tǒng)、仿真、生物基因等領域發(fā)揮巨大作用。
和石器、鐵器、指南針、火藥、互聯(lián)網(wǎng)一樣,機器學習是一種工具,促進人類的進步。人類正是不斷制造和改進工具,才有了今天的發(fā)展和繁榮。不斷改進和發(fā)展是相關(guān)聯(lián)的,也即所謂永不滿足、進取精神。
DataEngine大數(shù)據(jù)平臺 開創(chuàng)機器學習新篇章

(新華三 DataEngine 大數(shù)據(jù)平臺)
新華三集團基于對市場的敏銳觸覺和前瞻性的研究,于近日發(fā)布了DataEngine大數(shù)據(jù)平臺,致力于為用戶提供挖掘大數(shù)據(jù)金礦的高效工具。
DataEngine大數(shù)據(jù)平臺對用戶來說,最有趣也最有價值的服務,就是在數(shù)據(jù)挖掘和機器學習方面,基于底層數(shù)據(jù)平臺推出的ML可視化服務,讓機器學習變得簡單易用。
ML可視化服務能帶給用戶舒暢靈動的數(shù)據(jù)挖掘體驗,輕松拖拽就可以完成機器學習,對用戶零代碼技術(shù)要求,快速上手。并且可以基于Hive數(shù)倉和Spark引擎,讓機器學習更加高效。
下面,以一個實際的操作案例,帶你進入ML可視化服務的奇妙之旅。

(ML可視化服務歡迎界面)
ML可視化服務 繪畫出數(shù)據(jù)價值
以預測個人年收入為例,通過歷史個人數(shù)據(jù)訓練預測算法,來預測人們的年薪,是否高于5w美元。首先,準備好相關(guān)的歷史訓練數(shù)據(jù),這里選擇了關(guān)于個人信息和年收入的3萬行數(shù)據(jù)進行訓練(訓練數(shù)據(jù)越大,機器學習算法的精確度會越高)。這些數(shù)據(jù)包含個人信息的15個維度特征值,以及其最終年收入情況。
值得一提的是,Data Engine大數(shù)據(jù)平臺能夠支持最豐富的數(shù)據(jù)庫類型。這些數(shù)據(jù)來源可以是在Hadoop的HDFS或者Hive組件里面,可以是CSV數(shù)據(jù)格式的文件,也可以來自類似Orcale的傳統(tǒng)關(guān)系型數(shù)據(jù)庫。

(第一步,歷史訓練數(shù)據(jù)準備)
第二步,通過簡單的拖拽進行機器學習整體流程圖的繪制。充分體現(xiàn)了H3C DataEngine大數(shù)據(jù)平臺ML可視化服務的強大之處,這里我們選用了回歸算法中的分類樹進行歷史數(shù)據(jù)的訓練,配合預測器進行其他個人的年收入預測。值得一提的是,機器學習的算法選擇實在是一門藝術(shù),并非越復雜的算法精確度越高,只有和業(yè)務場景適配的算法,才能事半功倍。這也體現(xiàn)出數(shù)據(jù)分析師的價值,需要對業(yè)務有深入了解且不斷反復調(diào)整優(yōu)化。當然,這也是他們拿到高薪的原因。其次,工具的用戶體驗也是立身之本,ML可視化服務的易用簡便讓數(shù)據(jù)挖掘真正做到了“化繁為簡”。

(第二步,畫布上,繪出機器學習整體流程)
第三步,輸入待預測的數(shù)據(jù)到預測器中,可以直接看到最終的顯示結(jié)果。
最終輸出的收入分析圖非常有意思,該圖顯示,總體來說年齡在40歲左右的年收入較高。但其中獨樹一幟的黃色,則表示如果是20歲左右的自由職業(yè)者,同時是擁有一個公司的創(chuàng)業(yè)者,年收入大于5w美元的比例最高。

大數(shù)據(jù)挖掘、機器學習(ML)、人工智能(AI)讓數(shù)據(jù)會說話,而ML可視化服務讓機器學習像在油畫布上作畫一樣靈動便捷,讓高深的技術(shù),“飛入尋常百姓家”。
新華三集團
新華三集團(簡稱新華三)是全球領先的新IT解決方案領導者,致力于新IT解決方案和產(chǎn)品的研發(fā)、生產(chǎn)、咨詢、銷售及服務,擁有H3C品牌的全系列服務器、存儲、網(wǎng)絡、安全、超融合系統(tǒng)和IT管理系統(tǒng)等產(chǎn)品,能夠提供大互聯(lián)、大安全、云計算、大數(shù)據(jù)和IT咨詢服務在內(nèi)的一站式、全方位IT解決方案。同時,新華三也是HPE品牌的服務器、存儲和技術(shù)服務的中國獨家提供商。