
謝謝,非常榮幸來到這里跟大家分享百度云的ABC戰(zhàn)略。
我先破一下題,這個(gè)ABC戰(zhàn)略跟剛才徐總有點(diǎn)英雄略同,A是人工智能AI,B是Big Data大數(shù)據(jù),C是Cloud Computing云計(jì)算。大家知道云計(jì)算其實(shí)在一定程度上一開始的時(shí)候,像亞馬遜出現(xiàn)的時(shí)候是作為一個(gè)能力共享的方式出來的,這里面互聯(lián)網(wǎng)公司為什么會(huì)具備三位一體這三個(gè)能力,我個(gè)人稍微解讀一下,它其實(shí)跟一個(gè)產(chǎn)業(yè)的發(fā)展或者需求的演進(jìn)有關(guān)系,一開始一個(gè)行業(yè)一個(gè)產(chǎn)業(yè)要經(jīng)歷信息化的過程,像互聯(lián)網(wǎng)行業(yè)天生就是信息化的,解決的是信息的服務(wù)可用性,就像百度搜索引擎能讓用戶搜到東西。往后走發(fā)現(xiàn),信息化以后自然而然會(huì)產(chǎn)生很多數(shù)據(jù),自然而然會(huì)去想,這數(shù)據(jù)能用來干嗎。尤其是到了Web 2.0以后出現(xiàn)用戶的概念,怎么樣讓用戶體驗(yàn)更好,讓他們?cè)诋a(chǎn)品上停留更多時(shí)間。這個(gè)時(shí)候我們會(huì)去考慮怎么樣使用用戶行為的歷史數(shù)據(jù),或者UGC數(shù)據(jù)比如類似評(píng)論數(shù)據(jù)。這個(gè)時(shí)候其實(shí)是我們?cè)谧鰯?shù)據(jù)驅(qū)動(dòng)的事情。再往上走會(huì)發(fā)現(xiàn),互聯(lián)網(wǎng)公司很多產(chǎn)品出現(xiàn)多樣化的交互形式,你不光可以通過文字輸入,還可以通過語音輸入,這個(gè)時(shí)候我們會(huì)用到人工智能的東西,其他還有機(jī)器翻譯等等。互聯(lián)網(wǎng)公司經(jīng)歷過這樣一個(gè)發(fā)展過程,別的行業(yè)也在經(jīng)歷這個(gè)發(fā)展過程,慢慢從信息化再到數(shù)據(jù)驅(qū)動(dòng)的需求,再往上走就是智能化。有些行業(yè)可能剛剛進(jìn)入信息化的過程,有些行業(yè)可能發(fā)達(dá)一些,怎么把百度作為互聯(lián)網(wǎng)公司在發(fā)展中積累的能力分享出來,百度云是這樣一個(gè)很好的載體。接下來按照C-B-A的順序仔細(xì)闡述一下,我們到底有哪些東西已經(jīng)具備了,可以拿出來跟整個(gè)行業(yè)分享。
首先是云Cloud基礎(chǔ)架構(gòu)這一塊,我們要分享的主要一個(gè)是計(jì)算,第二是存儲(chǔ),還有網(wǎng)絡(luò)這塊的架構(gòu),其他還包括一些像安全等方面。
計(jì)算這塊,在百度我們有非常多的產(chǎn)品線,我們要支持非常多形式的而且高強(qiáng)度的計(jì)算場(chǎng)景,所以會(huì)形成不同的軟硬件為基礎(chǔ)的計(jì)算服務(wù)都在里面。需要特別強(qiáng)調(diào)的是人工智能,也是百度的戰(zhàn)略方向,人工智能背后用到的服務(wù)器主要是GPU集群,積累比較深厚,可以做一些規(guī)模化的部署,在業(yè)界應(yīng)該是比較領(lǐng)先的。另外一塊,存儲(chǔ),大家都用百度網(wǎng)盤,它是一個(gè)對(duì)象存儲(chǔ)的存儲(chǔ)架構(gòu),當(dāng)然我們還有其他的存儲(chǔ)形式可以提供。網(wǎng)絡(luò),每個(gè)網(wǎng)絡(luò)服務(wù)的環(huán)節(jié)基本上都是TB級(jí)的帶寬。
這是跟今天會(huì)議主題比較契合的頁面,我們?cè)诎踩@塊是比較重視的,這是百度云具備的各種安全的資質(zhì)和證書,我們一直在努力營(yíng)造安全的云服務(wù)環(huán)境。
剛才講的是外部對(duì)我們百度云安全方面的認(rèn)可,這一頁是我們內(nèi)部技術(shù)努力,我們?cè)诤芏喾矫娑加屑夹g(shù)積累沉淀,包括DDoS攻擊的防護(hù)等等。
接下來講Big Data,我是數(shù)據(jù)科學(xué)家,主要從事這塊多一些。百度在數(shù)據(jù)方面不光有數(shù)據(jù)能力,像數(shù)據(jù)存儲(chǔ)、分析等等這塊,還有很多的數(shù)據(jù)資源包括一些用戶產(chǎn)生的數(shù)據(jù)。這兩塊我們都在想法怎么樣利用它。
先看一下百度的大數(shù)據(jù)到底大到什么程度,我們有大概6億用戶,每天會(huì)產(chǎn)生大概100億次的檢索,檢索里面包含了用戶的關(guān)注還有用戶的需求等等這樣一些信息,而且覆蓋的興趣面是非常廣的。還有一個(gè)比較大的我們的產(chǎn)品是百度地圖,會(huì)有很多別的相關(guān)的應(yīng)用來用百度地圖的接口,這樣會(huì)產(chǎn)生每天大概720億次的地圖上的定位請(qǐng)求,里面的信息基本上是用戶用腳投票的信息,也有非常高的價(jià)值。我講到這里必須強(qiáng)調(diào)一個(gè),這些數(shù)據(jù)里的原始數(shù)據(jù)信息我們是不可能拿來共享的,我們會(huì)對(duì)這些數(shù)據(jù)進(jìn)行加工,得到一些不侵犯隱私的數(shù)據(jù)資源。
用戶畫像產(chǎn)品是我們針對(duì)自有產(chǎn)品的改善,利用剛才講的地圖和搜索的數(shù)據(jù),再加上百度別的產(chǎn)品線的數(shù)據(jù)構(gòu)造的。它實(shí)質(zhì)上是一個(gè)標(biāo)簽體系,百度的的標(biāo)簽體系維度非常大,體現(xiàn)出非常多樣的興趣的信息。
剛才講的是數(shù)據(jù)資源,有些不包含隱私的加工后產(chǎn)品可以共享。但我們更重要的想分享的是我們處理這些數(shù)據(jù)的能力,這里分了很多層次,最底下是數(shù)據(jù)采集的能力,甚至包括了物聯(lián)網(wǎng)的數(shù)據(jù)采集能力。再往上是數(shù)據(jù)的存儲(chǔ),包含關(guān)系數(shù)據(jù)庫,包括對(duì)象存儲(chǔ)數(shù)據(jù)庫以及NoSQL數(shù)據(jù)庫。再往上進(jìn)行處理與分析,這塊是百度技術(shù)優(yōu)勢(shì)比較大的地方,基本上我們所有產(chǎn)品都是數(shù)據(jù)驅(qū)動(dòng)的,有很多產(chǎn)品在里面,包括傳統(tǒng)的日志分析MapReduce相關(guān)的,深度學(xué)習(xí)的paddlepaddle平臺(tái),還有機(jī)器學(xué)習(xí)的工具包BML等等。到了服務(wù)層,我們針對(duì)語音識(shí)別、智能客服用的智能問答等等,再往上是相關(guān)的服務(wù)組合起來能夠服務(wù)到的一些行業(yè),這樣一來大家對(duì)百度的數(shù)據(jù)能力有一個(gè)大概的了解,這整套能力構(gòu)成的平臺(tái),我們稱之為天算平臺(tái)。
具體的,比方說里面有日志的分析,互聯(lián)網(wǎng)產(chǎn)品為什么能夠做的很貼心,用戶體驗(yàn)比較好,離不開用戶歷史數(shù)據(jù)的分析,用來做用戶體驗(yàn)和產(chǎn)品的優(yōu)化。針對(duì)用戶體驗(yàn)的另外一個(gè)非常重要的工具叫推薦系統(tǒng),大家可能體會(huì)過,在買東西的時(shí)候旁邊會(huì)出來你可能想買什么,百度音樂會(huì)有你喜歡聽的音樂的推薦。這個(gè)技術(shù)能力我們也可以往外開放出來,做一個(gè)接口形式給大家使用。營(yíng)銷這塊,可能在座的會(huì)更加熟悉一點(diǎn),里面會(huì)有很多的模塊,像DSP、SSP,百度在這塊有相應(yīng)的模塊對(duì)外開放,通過百度云對(duì)外開放,我們叫營(yíng)銷云。RTB是里面一個(gè)具體的組成部分,營(yíng)銷云里的實(shí)時(shí)競(jìng)價(jià)的模塊。還有一個(gè)更重要的模塊是DMP,怎么樣知道用戶別的一些信息,但是我們不會(huì)直接共享我們的用戶數(shù)據(jù),而是怎么往外共享構(gòu)造DMP的能力,怎么用客戶自己積累的數(shù)據(jù)去上面構(gòu)建DMP。
剛才講了大數(shù)據(jù),我們?cè)賮淼饺斯ぶ悄堋H斯ぶ悄馨俣仁嵌嗄陙碇攸c(diǎn)投入的方向,也是目前的戰(zhàn)略方向。我個(gè)人作為一個(gè)研究院人員,對(duì)人工智能作一個(gè)小小的解讀。我認(rèn)為人工智能可以分為這樣三個(gè)境界,人工智能說白了其實(shí)就是想讓機(jī)器幫人干活,在干活的過程中提高效率和效果。但是為了讓機(jī)器具備干活的能力,我們首先讓它具備人的某些功能。第一個(gè)是怎么樣感知這個(gè)世界,怎么樣聽明白、看明白、讀懂人說的話,這個(gè)我們叫做感知世界的能力。比如像人臉識(shí)別、語音識(shí)別是最典型的應(yīng)用,這些技術(shù)隨著深度學(xué)習(xí)的發(fā)展,基本上從實(shí)驗(yàn)室走出來,走到可以商用的程度。機(jī)器感知到信息以后,能不能進(jìn)行思考,像讓機(jī)器參加一些知識(shí)競(jìng)賽。更有挑戰(zhàn)的人工智能體現(xiàn)在機(jī)器的自主行為上,能不能在一個(gè)現(xiàn)實(shí)世界的開放空間里,讓機(jī)器像人一樣真正去行為,自動(dòng)駕駛、無人車是最典型的,還有機(jī)器人的技術(shù),包括各種垂直行業(yè)的機(jī)器人。百度像自動(dòng)駕駛這塊和人機(jī)交互機(jī)器人這塊已經(jīng)獨(dú)立成立事業(yè)部,歸我們的COO陸奇直接領(lǐng)導(dǎo)。前面包括感知世界能力和快速思考能力,百度在里面也都有深厚的積累。這三個(gè)層次的能力,我們也有對(duì)外共享的平臺(tái)來提供,我們叫百度云天智平臺(tái)。天智平臺(tái)對(duì)外方式有兩種,一種是可以直接用,還有是通過API調(diào)用。
剛才講到大數(shù)據(jù),我們對(duì)應(yīng)的是百度云天算平臺(tái),人工智能對(duì)應(yīng)的是天智平臺(tái),這兩個(gè)平臺(tái)是按照能力劃分的。我們對(duì)于典型應(yīng)用場(chǎng)景還構(gòu)造了兩個(gè)平臺(tái)產(chǎn)品,一個(gè)叫天像,一個(gè)叫天工。天像平臺(tái)是針對(duì)視頻多媒體這塊,這里面像視頻需要的分發(fā)也好或者視頻里有些簡(jiǎn)單的分析也好,都能在這個(gè)平臺(tái)上共享得到,典型應(yīng)用方包含在線教育、直播平臺(tái)等。天工是最近比較火的智能制造與物聯(lián)網(wǎng)相關(guān)的,它主要是針對(duì)怎么樣喚醒萬物,針對(duì)現(xiàn)實(shí)世界,能不能把互聯(lián)網(wǎng)的一些模式也好、能力也好,能夠下沉到現(xiàn)實(shí)世界里面去,給他們做一個(gè)物與物之間的連接,把物與物產(chǎn)生的數(shù)據(jù)也都記錄下來,怎么樣再優(yōu)化現(xiàn)實(shí)世界的生產(chǎn)流程。典型的應(yīng)用包括智慧城市、智慧樓宇、智慧生產(chǎn)線等等。
最后把百度云ABC三塊的能力與資源,細(xì)化成大的模塊,怎么樣對(duì)外共享,有很多產(chǎn)品。我們不光是作為云自身有包括SaaS層、IaaS層、PaaS層的各種服務(wù),我們還可以作為接口,對(duì)接其他百度的能力與服務(wù)。
謝謝大家!