掌控語(yǔ)音就將掌控一切。語(yǔ)音之“熱”是真正的產(chǎn)業(yè)良機(jī)還是過(guò)度炒作?中國(guó)語(yǔ)音企業(yè)該選擇怎樣的成長(zhǎng)路徑?如何揚(yáng)長(zhǎng)避短與國(guó)際巨頭一較高下?
科大訊飛立體云、捷通華聲套餐云、云知聲靈巧云和百度開(kāi)放云……且看各門各派如何搶灘中國(guó)智能語(yǔ)音市場(chǎng)。
這是一個(gè)最好的時(shí)代,這是一個(gè)聲控的時(shí)代,這是個(gè)光明的季節(jié),也是個(gè)希望的春日。
從幾年前蘋果Siri將語(yǔ)音迅速升溫推至消費(fèi)者面前,到現(xiàn)在語(yǔ)音助手幾乎已成為智能手機(jī)、汽車電子、智能家居的標(biāo)配,從人們過(guò)去在路邊招手打車到現(xiàn)在先用微信與出租車師傅說(shuō)好再出門……似乎,智能語(yǔ)音產(chǎn)業(yè)已經(jīng)迎來(lái)生機(jī)盎然的春天。語(yǔ)音一時(shí)間成為輿論的焦點(diǎn):“語(yǔ)音將徹底替代鼠標(biāo)、鍵盤”,“語(yǔ)音將成為移動(dòng)互聯(lián)網(wǎng)主流信息入口”,“誰(shuí)掌控語(yǔ)音誰(shuí)就將掌控一切”……看好、贊揚(yáng)語(yǔ)音之聲不絕于耳。
但一個(gè)技術(shù)從萌芽期開(kāi)始不斷發(fā)展,要醞釀多久才會(huì)到爆發(fā)期?智能語(yǔ)音產(chǎn)業(yè)是真的到爆發(fā)期了,還是被提前過(guò)度炒作了?智能語(yǔ)音產(chǎn)業(yè)現(xiàn)狀和未來(lái)發(fā)展方向如何?中國(guó)智能語(yǔ)音企業(yè)又該如何選擇適合自己的成長(zhǎng)路徑?帶著這些疑問(wèn),本報(bào)記者先后采訪多位智能語(yǔ)音專家,力求探知一二。
莫錯(cuò)失趕超良機(jī)
智能語(yǔ)音是新一代的人機(jī)交互技術(shù)手段之一。就像人與人之間對(duì)話交流一樣,智能語(yǔ)音是要通過(guò)語(yǔ)音實(shí)現(xiàn)人與機(jī)器之間的交互,即機(jī)器能聽(tīng)懂,并能回答提問(wèn),實(shí)現(xiàn)對(duì)話互動(dòng)。“智能語(yǔ)音技術(shù)主要包括語(yǔ)音識(shí)別、自然語(yǔ)言理解和語(yǔ)音合成三個(gè)環(huán)節(jié),完成讓機(jī)器聽(tīng)懂人說(shuō)話,再讓機(jī)器說(shuō)人話的過(guò)程。這種交互需要基于海量的語(yǔ)料庫(kù),通過(guò)模型實(shí)現(xiàn)語(yǔ)音識(shí)別和語(yǔ)義理解,包括對(duì)語(yǔ)法、分詞、情景,甚至是情緒等的理解,再通過(guò)知識(shí)庫(kù)系統(tǒng)找到答案,然后通過(guò)語(yǔ)音合成技術(shù)說(shuō)出答案,來(lái)回交互。”在接受記者采訪時(shí),中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟副秘書長(zhǎng)李德升這樣給出他對(duì)智能語(yǔ)音的理解。
百度語(yǔ)音首席研究員賈磊在第十八屆中國(guó)國(guó)際軟件博覽會(huì)的演講中介紹,百度語(yǔ)音就是通過(guò)語(yǔ)音識(shí)別、語(yǔ)義理解和后臺(tái)資源來(lái)實(shí)現(xiàn)“你說(shuō)我聽(tīng)”、“你說(shuō)我想”和“你說(shuō)我做”的過(guò)程,打造人機(jī)交互的閉環(huán)過(guò)程。
人機(jī)智能語(yǔ)音交互,說(shuō)起來(lái)容易做起來(lái)難。20世紀(jì)50年代,AT&T開(kāi)發(fā)出第一個(gè)語(yǔ)音識(shí)別系統(tǒng)Audry;20世紀(jì)80年代,智能語(yǔ)音技術(shù)研究由傳統(tǒng)的基于標(biāo)準(zhǔn)模型匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型的技術(shù)思路;21世紀(jì)初,智能語(yǔ)音從技術(shù)研究走向?qū)嵱貌⑦M(jìn)入產(chǎn)業(yè)化,進(jìn)入呼叫中心、家電、汽車等領(lǐng)域;而近期,以蘋果Siri發(fā)布為重要引爆點(diǎn),智能語(yǔ)音應(yīng)用才開(kāi)始向移動(dòng)互聯(lián)網(wǎng)等新興領(lǐng)域延伸,產(chǎn)業(yè)進(jìn)而不斷積累、發(fā)展。
智能語(yǔ)音技術(shù)是人工智能的研究領(lǐng)域之一,其原理涉及聲學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理和計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科,研究周期長(zhǎng),投入成本大,技術(shù)壁壘高。全球和中國(guó)智能語(yǔ)音市場(chǎng)基本形成寡頭壟斷的格局。隨著智能語(yǔ)音產(chǎn)業(yè)的快速發(fā)展,產(chǎn)業(yè)競(jìng)爭(zhēng)進(jìn)一步加劇,也吸引了IT巨頭和中小創(chuàng)業(yè)團(tuán)隊(duì)爭(zhēng)相進(jìn)入,與傳統(tǒng)語(yǔ)音技術(shù)提供商共同角逐智能語(yǔ)音市場(chǎng)。
在國(guó)際市場(chǎng),既有像Nuance這樣的占據(jù)全球62%語(yǔ)音市場(chǎng)的傳統(tǒng)語(yǔ)音技術(shù)巨頭,也有谷歌、蘋果、微軟、IBM等IT巨頭的競(jìng)爭(zhēng)參與。在國(guó)內(nèi)市場(chǎng),李德升告訴記者,目前我國(guó)語(yǔ)音技術(shù)廠商基本分為三類:一類是傳統(tǒng)語(yǔ)音技術(shù)廠商,一般從科研院所基礎(chǔ)研究脫胎,包括像科大訊飛(中國(guó)科技大學(xué))、捷通華聲(清華大學(xué)、中科院聲學(xué)所、北京大學(xué))、中科模識(shí)(中科院自動(dòng)化所)、中科信利(中科院聲學(xué)所)等;第二類是互聯(lián)網(wǎng)廠商,包括百度、騰訊、搜狗等,它們?yōu)榻o其廣大的互聯(lián)網(wǎng)用戶提供更好的增值服務(wù),普遍采用戰(zhàn)略合作或者收購(gòu)等方式,掌握智能語(yǔ)音技術(shù),推廣語(yǔ)音服務(wù);第三類是創(chuàng)業(yè)企業(yè),像云知聲、思必馳等,它們專注于某些行業(yè)領(lǐng)域,比如汽車、家電、教育、社交網(wǎng)絡(luò)來(lái)推廣自己的語(yǔ)音技術(shù)和產(chǎn)品。
近幾年來(lái),移動(dòng)互聯(lián)網(wǎng)蓬勃發(fā)展,基于互聯(lián)網(wǎng)海量數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)技術(shù)有力推進(jìn),智能家電、汽車電子、可穿戴設(shè)備等領(lǐng)域加速應(yīng)用,汽車、醫(yī)療、智能家居、教育等行業(yè)應(yīng)用不斷拓展,智能語(yǔ)音作為新的信息入口,開(kāi)始引領(lǐng)產(chǎn)業(yè)重大變革。
這一兩年來(lái),我國(guó)智能語(yǔ)音市場(chǎng)也是風(fēng)起云涌:2012年8月中國(guó)移動(dòng)以13.6億元戰(zhàn)略投資科大訊飛,科大訊飛受二級(jí)市場(chǎng)機(jī)構(gòu)投資者追捧市值超過(guò)200億元;云知聲創(chuàng)立僅一年就先后獲得兩輪投資,其中一次融資金額高達(dá)1億元;2013年5月,捷通華聲宣布來(lái)自百度、清華大學(xué)戰(zhàn)略投資;2013年8月,百度正式宣布向開(kāi)發(fā)者開(kāi)放語(yǔ)音生態(tài)系統(tǒng),包括底層的語(yǔ)音識(shí)別技術(shù)應(yīng)用程序開(kāi)發(fā)接口(API)、百度語(yǔ)音助手軟件開(kāi)發(fā)工具包(SDK);同樣在這個(gè)月騰訊在微信5.0中增加語(yǔ)音輸入功能,一出來(lái)便風(fēng)靡大眾,微信APP已經(jīng)成為消費(fèi)者每天必刷的強(qiáng)大APP之一;直到最近,2014年4月12日,云知聲組織創(chuàng)業(yè)公司牽頭成立“全智能交互聯(lián)盟”;2014年4月29日,科大訊飛的訊飛輸入法繼支持粵語(yǔ)、四川話、河南話等方言之后宣布支持東北話語(yǔ)音輸入;5月20日晚,錘子科技首款智能手機(jī)Smartisan T1發(fā)布,借科大訊飛智能語(yǔ)音技術(shù)實(shí)現(xiàn)語(yǔ)音搜索、語(yǔ)音輸入等特色功能……整個(gè)產(chǎn)業(yè)一片欣欣向榮。
“智能語(yǔ)音是人機(jī)智能交互的手段之一,而人機(jī)智能交互是目前中國(guó)技術(shù)企業(yè)有可能趕超國(guó)際的為數(shù)不多的產(chǎn)業(yè)機(jī)遇之一。產(chǎn)業(yè)變革是以技術(shù)為先導(dǎo)的。在PC/互聯(lián)網(wǎng)時(shí)代,我國(guó)技術(shù)企業(yè)在計(jì)算機(jī)技術(shù)尤其是操作系統(tǒng)等方面,因?yàn)槠鸩酵恚s超微軟、谷歌等國(guó)際技術(shù)公司比較難,但在智能交互這個(gè)技術(shù)領(lǐng)域,相對(duì)而言,目前中西方起步差不多,如果我們能把握好現(xiàn)在的機(jī)會(huì),好好練內(nèi)功,發(fā)展我們自己的包括智能語(yǔ)音在內(nèi)的交互技術(shù),也許在這方面我們可以真正和國(guó)際公司一較高下,真正從中國(guó)制造走向中國(guó)創(chuàng)造。”北京捷通華聲語(yǔ)音技術(shù)有點(diǎn)公司(簡(jiǎn)稱捷通華聲)董事長(zhǎng)張連毅這樣告訴記者。
與張連毅持相同觀點(diǎn)的還有科大訊飛信息科技股份有限公司(簡(jiǎn)稱科大訊飛)副總裁江濤和北京云知聲信息技術(shù)有限公司(簡(jiǎn)稱云知聲)CEO黃偉。在他們看來(lái),智能語(yǔ)音是難得的一次產(chǎn)業(yè)良機(jī),錯(cuò)過(guò)語(yǔ)音,中國(guó)技術(shù)企業(yè)很難再有機(jī)會(huì)趕超國(guó)際了。