首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)  語(yǔ)音識(shí)別產(chǎn)品

發(fā)表評(píng)論分享按鈕

Siri投資人暢談虛擬個(gè)人助理VPA未來(lái)

2012/03/28

  3月28日消息,據(jù)國(guó)外媒體報(bào)道,(編者按:Norman Winarsky是Ventures的副總裁,Bill Mark是科學(xué)研究發(fā)展組織SRI國(guó)際的信息計(jì)算科學(xué)部門副總裁。Norman和Bill合作支持了Siri的投資,同時(shí)Norman也是投資委員會(huì)的成員。這篇文章也是他們二位合作完成。)自從iPhone4S發(fā)布以來(lái),Siri已經(jīng)成為一種潮流。Siri是基于突破性的語(yǔ)音和人工智能技術(shù)的革命性消費(fèi)軟件產(chǎn)品。Siri作為一種消費(fèi)習(xí)慣也廣泛應(yīng)用在其他消費(fèi)媒體,甚至去年11月谷歌CEO施密特曾向美國(guó)參議院司法委員會(huì)作證表示Siri具有成為谷歌主要威脅的潛力,Siri也一度成為熱播美劇《生活大爆炸》的劇情。

  毫無(wú)疑問,Siri是蘋果和史蒂夫喬布斯的杰作,將虛擬個(gè)人助理(VPA)帶給億萬(wàn)消費(fèi)者,改變了人們看待智能電話的態(tài)度。研發(fā)團(tuán)隊(duì)的天才設(shè)計(jì)使得Siri超越了簡(jiǎn)單工具本身,并賦予其人類的個(gè)性和交互特征。正像某些與Siri的有趣對(duì)話:“Siri你喜歡我么?你知道哪能埋人么?”

  我們都堅(jiān)信蘋果將持續(xù)改進(jìn)Siri,未來(lái)的新技術(shù)也會(huì)不斷創(chuàng)造出不同種類的VPA。舉例來(lái)說(shuō)蘋果很可能面向開發(fā)者開放Siri的API,繼而孕育出成千上萬(wàn)的與個(gè)人助理相關(guān)的應(yīng)用。或許不久之后所有的應(yīng)用都可以進(jìn)行有實(shí)用價(jià)值的語(yǔ)音交互,用戶也會(huì)漸漸習(xí)慣并將之視為順理成章的功能。

  暫且拋開贊美之詞和理性思考,鑒于Siri的核心價(jià)值,那么接下來(lái)的發(fā)展方向是什么?

  我們通常會(huì)這樣認(rèn)為:人們已經(jīng)認(rèn)識(shí)到VPA發(fā)展的廣闊前景,Siri正好處于這個(gè)過程的第一步。下文描繪了我們對(duì)Siri未來(lái)的暢想。

  首先,Siri的巨大影響力改變了整個(gè)產(chǎn)業(yè),在SRI,我們將VPA技術(shù)看作是未來(lái)產(chǎn)品的核心特性,無(wú)論是智能電視、健康護(hù)理助手、虛擬教育助理等等,都將具備語(yǔ)音交互能力。VPA不會(huì)是一時(shí)風(fēng)靡,而是計(jì)算領(lǐng)域長(zhǎng)期致力的方向和終極目標(biāo)。正如我們所言,SRI正在著手三項(xiàng)與VPA相關(guān)的研發(fā),這三個(gè)項(xiàng)目已經(jīng)有風(fēng)險(xiǎn)投資跟進(jìn),具體的新產(chǎn)品正準(zhǔn)備發(fā)布,前景不可估量。

  從技術(shù)角度來(lái)說(shuō),Siri真正的影響力是正如廣泛宣傳的“具有實(shí)用性的自然語(yǔ)言輸入”,這一用語(yǔ)音代替鍵盤與計(jì)算機(jī)交流的方式是一個(gè)古老的夢(mèng)想,歷經(jīng)三十多年才達(dá)到現(xiàn)在這種能與用戶進(jìn)行簡(jiǎn)單流暢溝通的程度。

  開發(fā)一套具備“有限詞匯和口語(yǔ)識(shí)別”能力的軟件是第一步,公眾熟悉的呼叫中心的自動(dòng)應(yīng)答系統(tǒng)就是這樣首先登上歷史舞臺(tái)的。但一套能夠讓計(jì)算機(jī)對(duì)很寬泛的口語(yǔ)輸入做出可信回應(yīng)的軟件,開發(fā)過程的確相當(dāng)具有挑戰(zhàn)性。Siri不僅需要語(yǔ)音識(shí)別技術(shù),還需理解自然語(yǔ)言、文本的含義,并最終理解句意(這一點(diǎn)也是現(xiàn)今大多數(shù)人工智能研究的核心)。

  繼Siri之后,新的增強(qiáng)語(yǔ)音的人工智能將成為SRI投資重點(diǎn),尤其是被美國(guó)國(guó)防部看中的項(xiàng)目,將著重增強(qiáng)處理復(fù)雜用戶情況的性能表現(xiàn)。

  那么對(duì)于那些即將面世的技術(shù),VPA最需要具備的素質(zhì)是什么?

  下一代VPA將會(huì)與用戶建立更加深入的關(guān)系。今天的Siri有一個(gè)使用語(yǔ)音對(duì)話的界面,但對(duì)話通常只能持續(xù)一到兩個(gè)問答語(yǔ)句。將來(lái)的用戶與VPA的對(duì)話會(huì)是復(fù)雜的帶有多層次和更多細(xì)節(jié)的過程,主題涉及健康保健、旅游計(jì)劃、購(gòu)買衣服或者闡述計(jì)劃書等復(fù)雜背景。

  下一代VPA將有可能長(zhǎng)時(shí)間保留對(duì)話內(nèi)容,清晰記錄人機(jī)討論的細(xì)節(jié)、提供的答案、具體執(zhí)行的任務(wù),因?yàn)橹挥性蕉嗟倪M(jìn)行學(xué)習(xí),VPA才能顯著改善性能。同樣可以看到用戶與Siri進(jìn)行溝通時(shí),提供的細(xì)節(jié)越多,Siri可以提供的服務(wù)也越具個(gè)性化。這樣的結(jié)果是VPA變得更具前瞻性,可以持續(xù)關(guān)注用戶潛在的可能需求,甚至在對(duì)話開始前就已經(jīng)預(yù)測(cè)到用戶的需求。

  為展示新一代VPA的能力,現(xiàn)在讓我們假設(shè)一段對(duì)話,真實(shí)使用者名為L(zhǎng)isa,VPA購(gòu)物助理名為Nina,背景時(shí)某一天Lisa想買一個(gè)皮包:

  L:Nina,我想買一個(gè)新皮包。

  N:好啊!那你是想買上次那個(gè)Michael Kors牌子的么?

  L:行,我喜歡Michael Kors牌,但是這次預(yù)算的上限是400元。

  N:上次你是從Nordstrom購(gòu)買的,Nordstrom現(xiàn)在仍然銷售Michael Kors牌皮包,并且同時(shí)還有其他品牌款式,或許你會(huì)喜歡。

  L:嗯,我覺得Michael Kors的一款巧克力色的包不錯(cuò),標(biāo)價(jià)329元,你發(fā)現(xiàn)其他商家有優(yōu)惠價(jià)格么?

  N:我發(fā)現(xiàn)確實(shí)有其他零售商銷售的這款皮包標(biāo)價(jià)只有310元,但退換貨政策不如Nordstrom的好。

  L:那好,我們就去Nordstrom買吧。

  Lisa希望Nina具備所有關(guān)于購(gòu)物方面的知識(shí)與能力,并且能夠利用這些知識(shí)協(xié)助她進(jìn)行正確的選擇。而VPA也將從這段對(duì)話中進(jìn)行學(xué)習(xí),同時(shí)會(huì)保留這段對(duì)話作為歷史紀(jì)錄,為將來(lái)的購(gòu)買活動(dòng)做準(zhǔn)備。

  正因?yàn)閂PA的學(xué)習(xí)行為,它將變得越來(lái)越有效率。這種自行學(xué)習(xí)的能力經(jīng)常被提及,卻很少被實(shí)現(xiàn)。“在自然界中學(xué)習(xí)”(Learning in the wild)這一古老的夢(mèng)想也剛剛開始成真,因?yàn)閷?shí)現(xiàn)真正具備極強(qiáng)適應(yīng)性的VPA非常困難。

  當(dāng)然,隨著Nina的能力不斷完善,Lisa越來(lái)越信任VPA。VPA這種應(yīng)用不僅高度個(gè)性化,還將具備保護(hù)個(gè)人信息的能力。對(duì)于一個(gè)VPA,信任較安全和隱私而言更加屬于核心需求,下一代VPA將會(huì)在這方面顯著增強(qiáng)。

  這一切是否聽起來(lái)十分完美?幸運(yùn)的是,一個(gè)能夠與用戶真正進(jìn)行深層次和細(xì)節(jié)溝通的VPA不再只是科學(xué)幻想。SRI正在進(jìn)行這些方面的研究,我們和研究伙伴正全力以赴努力讓這些早日實(shí)現(xiàn)。

  至于VPA是否會(huì)增進(jìn)人類的智力水平這個(gè)古老的爭(zhēng)議,可以追述到發(fā)明鼠標(biāo)的年代,鼠標(biāo)的發(fā)明者Doug Engelbart在1962年撰文闡述如下:

  增進(jìn)人類智力的意思是提高人類理解復(fù)雜問題的能力、為自己獨(dú)有的需求提供解決方案、并最終解決問題。

  我們相信VPA正是這方面的代表,VPA是目前我們能夠看到的協(xié)助人類和機(jī)器交流的最佳的方式,并將最終改變?nèi)祟惪创龣C(jī)器的態(tài)度,正如Doug Engelbart50年前發(fā)明鼠標(biāo)之后對(duì)世界產(chǎn)生的深遠(yuǎn)影響一樣。

TechWeb.com.cn



相關(guān)閱讀:
識(shí)別率超過90% 訊飛發(fā)布新一代語(yǔ)音云平臺(tái) 2012-03-26
Spansion整合Nuance語(yǔ)音識(shí)別提升產(chǎn)品反應(yīng)速度 2012-03-26
科大訊飛新一代“語(yǔ)音云”發(fā)布暨語(yǔ)音開發(fā)者大會(huì)舉行 2012-03-23
Nuance Research:消費(fèi)者喜愛的移動(dòng)應(yīng)用功能有哪些? 2012-03-22
Siri力推日文語(yǔ)音服務(wù) 卻被DoCoMo搶先一步 2012-03-14

熱點(diǎn)專題:  語(yǔ)音合成TTS 語(yǔ)音識(shí)別ASR  

富平县| 常州市| 梁平县| 资兴市| 张家口市| 喀什市| 夏河县| 顺昌县| 澄江县| 新疆| 乐都县| 原平市| 咸阳市| 象州县| 涪陵区| 东乌珠穆沁旗| 西乌珠穆沁旗| 呼伦贝尔市| 奉贤区| 河北区| 金华市| 东海县| 农安县| 峡江县| 和龙市| 陆河县| 玛沁县| 加查县| 水富县| 如东县| 桃园县| 山东省| 卓尼县| 台北市| 安图县| 兰溪市| 余庆县| 广州市| 陕西省| 朝阳区| 洪洞县|