互聯(lián)網(wǎng)周刊:當(dāng)語音識別技術(shù)遇到網(wǎng)絡(luò)視頻
李洋 2007/10/30
當(dāng)語音識別技術(shù)遇到互聯(lián)網(wǎng),視頻搜索又有了新的可能。
計算機(jī)可以輕松處理文本,但對語音卻沒那么容易。在過去的20年里,研究人員一直在努力讓人和計算機(jī)搭上腔。語音識別技術(shù)因此變得成熟。現(xiàn)在,你已經(jīng)可以通過聲音來“命令”計算機(jī)做一些簡單的操作,你所講的話也能夠被順利地識別為一段文字。而當(dāng)視頻互聯(lián)網(wǎng)時代到來后,人們對語音技術(shù)又有了新的期望。
隨著互聯(lián)網(wǎng)上音視頻文件的不斷增多,如何進(jìn)行準(zhǔn)確的檢索成為一大難題。目前,大多數(shù)搜索引擎的做法是根據(jù)視音頻文件自帶的文字介紹,以及上下文環(huán)境來判斷;或者通過Web2.0常用的Tag(標(biāo)簽)及朋友的推薦信息來確定視頻內(nèi)容。但這些方式的缺點(diǎn)也像其優(yōu)點(diǎn)一樣顯而易見。一旦視頻名稱或者文字信息不全面,就會使你跟很多精彩內(nèi)容擦肩而過。
另一種做法是從內(nèi)容和視覺方面做文章。比如,微軟亞洲研究院華先勝研究員的一項(xiàng)基于內(nèi)容的視頻搜索技術(shù),可以通過訓(xùn)練計算機(jī)對內(nèi)容場景進(jìn)行學(xué)習(xí),從而能夠彌補(bǔ)上述的不足,搜索到視頻里面去。但這種方法在有些場合也有其局限性。比如,類似《鏘鏘三人行》的談話類節(jié)目,每期的場景和人物都相對固定,視頻內(nèi)容提供的信息就非常有限了。而對于這類以談話、評論或播報為主的節(jié)目來說,利用語音識別技術(shù)針對語音內(nèi)容進(jìn)行檢索,便成為一種更為有效的方法。
互聯(lián)網(wǎng)上的視頻、聲音質(zhì)量參差不齊,內(nèi)容更是包羅萬象,如果將傳統(tǒng)的語音識別技術(shù)直接應(yīng)用于互聯(lián)網(wǎng)視頻搜索,識別準(zhǔn)確性很低(通常只能達(dá)到50%~70%),而信息丟失率很高。因此,微軟亞洲研究院的余鵬研究員所在的研究小組提出了一項(xiàng)“詞格”索引技術(shù)。簡單來說,這項(xiàng)技術(shù)的原理就是在分析語音內(nèi)容的時候?yàn)橄到y(tǒng)提供多個候選信息。據(jù)余鵬介紹,通過實(shí)驗(yàn)得出的結(jié)論,這一方式可以將準(zhǔn)確性提高50%~150%。
舉個例子。當(dāng)我們識別“歡迎來到微軟研究院”這樣一段語音片段時,系統(tǒng)將會提供多個候選信息,“歡迎”可能是“幻影”,“來到”可能是“來道”,“微軟”也有可能是“未來”,“研究院”也可以分解產(chǎn)生“煙酒業(yè)”、“洋酒”、“眼鏡院”等多種候選信息。
被識別出的每個短詞都帶有起止的時間信息作為標(biāo)識這一詞的節(jié)點(diǎn)。時間點(diǎn)接近的短詞便可以連接為一句話。比如上面的例子,除了出現(xiàn)正確的答案外,還可能會出現(xiàn)“幻影來到未來煙酒業(yè)”等多種可能的候選。
看到這里你可能會問:“在如此多的候選句子中,系統(tǒng)會優(yōu)先選擇哪個識別結(jié)果呢?”實(shí)際上,對于每個識別出的短詞,這項(xiàng)技術(shù)還配有一個代表置信度的得分。而這個得分來自系統(tǒng)的概率統(tǒng)計,代表該詞成立的可能性。系統(tǒng)有“聲音”和“語言”兩個模型,分別從發(fā)聲和人類語言習(xí)慣的角度來對計算機(jī)進(jìn)行訓(xùn)練,使之可以在識別時做出基于概率統(tǒng)計的判斷。
如此一來,丟失率的問題便獲得了很好的解決。同時,通過對時間節(jié)點(diǎn)接近的多候選信息采用類似“合并同類項(xiàng)”等優(yōu)化方法,可以剔除大批的冗余信息,從而可最終獲得較高的準(zhǔn)確性和搜索效率。
而你能想象這項(xiàng)技術(shù)帶來的便捷嗎?你將再也不用花時間點(diǎn)擊每個視頻文件了—當(dāng)你輸入一個關(guān)鍵詞,比如“北京奧運(yùn)會”,系統(tǒng)給出的每個搜索結(jié)果中都會實(shí)時列出包含關(guān)鍵字的上下文。你可以以此來確認(rèn)內(nèi)容,也可以直接點(diǎn)擊其中標(biāo)粗的關(guān)鍵字,位于搜索頁面右邊的播放器便會自動轉(zhuǎn)到相關(guān)內(nèi)容進(jìn)行播放。還記得上面提到的時間節(jié)點(diǎn)嗎?對,它存在的另一個意義便在于此。而你甚至還能從每個結(jié)果下方的音頻條,形象地了解這一關(guān)鍵詞在這段視頻中出現(xiàn)的位置和頻率。
互聯(lián)網(wǎng)周刊
相關(guān)鏈接:
新沂市|
道孚县|
壶关县|
宜兰县|
绥化市|
于田县|
广宁县|
荥阳市|
梧州市|
宜川县|
广水市|
大余县|
扎鲁特旗|
马关县|
普兰店市|
南投市|
兰溪市|
西贡区|
休宁县|
天台县|
榆树市|
康乐县|
友谊县|
江山市|
溧阳市|
绍兴县|
林州市|
鸡西市|
和政县|
博白县|
新宾|
建水县|
泰安市|
容城县|
华坪县|
获嘉县|
长宁区|
泽州县|
达日县|
五大连池市|
九江市|