首頁
>>>
技術(shù)
>>>
語音應用
>>>
語音識別(ASR)
語音識別產(chǎn)品
語音識別的發(fā)展現(xiàn)狀
俞鐵城 2005/03/03
語音識別基礎(chǔ)
讓機器聽懂人類的語音,這是人們長期以來夢寐以求的事情。語音識別是一門交叉學科,關(guān)系到多學科的研究領(lǐng)域,不同領(lǐng)域上的研究成果都對語音識別的發(fā)展作了貢獻。
語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。
計算機語音識別過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術(shù)是基于統(tǒng)計模式識別的基本理論。一個完整的語音識別系統(tǒng)可大致分為三部分:
(1)語音特征提取:目的是從語音波形中提取隨時間變化的語音特征序列。
(2)聲學模型與模式匹配(識別算法):聲學模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分。聲學模型通常由獲取的語音特征通過訓練產(chǎn)生,目的是為每個發(fā)音建立發(fā)音模板。在識別時將未知的語音特征同聲學模型(模式)進行匹配與比較,計算未知語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)對語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率,以及靈活性有較大影響。
(3)語義理解:計算機對識別結(jié)果進行語法、語義分析。明白語言的意義以便作出相應的反應。通常是通過語言模型來實現(xiàn)。
語音識別技術(shù)的應用
語音識別過程實際上是一種認識過程。就像人們聽語音時,并不把語音和語言的語法結(jié)構(gòu)、語義結(jié)構(gòu)分開來,因為當語音發(fā)音模糊時人們可以用這些知識來指導對語言的理解過程。對機器來說,識別系統(tǒng)也要利用這些方面的知識,只是鑒于語音信號的多變性、動態(tài)性、瞬時性,語音識別技術(shù)與人類的大腦還有一定的差距。因此在語言識別技術(shù)選擇,其應用模式和系統(tǒng)開發(fā)上,都需要專業(yè)的設(shè)計和調(diào)試,以實現(xiàn)最好的應用效果。
1996年9月,Charles Schwab開通了首個大規(guī)模商用語音識別應用系統(tǒng):股票報價系統(tǒng)。該系統(tǒng)有效地提高了服務質(zhì)量和客戶滿意度,并減少了呼叫中心的費用。不久,Schwab又開通了語音股票交易系統(tǒng)。
美國主要電信運營商Sprint的PCS部門以卓越和有創(chuàng)新的客戶服務著稱。自2000年來為客戶開通了語音驅(qū)動系統(tǒng),提供客戶服務、語音撥號、查號和更改地址等業(yè)務。2001年9月開通的可以自然方式對話的咨詢系統(tǒng),更實現(xiàn)了以自然、開放的詢問方式實時獲得所需要的信息。
Bell Canada,加拿大最大的電信運營商,也擁有多個語音驅(qū)動系統(tǒng),提供從客戶服務,增值業(yè)務和資訊服務多種功能。這些系統(tǒng)不但減少了用戶的投訴,也為無線網(wǎng)絡(luò)服務增值,增強了客戶的忠誠度并開辟了新的收入來源。
仔細分析這些案例不難發(fā)現(xiàn),一個成功的語音應用首先是基于詳細準確的用戶需求調(diào)查。只有詳細了解客戶需求,才能根據(jù)需要選用不同類型的產(chǎn)品。目前市場上的語音識別產(chǎn)品基本可分為:
特定人/非特定人:是按照聲學模型建立的方式來劃分。特定人識別的聲學模型是針對某一特定用戶訓練的。一般來說用戶需要先訓練系統(tǒng),然后才能識別該用戶的發(fā)音。而非特定人識別的聲學模型是針對某一種特定的語言來訓練的,發(fā)音人不需要訓練既可使用。雖然在建立模型時需要大量的語料,對用戶來說卻提供了更大方便,他們甚至不需要了解該過程。
嵌入式/服務器模式:嵌入式是將語言識別軟件及模型,寫在設(shè)備(如手機)的存儲器里,識別過程在終端完成。在服務器模式,終端只負責收集和傳導語音信號,由服務器負責完成識別。因此,對于大規(guī)模,多用戶和有大量識別需求的系統(tǒng),服務器模式提供了有效的方式。
目前運營商和企業(yè)用戶的需求多數(shù)適合采用非特定人服務器模式的服務。例如上面提到的Charles Schwab,SprintPCS和Bell Canada都選用了Nuance Communications提供的語音識別軟件。加之專業(yè)的系統(tǒng)集成方案及Nuance技術(shù)服務所提供的良好的語音用戶界面設(shè)計和后期優(yōu)化,使得應用系統(tǒng)獲得了很高的客戶滿意度。在很多方面超過了接線員。
語音識別應用系統(tǒng)的相關(guān)技術(shù)
在語音識別應用領(lǐng)域,有許多相關(guān)技術(shù)直接影響著客戶的最終體驗并關(guān)系到應用系統(tǒng)的使用效果,也就是自動化率(automation rate),即系統(tǒng)毋須人工干預獨自完成的比例。例如端點檢測及相關(guān)問題,噪音環(huán)境下的語音處理,系統(tǒng)結(jié)構(gòu),對口音的適應性及語音界面的設(shè)計,都是語音識別整體應用系統(tǒng)需要考慮的。在本系列隨后文章中,將分別為就這些問題作一些介紹。后面稿件,我們會圍繞語音識別應用涉及的相關(guān)技術(shù)進行介紹。
通訊世界(www.tele.com.cn)
相關(guān)鏈接:
聽話要聽音—情感語音處理技術(shù)
2005-02-04
"得意"口語對話系統(tǒng)開發(fā)包與"得意"智能互動信息服務
2004-11-25
"得意"聲紋識別技術(shù)常見問題解答
2004-11-25
語音技術(shù)應用的現(xiàn)狀和未來
2004-09-30
“得意”聲紋加密鑰匙常見問題解答
2004-08-31
分類信息:
文摘
技術(shù)_語音識別_文摘
临潭县
|
呼和浩特市
|
彭山县
|
吴堡县
|
黎城县
|
枣强县
|
巴南区
|
略阳县
|
宜君县
|
金秀
|
凤阳县
|
阿拉善左旗
|
钟山县
|
济阳县
|
临夏市
|
泗水县
|
通城县
|
时尚
|
青田县
|
龙口市
|
沾益县
|
通州市
|
胶州市
|
砚山县
|
石柱
|
温泉县
|
安岳县
|
韩城市
|
杭锦旗
|
梅河口市
|
栾川县
|
鄂托克旗
|
咸阳市
|
齐齐哈尔市
|
禄丰县
|
留坝县
|
镇远县
|
甘孜
|
栾川县
|
高雄县
|
墨竹工卡县
|