首頁>>>技術>>>語音應用>>>語音識別(ASR)  語音識別產品

語音識別應用促進技術發(fā)展

清華大學 劉加 2006/07/31

  語音識別算法雖然還有很多問題沒有解決,但語音識別技術已經開始逐步進入實用階段。在發(fā)達國家語音識別技術已經用于信息服務系統(tǒng)和查詢系統(tǒng),人們可以通過電話網絡查詢有關的信息,并且取得很好的結果。

  語音識別算法雖然還有很多問題沒有解決,但語音識別技術已經開始逐步進入實用階段。在發(fā)達國家語音識別技術已經用于信息服務系統(tǒng)和查詢系統(tǒng),人們可以通過電話網絡查詢有關的信息,并且取得很好的結果。用戶交換機、電話機、手機也包含了語音識別撥號功能。調查統(tǒng)計表明多達80%以上的人對這些服務表示滿意。中小詞匯量的語音識別系統(tǒng)(<200詞)已經達到可以實用的階段。目前國外對具有口語對話系統(tǒng)和語音芯片技術的研究和開發(fā)投資也在大量增加。

  語音芯片的應用

  近年來語音芯片應用越來越廣泛,主要包括:

  1.電話通信中的語音撥號。特別是在中、高檔移動電話上,現(xiàn)已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低,普通電話上也將具備語音撥號的功能。

  2. 汽車的語音控制。由于在汽車的行駛過程中,駕駛員的手必須放在方向盤上,因此在汽車上撥打電話,需要使用具有語音撥號功能的免提電話通信方式。此外,對汽車的門、窗、空調、照明以及音響等設備,同樣也可以由語音來方便地進行控制。

  3. 工業(yè)控制及醫(yī)療領域。當操作人員的眼或手已經被占用的情況下,在增加控制操作時,最好的辦法就是增加人與機器的語音交互界面。由語音對機器發(fā)出命令,機器用語音做出應答。

  4. 個人數(shù)字助理(Personal Digital Assistant,PDA)的語音交互界面。PDA的體積很小,人機界面一直是其應用和技術的瓶頸之一。由于在PDA上使用鍵盤非常不便,因此,現(xiàn)多采用手寫體識別的方法輸入和查詢信息。但是,這種方法仍然讓用戶感到很不方便。現(xiàn)在業(yè)界一致認為,PDA的最佳人機交互界面是以語音作為傳輸介質的交互方法,并且已有少量應用。隨著語音識別技術的提高,可以預見,在不久的將來,語音將成為PDA主要的人機交互界面。

  5. 智能玩具。通過語音識別技術,我們可以與智能娃娃對話,可以用語音對玩具發(fā)出命令,讓其完成一些簡單的任務,甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力,而其關鍵在于語音芯片價格的降低。

  6. 家電遙控。用語音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個遙控器就可以把家中的電器皆用語音控制起來,這樣,可以讓令人頭疼的各種電器的操作變得簡單易行。

  語音識別專用芯片系統(tǒng)有如下幾個特點: 1. 多為中、小詞匯量的語音識別系統(tǒng),即只能夠識別10~100詞條。只有近一兩年來,才有連續(xù)數(shù)碼或連續(xù)字母語音識別專用芯片實現(xiàn)。2. 一般僅限于特定人語音識別的實現(xiàn),即需要讓使用者對所識別的詞條先進行學習或訓練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠實現(xiàn)非特定人語音識別,即預先將所要識別的語句碼本訓練好而裝入芯片,用戶使用時不需要再進行學習就可直接應用。但這一類識別功能只適用于規(guī)定的語種和方言,而且所識別的語句只限于預先已訓練好的語句。3. 由此芯片組成一個完整的語音識別系統(tǒng)。因此,除了語音識別功能以外,為了有一個好的人機界面和識別正確與否的驗證,該系統(tǒng)還必須具備語音提示(語音合成)及語音回放(語音編解碼記錄)功能。4. 多為實時系統(tǒng),即當用戶說完待識別的詞條后,系統(tǒng)立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價錢低等特點。

  語音識別技術發(fā)展

  在發(fā)達國家各種各樣基于語音識別技術的產品已經可以買到,如具有聲控撥號電話,語音記事本等等。語音電話服務、數(shù)據(jù)查詢服務也已經部分實現(xiàn)。基于特定任務和環(huán)境的聽寫機也已經進入應用階段。語音識別技術是非常重要的人機交互技術,有著非常廣泛的應用前景。

  說話者自適應技術近年在語音識別系統(tǒng)的研究中也備受重視,這是由于與人有關的語音識別系統(tǒng)比與人無關的語音識別系統(tǒng)的識別率要高很多。通過有效的自適應手段可以很快地提高系統(tǒng)的識別能力。實際上說話人自適應技術和穩(wěn)健語音自適應技術是相通的。由于不同的說話人在聲道長度,說話口音方式都很不一樣。說話者自適應技術也主要是從以下兩方面著手。

  靜態(tài)處理方法。從特征提取或訓練階段就盡可能減少來自說話人的變化因素對模型的貢獻。可以進行聲道參數(shù)的歸一化處理或對說話人進行分類處理,如分男女聲的識別系統(tǒng)就是其中的一個典型,但實際上僅僅從男女聲上對模型分類還是太粗,可以通過有效的聚類方法進行分類。這類方法統(tǒng)稱為聲學歸一化處理方法。

  動態(tài)處理方法。對預先訓練好的與人無關識別系統(tǒng),通過臨時得到的特定人語音數(shù)據(jù)對系統(tǒng)的模板或特征參數(shù)進行自適應修正,從而在原有系統(tǒng)基礎上建立一個用于特定任務、特定環(huán)境或特定說話人的系統(tǒng),這類方法統(tǒng)稱為自適應方法。自適應方法可分為: 批模式、累進模式、即時模式; 按自適應學習策略又分為無監(jiān)督學習和有監(jiān)督學習。從用戶使用的方便程度來看是由難到易,而算法實現(xiàn)則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽寫機等應用來說,最具吸引力的是累進、無監(jiān)督的自適應方式,也稱在線自適應。

  語言模型也是目前研究的一個重要方面。目前的語言模型是與任務有關的,典型的統(tǒng)計語言模型是通過大量任務特定的語料訓練出來的。通過新聞語料訓練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應語言模型。在靜態(tài)語言模型的基礎上,通過一個高速緩沖存儲器對語言模型進行動態(tài)的修正; 另一種是先訓練多領域語言模型,然后通過混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型,如基于類的語言模型,而不是基于詞的語言模型,類可以是詞性類,詞義類,以及由一定的數(shù)據(jù)驅動的聚類算法產生的各種類。

  由于不同詞可以屬于同一類,這樣類比較大,構成的語言模型就比較穩(wěn)健。其關鍵的問題是如何決定詞的分類,由于詞的分類比較復雜,同一詞可能屬于不同的類,特別是解決如何通過計算機實現(xiàn)自動分類的算法,即使用數(shù)據(jù)驅動算法也還沒有很好地解決。基于統(tǒng)計技術的計算語言學已經越來越受到重視,它解決了單獨規(guī)則語言模型不能解決的一些問題。當然統(tǒng)計語言模型也不能解決全部問題,因此如何把統(tǒng)計語言模型和基于規(guī)則的語言模型結合也是語言模型研究的重點之一。

  目前不同快速語音識別算法都在開發(fā)中。其中包括對HMM狀態(tài)輸出的概率分布進行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點的編程技術的應用。

  鏈接:穩(wěn)健語音識別技術

  語音識別系統(tǒng)的穩(wěn)健性技術是到目前還沒有解決好的重要問題。穩(wěn)健語音識別要解決的問題是訓練環(huán)境和實用環(huán)境不同而導致的不匹配問題。由于環(huán)境變化多種多樣,識別系統(tǒng)要面對不同說話風格的人(包括說話快慢、音調、重音變化、情緒變化、年齡不同、聲道長度的不同等等)、不同麥克風的種類(包括麥克風的相對位置和方向變化)、信道畸變和噪聲,以及說話的環(huán)境(包括房屋回響、背景噪聲等)。

  穩(wěn)健語音識別技術包括三個方面:1. 穩(wěn)健語音特征提取和預處理技術。其中包括噪聲掩蓋處理技術、特征變換、聽覺模型,以及不同穩(wěn)健和可信度測度的研究。研究的中心是最大可能的開采語音中的整體信息,以便盡可能地減少噪聲的干擾。2. 多樣式的訓練是一種有效方法,但這種訓練要求取得大量不同噪聲情況下的語音數(shù)據(jù),這使該種方法實現(xiàn)非常困難。3.自適應的特征或模型的補償技術。其中包括簡單的自適應均值偏差消除,進一步包括方差補償,線性和非線性的回歸和變換,基于狀態(tài)的濾波,語音和噪聲復合模型,最大后驗自適應算法,隨機匹配算法。這些不同技術有的僅僅在不同的小范圍內獲得有限成功,還沒有一種技術在大詞匯量的語音識別系統(tǒng)中獲得成功。

計算機世界網(www.ccw.com.cn)



相關鏈接:
識別語音的幾種依據(jù) 2006-07-31
語音識別技術突飛猛進 終有一天超過人? 2006-07-20
語音識別標準之痛 2006-06-19
你好!新語音識別時代 2006-06-01
藏在舌尖上的“身份證”:走向民品市場的聲音識別技術 2006-05-30

相關頻道:           文摘   技術_語音識別_文摘
徐水县| 池州市| 新田县| 汾阳市| 海宁市| 水城县| 洛浦县| 上林县| 吉安市| 竹溪县| 成都市| 莱阳市| 伊春市| 永登县| 阜康市| 红安县| 麻栗坡县| 宁武县| 都江堰市| 五原县| 林甸县| 日照市| 西吉县| 虞城县| 白水县| 延寿县| 正安县| 双柏县| 井冈山市| 台湾省| 沂源县| 丹江口市| 大厂| 通化县| 宁夏| 惠水县| 西青区| 牡丹江市| 扎兰屯市| 礼泉县| 新密市|