淺談ASR和TTS技術在CTI中的應用
2004/01/02
什么是ASR、TTS?ASR,英文的全稱是Automated Speech Recognition,即自動語音識別技術,它是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性,目前的語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。語音識別系統(tǒng)的性能大致取決于以下4類因素:1. 識別詞匯表的大小和語音的復雜性;2. 語音信號的質量;3. 單個說話人還是多說話人;4. 硬件。
TTS,英文全稱是TextToSpeech,即文語轉換,又稱為計算機語音合成,它的過程和ASR剛好相反,是把計算機中任意出現(xiàn)的文字轉換成自然流暢的語音輸出。一般認為,語音合成系統(tǒng)包括三個主要的組成部分:文本分析模塊、韻律生成模塊和聲學模塊。目前,TTS的技術已經(jīng)可以達到商業(yè)化的地步。
微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過適應性調整,識別率可以達到90%以上,而且他的開發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開發(fā)。由于SAPI是作為Windows的一個獨立組件在發(fā)展,版本更新也比較快。
最新的SAPI 3.1提供了基于COM的高級編程接口,應用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個語音引擎中,TTS可以將文本和文件合成為語音,ASR則是將人的聲音信號轉換為可讀的文本或文件。
下面,我們針對兩種不同當前情況,站在業(yè)務開發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應用中去。
帶語音接口的PBX這里還是以MPS2000系統(tǒng)為例,MPS2000是一套面向下一代網(wǎng)絡的、集成了多種業(yè)務能力的交換平臺。它具有很強的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時,它的業(yè)務資源也非常豐富,有IVR、會議、會議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應用。
在MPS2000系統(tǒng)中,ASR被抽象為一種簡單的可替代DTMF進行語音撥號的資源,用戶提起電話,可以不用按鍵,直接呼叫某人或者說出電話號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過路由文件播放),而直接把你想說的文本向用戶放出來
下圖顯示了MPS2000中ASR和TTS的應用層次關系:
杭州邁可行公司供稿 CTI論壇編輯
下一代網(wǎng)絡(NGN)的核心組件:軟交換技術 2009-08-18 |
專業(yè)通信調度系統(tǒng)服務中石化華東成品油管網(wǎng)工程 2009-05-19 |
邁可行建設江西省政府應急指揮系統(tǒng) 2009-04-21 |
邁可行通信建立新的合作伙伴管理體系 2009-03-17 |
邁可行承建中石油呼和浩特煉油廠混合調度系統(tǒng) 2009-03-06 |