首頁>>廠商>>交換機/ACD系統(tǒng)平臺廠商>>杭州邁可行

淺談ASR和TTS技術在CTI中的應用

2004/01/02

什么是ASR、TTS?

  計算機技術總是在朝著功能更強大、使用更方便的方向發(fā)展,用戶的需求永遠都是技術前進的動力。ASR和TTS的出現(xiàn),讓人和計算機的距離更加靠近,人機接口更加自然。由于技術(識別率不夠高)和人們習慣上的原因,ASR離真正的普及還有一段距離。但是,在通信領域,由于CTI的廣泛應用,計算機技術不斷融入通信平臺,這項技術正在如火似涂的發(fā)展、普及。VoiceXML就是一個很好的例子,它的應用就是以ASR和TTS作為基礎的。

  ASR,英文的全稱是Automated Speech Recognition,即自動語音識別技術,它是一種將人的語音轉換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性,目前的語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。語音識別系統(tǒng)的性能大致取決于以下4類因素:1. 識別詞匯表的大小和語音的復雜性;2. 語音信號的質量;3. 單個說話人還是多說話人;4. 硬件。

  TTS,英文全稱是TextToSpeech,即文語轉換,又稱為計算機語音合成,它的過程和ASR剛好相反,是把計算機中任意出現(xiàn)的文字轉換成自然流暢的語音輸出。一般認為,語音合成系統(tǒng)包括三個主要的組成部分:文本分析模塊、韻律生成模塊和聲學模塊。目前,TTS的技術已經(jīng)可以達到商業(yè)化的地步。

SAPI簡介

  目前,市場上有很多比較成熟的語音ASR和TTS產(chǎn)品,而且他們大多數(shù)都支持二次開發(fā),如微軟的Speech Application SDK(SASDK)、IBM的Dutty++等。他們能識別(生成)英語、日語和中文等不同國家的語言,Dutty++甚至能夠識別某些地區(qū)的方言,如廣東的方言-粵語。下面我們以SAPI作為例子,簡單的介紹一下ASR和TTS的開發(fā)引擎。

  微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過適應性調整,識別率可以達到90%以上,而且他的開發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開發(fā)。由于SAPI是作為Windows的一個獨立組件在發(fā)展,版本更新也比較快。

  最新的SAPI 3.1提供了基于COM的高級編程接口,應用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個語音引擎中,TTS可以將文本和文件合成為語音,ASR則是將人的聲音信號轉換為可讀的文本或文件。


如何將ASR和TTS功能附加到CTI應用中去

  對于設備提供商和業(yè)務提供商,他們采用語音識別和文語轉換的方式可能不太一樣。某些比較先進的交換平臺,已經(jīng)在交換機的內部實現(xiàn)了ASR和TTS的功能,并作為標準接口的一部分對外提供,業(yè)務開發(fā)商只需要簡單的調用他們即可以在業(yè)務中使用該功能。如杭州邁可行的MPS2000交換系統(tǒng),他們就集成了ASR和TTS,并將他們作為統(tǒng)一業(yè)務接口(USI)的一部分對外提供。而對那些應用開發(fā)商來說,大部分的時候并沒有這么幸運,他們選擇的交換機可能大多數(shù)都不會支持ASR和TTS,因此,要想在業(yè)務中加入這些功能的話,只有自己基于某種引擎進行二次開發(fā)。

  下面,我們針對兩種不同當前情況,站在業(yè)務開發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應用中去。

帶語音接口的PBX

  目前,市場上真正支持ASR功能的開發(fā)式業(yè)務接口并不多,主要有微軟的TAPI電話應用接口和邁可行的USI(統(tǒng)一業(yè)務接口)。這兩種接口都不是標準的電話業(yè)務接口,不過,他們的應用卻很廣泛。

  這里還是以MPS2000系統(tǒng)為例,MPS2000是一套面向下一代網(wǎng)絡的、集成了多種業(yè)務能力的交換平臺。它具有很強的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時,它的業(yè)務資源也非常豐富,有IVR、會議、會議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應用。

  在MPS2000系統(tǒng)中,ASR被抽象為一種簡單的可替代DTMF進行語音撥號的資源,用戶提起電話,可以不用按鍵,直接呼叫某人或者說出電話號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過路由文件播放),而直接把你想說的文本向用戶放出來

下圖顯示了MPS2000中ASR和TTS的應用層次關系:


不帶語音接口的PBX

  對于不帶語音接口的PBX,就需要業(yè)務開發(fā)商自己去選擇合適的平臺,包括媒體采集設備、語音識別引擎等,并在此基礎上進行二次開發(fā)。

下面這副圖描述了這種應用的業(yè)務模型:


  媒體采集設備主要用來采集各種語音信號,如對普通的電信網(wǎng),就是PCM a律信號的采集;而對VOIP應用,采集的信號可能有很多種,包括G.711/G.723/G.729等各種語音格式。同時,該設備還需要具備一定的媒體轉換能力,能將各種媒體流轉換為ASR能夠識別的語音格式。

語音識別技術的前景展望

  隨著電信行業(yè)的競爭日益加劇,網(wǎng)絡運營商和業(yè)務開發(fā)商都在尋找不同的業(yè)務增長點去吸引客戶。ASR和TTS作為一種誘人的新技術,如果能很好的嵌入到增值業(yè)務的應用中去,必將形成一個很好的應用前景。

杭州邁可行公司供稿 CTI論壇編輯



相關鏈接:
下一代網(wǎng)絡(NGN)的核心組件:軟交換技術 2009-08-18
專業(yè)通信調度系統(tǒng)服務中石化華東成品油管網(wǎng)工程 2009-05-19
邁可行建設江西省政府應急指揮系統(tǒng) 2009-04-21
邁可行通信建立新的合作伙伴管理體系 2009-03-17
邁可行承建中石油呼和浩特煉油廠混合調度系統(tǒng) 2009-03-06

分類信息:  語音合成TTS_與_語音識別ASR     文摘   技術_語音合成_文摘   技術_語音識別_文摘
桓台县| 永城市| 阿鲁科尔沁旗| 黄大仙区| 马龙县| 汶上县| 廊坊市| 宁夏| 东方市| 锡林浩特市| 营口市| 赤水市| 敦化市| 建阳市| 宜章县| 南溪县| 徐州市| 东方市| 鄄城县| 常宁市| 聂荣县| 崇明县| 嵊泗县| 乐平市| 巴马| 玉田县| 饶阳县| 元氏县| 凤山县| 万山特区| 隆化县| 连平县| 荣昌县| 龙陵县| 金秀| 阳城县| 浦北县| 大田县| 文山县| 礼泉县| 沭阳县|