中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

 首頁 > 技術(shù) > 技術(shù)文摘 > 核心技術(shù)與流程設(shè)計 語音門戶的兩扇門

核心技術(shù)與流程設(shè)計 語音門戶的兩扇門

2002-01-30 00:00:00   作者:   來源:   評論:0 點擊:


不僅是技術(shù)—語音門戶專題系列(一)

語音識別是關(guān)鍵

  語音識別技術(shù)是語音門戶的核心技術(shù),掌握好這項技術(shù),是語音門戶獲得成功的第一步。

  1.識別引擎

  語音識別引擎是語音門戶的核心。語音識別引擎不僅要聽懂用戶的語音,還要完成語言理解、語法分析、對話(包括人機對話和流程)控制和語音輸出等工作。識別引擎可以識別不同的語言,但需要不同的語音庫來支持。例如,在同一個引擎下,外掛中文或英文語音庫就可以識別中文或英文語音。

  語音識別技術(shù)的成熟和商品化,依賴于軟件算法的進步,更依賴于硬件性能的提高。20世紀(jì)90年代末,計算機硬件性能的飛速提高和價格的急劇降低,使語音識別技術(shù)從實驗室走向了市場。

  識別率是語音識別引擎成功與否的關(guān)鍵,為了在電信網(wǎng)絡(luò)上提高識別率,要有針對性地處理以下問題:

  (1) 回聲:在電信系統(tǒng)中,語音傳輸過程中的回聲將極大地影響識別率。要將回聲抑制掉,必須在硬件和軟件上對信號進行處理。

  (2) 噪聲:包括用戶環(huán)境噪聲和系統(tǒng)中的電子噪聲,前者需要語音識別引擎軟件來處理,后者一般由硬件處理。

  (3) 語音中斷:用戶不必聽完系統(tǒng)播報,可以隨時說出新的服務(wù)需求,系統(tǒng)將中斷播報,并為用戶提供新的服務(wù)。目前,主流的語音卡都提供了語音中斷功能。為達到更好的效果,識別引擎還必須提供專門的接口,以保證兩者能夠更好地結(jié)合。

  2.自然語言處理

  只有提供自然語言識別功能,語音門戶的用戶才能享受到親切、快捷的服務(wù)。在一些復(fù)雜應(yīng)用中(如查詢航班/火車時刻表,股票買賣等),采用自然語言對話,才能發(fā)揮出其替代按鍵的優(yōu)勢。除了識別引擎要具備自然語言理解能力外,在應(yīng)用開發(fā)中也有大量的工作要做。

  自然語音識別技術(shù)使計算機能夠聽懂和理解人的語言,用戶不必用固定的語序講話。系統(tǒng)能夠幫助用戶明確其需求,并提供準(zhǔn)確的服務(wù)。系統(tǒng)應(yīng)該能夠聽懂自然的語言,并到數(shù)據(jù)庫查詢出信息,再播報給用戶。對于一些不太規(guī)范的語句,系統(tǒng)同樣應(yīng)該聽懂,并逐步引導(dǎo)用戶,以便向用戶提供服務(wù),這才是真正的自然語言識別。目前,有一些承諾提供自然語言識別的系統(tǒng),往往要求用戶一次說清全部需求,這不是真正的自然語言識別,在現(xiàn)實應(yīng)用中,也是無法使用的。

  3.TTS

  TTS是語音門戶中的一個重要技術(shù),它提供了系統(tǒng)向用戶輸出的語音界面。

  與拼音文字不同,中文的“詞”由一個或多個漢字組合而成,如何斷詞并正確地發(fā)音,需要有一個非常大的、及時更新的詞庫來支持,還需要對上下文進行判斷。因此,中文TTS的開發(fā)難度要比英文大得多。

  經(jīng)過長期研究,中文TTS取得了非常大的進步,也有了一些專門支持電信級應(yīng)用的系統(tǒng)。在現(xiàn)有的技術(shù)水平下,TTS能夠滿足一般的閱讀要求。但讀時事新聞、電子郵件(尤其是包含許多縮略語和中外文混合的文本)和文學(xué)作品時,其效果還不能令人滿意。

  要判斷TTS的水平,不要用開發(fā)商提供的樣本,也不要讓開發(fā)商代勞輸入漢字,建議用戶隨意摘錄網(wǎng)上的新聞,直接粘貼到TTS文本窗口中,然后直接進行測試。TTS是給普通用戶聽的,不是給專家聽的,其直觀的效果最重要。

流程是人性化服務(wù)的保證

  流程設(shè)計是質(zhì)量控制的核心,即使語音識別的準(zhǔn)確率再高,也不可能達到100%。因此,設(shè)計一個好的流程來幫助和引導(dǎo)用戶,并克服語音識別的新問題,是提高語音門戶服務(wù)質(zhì)量的核心。同時,一個好的流程,也是為運營商創(chuàng)造價值的基礎(chǔ)。

  1.有別于IVR的流程

  受電話按鍵的束縛,傳統(tǒng)的按鍵信息服務(wù)系統(tǒng)(IVR)必須把各種服務(wù)分成多層,或者開設(shè)多個電話號碼。

  (1)新的“層”概念

  由于引入了自然語言識別技術(shù),在語音門戶中,“層”被授予了新的內(nèi)容。它不是一個機械的分類標(biāo)準(zhǔn),而是幫助用戶的導(dǎo)航界面。它將引導(dǎo)新用戶一步步接近目標(biāo),并幫助老用戶直接達到目標(biāo)。語音門戶可以在原有結(jié)構(gòu)的技術(shù)上引入語音導(dǎo)航,也可以打破原有結(jié)構(gòu),建立新的、更適用于語音導(dǎo)航的流程。

  (2)實現(xiàn)任意跳轉(zhuǎn)

  傳統(tǒng)的IVR系統(tǒng)中,如果用戶通過多次按鍵,進入了某項服務(wù),就很難訪問另一個服務(wù)。這時,用戶要么必須根據(jù)系統(tǒng)提示,逐層返回、逐層進入;要么已經(jīng)在系統(tǒng)中迷路,無法進入其他路徑,只能掛斷電話,再次撥入。而語音導(dǎo)航能夠聽懂用戶的需求,可直接跳入另一欄目或服務(wù),不必逐層返回和進入。

  2.語言學(xué)處理

  語言是“活”的,因此,語音門戶也必須能夠靈活地處理用戶需求。

  (1)多音詞和同義詞:系統(tǒng)必須能夠自動處理多音詞/字和同義詞,才能滿足不同的客戶需求,保證識別率和服務(wù)品質(zhì)。

  (2)無義詞:系統(tǒng)必須能夠自動過濾沒有意義的詞/字,減少對用戶的約束,提高人機對話的自然度。

  (3)口音適應(yīng):中國地域廣大,人口眾多,方言和口音十分復(fù)雜。因此,除為特定區(qū)域的用戶提供專用的語言引擎外,普通話引擎要適應(yīng)帶有一定口音的用戶。系統(tǒng)集成商還需要根據(jù)使用情況對系統(tǒng)進行調(diào)整,建立自學(xué)系統(tǒng),不斷提高系統(tǒng)的識別率。

  3.人性化提示和錯誤處理

  (1)不同的提示和幫助:要根據(jù)不同的情景提供提示和幫助界面,如,有時需要嚴(yán)肅,有時需要活潑。

  (2)人性化引導(dǎo):要提供人性化的提示和引導(dǎo),才能發(fā)揮語音導(dǎo)航和服務(wù)的優(yōu)勢。

  (3)錯誤處理:在聽覺上,機器不如真實的人,不可能有100%的識別率。如何處理錯誤,讓用戶理解并愉快地接受,就需要制定錯誤處理原則并靈活地運用技巧。基本的系統(tǒng)應(yīng)該對用戶沒有講話、用戶講錯了話、系統(tǒng)只聽懂一部分等現(xiàn)象具有判斷能力。

語音門戶的弱點

  語音門戶不是萬能的,它在一段時間內(nèi)沒有得到大面積的普及和推廣,是由于其自身尚存在著一些弱點,其中,主要是信息量有限的問題。

  語音門戶主要提供語音服務(wù),但聽覺能夠接收的信息量是有限的,遠(yuǎn)遠(yuǎn)小于視覺能夠提供的信息量。有些語音服務(wù),如讀E-mail、語音上網(wǎng)等,僅僅是應(yīng)急時的需要,不能替代傳統(tǒng)的電子郵件和瀏覽器。同時,并不是所有的信息發(fā)布和服務(wù)都適用于語音門戶,那些信息量大、更適合視覺瀏覽的信息就不適用于語音門戶。

相關(guān)閱讀:

分享到: 收藏

專題

仙居县| 西城区| 资溪县| 柞水县| 马尔康县| 包头市| 定兴县| 楚雄市| 渭南市| 镇坪县| 洪洞县| 宝兴县| 浦东新区| 清水河县| 江华| 会宁县| 合江县| 绥滨县| 斗六市| 镇赉县| 视频| 延边| 武平县| 大连市| 朔州市| 萍乡市| 瓮安县| 剑川县| 广东省| 乌恰县| 江达县| 平原县| 莲花县| 华池县| 腾冲县| 扶余县| 石棉县| 滦平县| 政和县| 巢湖市| 富源县|