中文字幕在线视频第一页,黄色毛片在线看,日本爱爱网站,亚洲系列中文字幕一区二区

 首頁 > 技術(shù) > 技術(shù)文摘 > 語音識(shí)別:PDA的理想輸入選擇

語音識(shí)別:PDA的理想輸入選擇

2001-09-27 00:00:00   作者:   來源:   評(píng)論:0 點(diǎn)擊:


 

用戶不斷地要求所用裝置更小、更輕便同時(shí)又更易于使用。能解決這三方面問題的一種可行技術(shù)就是語音識(shí)別。這種技術(shù)由于清除了傳統(tǒng)的輸入器件(如鍵盤或筆接口),故具備更小和更輕便的特點(diǎn)。   

解決容易使用問題更需要有一點(diǎn)技巧,裝置所采用的技術(shù)是否恰當(dāng)。從某種意義上講,這又必須根據(jù)目標(biāo)應(yīng)用是什么而采取不同的處理。語音識(shí)別兩個(gè)最通用的模式是語音從屬和語音獨(dú)立。   

語音從屬與語音獨(dú)立   

語音從屬意味著必須有培訓(xùn)系統(tǒng)而且通常它只可識(shí)別培訓(xùn)系統(tǒng)的人所講的詞。語音獨(dú)立系統(tǒng)則可以識(shí)別幾乎所有講話人的詞。在這種情況下,可以聽懂的詞匯通常也是相當(dāng)有限的。   

語音從屬的一個(gè)例子是語音撥號(hào)器,在語音撥號(hào)中用戶輸入要存儲(chǔ)的人名。幾次重復(fù)這些名字,撥號(hào)器正確地“記錄”是如何講的。當(dāng)它聽到這些名字時(shí),它給出適當(dāng)?shù)男畔ⅲ灿胁捎米詣?dòng)撥號(hào)機(jī)撥號(hào)的。語音獨(dú)立使用的是計(jì)算器,它只有15個(gè)詞:10個(gè)數(shù)字和算術(shù)運(yùn)算。   

如何處理來自不同制造廠家的詞匯,Sensory公司采用把用語(vocabulary)劃分成詞組(word set)。根據(jù)應(yīng)用,把很多必需用的詞組成一個(gè)命令樹(command tree),這里的限制因素是系統(tǒng)的存儲(chǔ)器容量,它通常取決于系統(tǒng)中可用的存儲(chǔ)量或成本預(yù)算。   

對(duì)于語音獨(dú)立詞組來講,存儲(chǔ)器需要量大約為700字節(jié)/詞。在語音從屬模式中,它為128字節(jié)/詞。   

Sensory公司設(shè)置語音獨(dú)立詞組為14個(gè)詞。如果用戶有很多詞要識(shí)別,則可在一個(gè)命令樹中建立自己的應(yīng)用分支,只需用一個(gè)低音命令分支為獨(dú)立的功能,其中每一個(gè)功能都具有它自己的語音獨(dú)立詞組。這樣它對(duì)每一個(gè)詞都有不同的上下文,在詞組中通過共享可以再用這些詞。   

在語音撥號(hào)器應(yīng)用中,第一命令包“friends(朋友)”,“busiress(業(yè)務(wù))”和“relatives(親戚)”等。根據(jù)所講的這些詞,系統(tǒng)將轉(zhuǎn)移到第二組命令,如所含的詞為“first”(對(duì)于人名,從字母表前半部分的一個(gè)字母開始)或“l(fā)ast”(對(duì)于人名從字母表的后半分部一個(gè)字母開始)。直到找到所希望的名字為止。   

語音獨(dú)立和語音從屬之間的另一個(gè)差別是所需要的存儲(chǔ)量,因?yàn)檎Z音獨(dú)立系統(tǒng)已經(jīng)被培訓(xùn),它的700字節(jié)/詞直接包含在應(yīng)用代碼中。代碼一般存儲(chǔ)在片外ROM、非易失存儲(chǔ)器(如閃存)或直接掩膜進(jìn)微控制器中。   

語音從屬詞匯需要在運(yùn)行時(shí)間存儲(chǔ)到可寫存儲(chǔ)器中,這不是困難的,因?yàn)橥ǔK恍韬苄〉拇鎯?chǔ)量。一個(gè)EEPROM器件通常即可擔(dān)當(dāng)此任。在128字節(jié)/詞中,64個(gè)詞可存儲(chǔ)在一個(gè)k字節(jié)EEPROM中,這對(duì)于大部分的應(yīng)用是合適的。   

影響語音識(shí)別系統(tǒng)精度的因素之一是所接收的信號(hào)品質(zhì),主要由兩個(gè)因素(背景噪聲和所用傳聲器)確定。   

背景噪聲可用系統(tǒng)內(nèi)的噪聲消除算法處理。建議用定向傳聲器,往往傳聲器本身具有內(nèi)含的噪聲消除功能。   

傳聲器空間問題   

由于大部分便攜裝置所采用的體積尺寸會(huì)對(duì)傳聲器產(chǎn)生另外的問題。它們是如此的小,以致使分配給傳聲器的空間不夠大或不是最好的位置。通常他們也沒有處理語音識(shí)別的設(shè)計(jì)。   

現(xiàn)在可用的傳聲器對(duì)于語音從屬系統(tǒng)是可以接受的,但現(xiàn)在的傳聲器不適合用在實(shí)現(xiàn)語音獨(dú)立的平臺(tái)上。   

在視距范圍內(nèi),目前普遍采用手持裝置實(shí)現(xiàn)移動(dòng)口授。這意味著用戶可用PDA檢索他們的e-mail,以口授應(yīng)答進(jìn)入PDA,然后無線發(fā)送應(yīng)答或接入連接的PC。   

可惜現(xiàn)在沒有一個(gè)可接受的嵌入傳聲器能滿足在手持裝置中進(jìn)行e-mail所需求的精度。   

很多設(shè)計(jì)人員希望增加語音識(shí)別到現(xiàn)有的產(chǎn)品中。識(shí)別問題嚴(yán)重受限制的原因是把傳聲器放在何處和如何設(shè)計(jì)。雖然設(shè)計(jì)人員喜歡采用功能強(qiáng)的處理器來處理此問題,但是,具有高性能的處理器將無助于問題的解決。假若輸入信號(hào)有缺陷,你對(duì)它做的再多也沒有用。靜電、噪聲和回路等都能影響語音的品質(zhì)。   

試用DSP

設(shè)計(jì)一個(gè)語音識(shí)別系統(tǒng)最好方法之一是采用DSP。Sensory公司最近推出Voice Activation軟件,該軟件適合DSP基應(yīng)用(如電話、無線設(shè)備、汽車和消費(fèi)類電子)。Voice Activation軟件是為高噪聲環(huán)境應(yīng)用設(shè)計(jì)的。該公司聲稱基于該軟件的系統(tǒng)在80dB噪聲環(huán)境中可達(dá)到優(yōu)于98%的精度。   

利用DSP算法的另一結(jié)構(gòu)出自Advanced Recognition Technologies公司,該公司的語音識(shí)別技術(shù)稱之為smARTspeak,它與WinCE兼容并可定制用于專用的OS,適用于蜂窩電話和PDA市場(chǎng)。   

ART的識(shí)別算法可運(yùn)行在價(jià)廉、低性能、具有最小存儲(chǔ)器的微處理器中。另外,這些算法用綜合API(應(yīng)用編程接口)系統(tǒng)書寫,使它們很容易地轉(zhuǎn)移或應(yīng)用于幾乎所有裝置。Port此技術(shù)的優(yōu)點(diǎn)是通過軟件實(shí)現(xiàn)語音控制,不增加系統(tǒng)的硬件成本。   

Sensory公司的微處理器為便攜系統(tǒng)提供了關(guān)鍵性能——低功率和休眠模式以降低功耗。處理器可自己置到休眠,同時(shí)借助一條I/O線(一般用一按鍵)喚醒,或用一個(gè)內(nèi)部定時(shí)器作周期性喚醒。   

用RSC-264T和RSC-364芯片進(jìn)行設(shè)計(jì)時(shí)必須用外部ROM。RSC-264T是一款低檔器件,用在對(duì)成本敏感的消費(fèi)類電子和玩具中。它是一個(gè)8位微控制器,類似于工業(yè)標(biāo)準(zhǔn)8051。這可使熟悉8051指令系統(tǒng)的設(shè)計(jì)人員能很快開始編寫代碼。一個(gè)片上傳聲器前置放大器有助于進(jìn)一步降低系統(tǒng)成本。RSC-364是一款高檔器件,設(shè)計(jì)用于消費(fèi)類電子和電話應(yīng)用。   

盡管這些器件是專門為語音識(shí)別設(shè)計(jì)的,但它們?nèi)跃哂刑幚硗ㄓ梦⑻幚砥魅蝿?wù)的能力。一個(gè)小系統(tǒng)不需要獨(dú)立的處理器,以避免增加電流損耗和成本。能工作在2.4~2.5V的系統(tǒng),可采用兩節(jié)AAA電池供電。   

一個(gè)RISC芯核(如Hitachi公司的SH)可做為語音識(shí)別的處理器,其中軟件編程接口(SPI)位于處理器和應(yīng)用部件之間(見圖1)。  

圖1 用RISC芯核實(shí)現(xiàn)語音識(shí)別

Information Storage Devices公司設(shè)計(jì)的VoiceDSP也是基于DSP結(jié)構(gòu)基礎(chǔ)上。該產(chǎn)品把多種DSP功能集成在單片上,為電話、汽車和消費(fèi)類應(yīng)用提供優(yōu)異的成本效率解決方案。   

ISD-T360SA處理器把16位DSP和16位RISC芯核技術(shù)結(jié)合在一起(見圖2)。它具有系統(tǒng)支持功能,如中斷控制單元、編碼/解碼器接口(主和從)、到主系統(tǒng)微控制器的接口,以及閃存和DRAM用的存儲(chǔ)器處理。片上ROM存有VoiceDSP軟件。

圖2 集成DSP和RISC芯核技術(shù)

語音壓縮是語音識(shí)別的另一方面。Digital Voice Systems的AMBE-2000是一款聲碼器,它含有該公司的AMBE+聲碼器技術(shù)。它提供長(zhǎng)途應(yīng)用品質(zhì)的語音(在4kbits),可工作在2~9.6kbits/s任何用戶確定的位率。它包含一個(gè)帶內(nèi)置Viterbi譯碼器的卷積FEC編碼器(它具有4位軟決策譯碼)。   

AMBE-2000特性有:3V工作,半雙工或全雙工模式,自動(dòng)語音和無聲檢測(cè)以及回聲消除。這些特性使它很適合于無線應(yīng)用。用TIDSP芯核可簡(jiǎn)化代碼寫入。   

專用和標(biāo)準(zhǔn)OS  

與PDA有關(guān)的最通用的操作系統(tǒng)是Windows CE和Palm OS。大部分的手持裝置運(yùn)行專用OS。幾乎所有的便攜裝置都具有不同的配置、占位置面積、CPU和存儲(chǔ)器子系統(tǒng)。從第三方開發(fā)者的觀點(diǎn),迫切希望選擇一種或兩種平臺(tái)進(jìn)行開發(fā)。現(xiàn)在,這兩種平臺(tái)就是WinCE和Palm OS。   

在應(yīng)用軟件方面,Dragon Systems公司的Naturally Speaking Mobile Organizer易使用戶的講話變?yōu)閑-mail。此軟件不僅識(shí)別所講的詞,而且分析講了什么并產(chǎn)生所希望的操作。例如,用戶講“send an e-mail”(發(fā)e-mail)或“schedule an appoinement”(安排約會(huì)),錄音器在PDA中存儲(chǔ)信息直到用戶的計(jì)算機(jī)可用為止。然后,當(dāng)PDA PC連接時(shí)PC記錄和分析所講的內(nèi)容。最后,Naturally Speaking Mobile Organizer命令應(yīng)用采取適當(dāng)?shù)牟僮鳌<嫒莸膽?yīng)用包括Microsoft Outlook 98,Palm Pilot Desktop,Lotus Notes,Gold Mine和Symantec ACT! 4.0等。

摘自PDA時(shí)代

相關(guān)閱讀:

分享到: 收藏

專題

仙桃市| 利辛县| 湘潭县| 兴和县| 莱州市| 巴彦县| 新蔡县| 荔浦县| 越西县| 壤塘县| 福泉市| 拉萨市| 敖汉旗| 张家川| 临江市| 尤溪县| 和静县| 郧西县| 沐川县| 清河县| 沙湾县| 天台县| 灵台县| 甘南县| 亚东县| 勐海县| 周至县| 廉江市| 辉县市| 孝昌县| 沾化县| 瓦房店市| 长春市| 三都| 曲周县| 遂宁市| 抚远县| 巧家县| 揭西县| 万州区| 南陵县|