首頁>>廠商>>語音識別與合成>>科大訊飛

語音合成芯片探析

2009/07/31

  語音合成芯片就是將完整的語音合成系統(tǒng)固化集成到芯片內(nèi)部,通過簡單的接口接收待合成的文本信息,將文本合成為清晰流暢的語音輸出,完成機(jī)器代替人說話傳達(dá)信息的過程,語音芯片應(yīng)用簡單,開發(fā)和使用成本低,在車載調(diào)度、氣象預(yù)警、公交報(bào)站等領(lǐng)域被廣泛應(yīng)用。

  語音合成芯片最大的功能應(yīng)用點(diǎn)在于用戶需要播報(bào)一些大量、動(dòng)態(tài)文本信息時(shí),可以即時(shí)、方便的將文本信息內(nèi)容合成為語音輸出,從而解決傳統(tǒng)錄音芯片無法解決的大容量、動(dòng)態(tài)文本信息播報(bào)問題。

  目前,市場上語音合成芯片價(jià)位從幾十元到幾百元的都有,另外芯片外形、產(chǎn)品封裝形式、調(diào)用接口等紛繁復(fù)雜,讓用戶在選擇語音合成芯片時(shí)經(jīng)常陷入迷惑狀態(tài)。那么如何正確分辨、選用一款高性能語音合成芯片?語音合成芯片重點(diǎn)需要考核哪些性能指標(biāo)?以下參數(shù)將成為用戶重點(diǎn)評估方向:

1、語音合成效果。

  語音合成芯片的應(yīng)用目的是以語言的方式傳達(dá)文本信息,機(jī)器說話是否標(biāo)準(zhǔn),人能否聽懂聽舒服自然成為最最重要的衡量指標(biāo)。語音芯片的朗讀效果主要由兩個(gè)重要技術(shù)指標(biāo)決定:可懂度和自然度。可懂度就是人們能夠聽懂機(jī)器合成出來的內(nèi)容,是語音合成芯片能否應(yīng)用的基本要求;自然度則是機(jī)器發(fā)音效果是否易于理解,聽著舒服,與正常人說話的差距。國家863專家組對語音合成效果的自然度綜合評測有詳細(xì)說明,規(guī)定采用5分制打分,達(dá)到可接受階段為3.0分,普通人說話水平為4.0分,播音員的水平為5.0分。可懂度是衡量語音合成產(chǎn)品是否可用的標(biāo)準(zhǔn),自然度則是評價(jià)產(chǎn)品是否可以大規(guī)模應(yīng)用,以及應(yīng)用于高端領(lǐng)域的重要指標(biāo)。

2、能否識別常見的特殊格式文本。

  為了滿足不同文本的合成需求,語音合成芯片除了能夠自動(dòng)識別常見文本內(nèi)容外,在一些特殊格式文本方面,如時(shí)間、日期、網(wǎng)站名稱等格式的文本,也要能夠智能判讀。“12:10:35”讀成“十二點(diǎn)十分三十五秒”,“2008-1-13”讀成“二零零八年一月十三號”,“http://www.abc.com”讀成“h-t-t-p w-w-w點(diǎn)a-b-c點(diǎn)c–o- m”。

3、能否識別常見的特殊符號、單位符號。

  對于一些特殊符號及單位符號等,語音合成芯片也需要能夠正確識別并合成出來,如:“-2℃”讀成“零下2攝氏度”,其他的30%,a&b,¥80,20㎝,75㎏,90㎡等都能夠人們按照閱讀習(xí)慣進(jìn)行讀出。

4、能否判讀常見多音字。

  多音字作為漢字中常見的發(fā)音重點(diǎn)和難點(diǎn),是各家語音公司關(guān)注的焦點(diǎn),特別是中文語音合成芯片,在這方面更需要優(yōu)異的表現(xiàn)。如:音樂,銀行,特長,即將,股市行情,調(diào)整,校正,災(zāi)難,沒收,長三角,西藏,濟(jì)南,重慶,成都等等,多音字能否正確判讀直接影響合成信息的可懂度,信息受眾者的理解,所以必須準(zhǔn)確朗讀。

5、能否支持多種漢字編碼支持。

  多種漢字編碼支持目前也已成為考核語音合成芯片性能的重點(diǎn),這點(diǎn)在方便終端用戶使用方面以及支持漢字識別范圍方面均非常重要。目前常用的漢字編碼格式有GB2312, Unicode,GBK,BIG5等。

6、能否支持?jǐn)?shù)字的讀法。

  生活離不開數(shù)字,數(shù)字串的正確識別合成輸出,在眾多應(yīng)用領(lǐng)域成為普遍性關(guān)注點(diǎn),合成文本中會經(jīng)常出現(xiàn)類似如:“請撥打12345”、“電話:12345”“熱線:12345” “我的號碼:12345”等內(nèi)容,一款高性能語音合成芯片能夠智能判斷把數(shù)字串讀成數(shù)值、還是號碼。如“12345”會自動(dòng)按照號碼的讀成“一二三四五”。“139-11661189”自動(dòng)按照號碼讀成“幺三九幺幺六六幺幺八九”。而“12345公斤”會自動(dòng)讀成“一萬二千三百四十五公斤”, “345678個(gè)”會讀成“三十四萬五千六百七十八個(gè)”等等。

7、能否支持合成參數(shù)設(shè)置。

  參數(shù)合成設(shè)置主要是為了方便使用語音芯片進(jìn)行二次開發(fā)的用戶來進(jìn)行設(shè)置、調(diào)試、修正文本合成效果。語音合成芯片應(yīng)該能夠支持多種標(biāo)記功能,可以按照需要進(jìn)行標(biāo)記。使用多種標(biāo)記進(jìn)行設(shè)置更為直觀方便、易維護(hù)。例如:設(shè)置音量,只要使用合成命令幀發(fā)送[v9],就可把音量設(shè)置9級音量。

8、用戶使用接口簡單、易用。

  以上是從語音合成芯片效果及語音合成芯片內(nèi)核等方面來評估語音合成芯片的性能,其實(shí),在實(shí)際選用一款好的語音合成芯片的時(shí)候,用戶還需要注意芯片硬件方面的參數(shù),如:是否單芯片,體積大小,能夠大批量貼片焊接生產(chǎn)?以及功耗,工作溫度等等方面。

科大訊飛語音合成技術(shù)及語音合成芯片簡介:

  科大訊飛是一家專業(yè)從事智能語音及語言技術(shù)研究、軟件及芯片產(chǎn)品開發(fā)、語音信息服務(wù)及電子政務(wù)系統(tǒng)集成的國家級骨干軟件企業(yè),是我國眾多軟件企業(yè)中為數(shù)極少掌握核心技術(shù)并擁有自主知識產(chǎn)權(quán)的企業(yè)之一,其智能語音核心技術(shù)代表了世界的最高水平。

  訊飛嵌入式語音合成技術(shù)采用基于HMM的參數(shù)語音合成方法,在保證合成語音清晰流暢的同時(shí),充分降低合成系統(tǒng)的存儲與運(yùn)算資源消耗,以滿足嵌入式設(shè)備上的資源受限環(huán)境。

  基于科大訊飛世界領(lǐng)先的中文語音合成技術(shù),訊飛嵌入式語音合成芯片自2001年起陸續(xù)推出了XF1M01、XF-1M02、XF-2S01E、XF-S3111、XF-S3231、XF-S3011、XF-S4240、XF-S4040、XFS3031CN、XFS4041CN共10款產(chǎn)品,并已經(jīng)在車載GPS調(diào)度終端、氣象預(yù)警機(jī)、考勤機(jī)、信息機(jī)、智能玩具、智能儀表等領(lǐng)域大規(guī)模普及應(yīng)用。

  目前,科大訊飛針對普通、中端、高端市場需求推了XFS3031CNXFS4041CNXF-S4240三款語音合成芯片,三款芯片性能均非常突出卓越,其差異性主要體現(xiàn)在合成效果指標(biāo)中自然度上,按照國家863專家組5分制標(biāo)準(zhǔn)來評分,其綜合評分分別為3.01分、3.63分和3.76分,也就是說三者語音合成效果相比較,XFS3031CN一般,XFS4041CN居中,XF-S4240最好。

  另外,三款語音芯片均通過了車載、電力、氣象等眾多行業(yè)相關(guān)要求的專業(yè)認(rèn)證和測試標(biāo)準(zhǔn),并已在多個(gè)客戶產(chǎn)品中成功集成上市,語音芯片的詳細(xì)功能特性,有興趣的朋友可以登陸科大訊飛網(wǎng)站(www.iflytek.com)下載詳查或來電來函索要。聯(lián)系方式如下:

北京分公司:
電話:010-58301005轉(zhuǎn)8009
深圳辦事處:
電話:0755-83073410
上海辦事處:
電話:021-58318011

CTI論壇報(bào)道



相關(guān)鏈接:
安徽省語音產(chǎn)業(yè)發(fā)展座談會勝利舉行 2009-07-29
訊飛語音助力安徽評標(biāo)專家?guī)炜头到y(tǒng) 2009-07-14
電視讀報(bào):為用戶打造專屬讀報(bào)人 2009-07-08
科大訊飛推出語音合成芯片XFS3031CN 2009-07-07
嵌入式語音技術(shù)應(yīng)用將實(shí)現(xiàn)爆發(fā)式增長 2009-07-02
乌鲁木齐市| 虎林市| 鄄城县| 安福县| 招远市| 安仁县| 贵南县| 松原市| 隆尧县| 汉中市| 铁岭县| 农安县| 临高县| 望谟县| 秦安县| 广南县| 宾川县| 会东县| 东乡县| 合水县| 三亚市| 扎赉特旗| 那曲县| 错那县| 高碑店市| 临朐县| 宝鸡市| 西乌珠穆沁旗| 集贤县| 凤山县| 志丹县| 石林| 霍城县| 新泰市| 英超| 偃师市| 五原县| 平湖市| 永城市| 云和县| 文安县|