聽話要聽音—情感語(yǔ)音處理技術(shù)
中科院自動(dòng)化所 陶建華
2005/02/04
同樣一句話,往往會(huì)由于說(shuō)話人的情感不同,其意思和給聽者的印象就會(huì)不同,所謂“聽話聽音”就是這個(gè)道理。傳統(tǒng)的語(yǔ)音處理系統(tǒng)多著眼于語(yǔ)音詞匯傳達(dá)的準(zhǔn)確性,而忽略了包含在語(yǔ)音信號(hào)中的情感因素。
傳統(tǒng)的語(yǔ)音處理系統(tǒng)只是反映了信息的一個(gè)方面,而忽略了與知識(shí)世界相對(duì)應(yīng)且具有同等重要地位的感性科學(xué)世界,這其實(shí)也是信息處理的一個(gè)重要組成部分。近幾年來(lái),語(yǔ)音識(shí)別與合成技術(shù)在語(yǔ)音分析、自然語(yǔ)言處理、信號(hào)處理、隨即過程處理等方法的推動(dòng)下獲得了很大的發(fā)展。但從語(yǔ)音信號(hào)中提取情感特征,分析人的情感與語(yǔ)音信號(hào)的關(guān)聯(lián),只是國(guó)內(nèi)外剛剛興起的研究課題。
目前這一領(lǐng)域的研究主要還是集中在情感的聲學(xué)特征分析上,有關(guān)情感建模以及結(jié)合情景、語(yǔ)言特征建立完整的情感控制模型還少有涉及。
聲學(xué)特征判斷情感因素
當(dāng)說(shuō)話人處于不同情感狀態(tài)時(shí),會(huì)在語(yǔ)速上表現(xiàn)出一定的變化,在激動(dòng)狀態(tài)時(shí),語(yǔ)速較平常狀態(tài)快。因此可以利用判斷語(yǔ)音信號(hào)中的語(yǔ)速和發(fā)話持續(xù)時(shí)間等參數(shù)來(lái)判別情感中激動(dòng)成分的程度。同語(yǔ)音信號(hào)中的時(shí)間特征相類似,信號(hào)的振幅特征和各種情感信息也具有較強(qiáng)的相關(guān)性。
由于人對(duì)語(yǔ)音的感知非常多樣化,全面考慮情感的聲學(xué)特征是一個(gè)非常困難的工作,考慮到計(jì)算機(jī)的處理能力,只能通過部分參數(shù)從一定程度上對(duì)情感語(yǔ)音的聲學(xué)特性進(jìn)行概括。一般情況下,語(yǔ)音情感相關(guān)性的表示形式可以通過說(shuō)話人模型或者聲學(xué)模型來(lái)實(shí)現(xiàn)。由于漢語(yǔ)的韻律多以音節(jié)為處理單位,在這種有調(diào)音節(jié)的韻律分析中,音節(jié)的韻律特征起著非常重要的作用,為了便于在漢語(yǔ)中處理,通常將情感語(yǔ)音的聲學(xué)特征直接分為三類:韻律類、音質(zhì)類和清晰度類。
韻律類
韻律類主要用來(lái)表征不同情感狀態(tài)下語(yǔ)氣的變化,它包括如下韻律參數(shù)描述。
平均基頻:整個(gè)語(yǔ)句的基頻(F0)平均值,根據(jù)語(yǔ)音信號(hào)分析聲帶的共振頻率。
基頻范圍:整個(gè)語(yǔ)句的基頻范圍,基頻范圍在很大程度上能夠反映人的情緒狀態(tài)。
重音的突變特性:在情感語(yǔ)句中,重音多體現(xiàn)情感焦點(diǎn)特性,經(jīng)常由情感關(guān)鍵詞承載。
停頓的連貫性:用以表示語(yǔ)句的停頓是否連貫。人在情緒受到壓抑或快速膨脹時(shí),有時(shí)會(huì)出現(xiàn)由于概念表述不清而導(dǎo)致的語(yǔ)氣斷續(xù)特征。
語(yǔ)速:用以表征語(yǔ)氣的緩急程度,人在焦急、恐懼時(shí)多出現(xiàn)語(yǔ)速加快的現(xiàn)象,有時(shí)歡快的語(yǔ)氣也能帶來(lái)類似效果。
重音頻度:重音的頻度在一定程度上能夠體現(xiàn)情感狀態(tài)的持續(xù)性。
音強(qiáng):實(shí)驗(yàn)證明在情感語(yǔ)音中,音強(qiáng)的變化往往表現(xiàn)出與基頻范圍變化的一致性。但是相對(duì)基頻變化來(lái)說(shuō),大部分音強(qiáng)變化并不明顯。
音節(jié)基頻高線傾斜程度:語(yǔ)句中音節(jié)基頻高點(diǎn)連線的變化情況(上升、水平和下降)。
音節(jié)基頻低線傾斜程度:語(yǔ)句中音節(jié)基頻低點(diǎn)連線的變化情況(上升、水平和下降)。
基頻抖動(dòng):焦慮語(yǔ)音會(huì)出現(xiàn)“F0抖動(dòng)”現(xiàn)象,這一現(xiàn)象描述了基頻從一個(gè)區(qū)域到另一個(gè)區(qū)域之間快速和反復(fù)的變化。在此情況下,有時(shí)音節(jié)會(huì)失去其固有調(diào)型。
音質(zhì)類
音質(zhì)類用來(lái)表征不同情感狀態(tài)下語(yǔ)音音質(zhì)發(fā)生的變化,它通過如下參數(shù)描述。
呼吸聲:在語(yǔ)音流中,出現(xiàn)呼吸氣等聲音。當(dāng)一個(gè)人處于緊張或歡快狀態(tài)時(shí)會(huì)出現(xiàn)的快速呼吸停頓,或一個(gè)人由于恐懼而牙齒緊壓會(huì)產(chǎn)生的回旋氣流噪聲。
明亮度:低頻能量和高頻能量的比值,用以反映語(yǔ)音的清亮特性。
喉化度:發(fā)音時(shí)聲門出現(xiàn)不連續(xù)的脈沖震動(dòng)特性,經(jīng)常出現(xiàn)在極度恐懼的情感狀態(tài)中。
清晰度類
情感信息與人的聲道同樣具有一定的關(guān)聯(lián)。清晰度可分為正常、焦急、模糊和準(zhǔn)確。清晰度描述了元音質(zhì)量的變化和清輔音是否變化為相應(yīng)的濁輔音。比如:人在厭惡時(shí),有時(shí)說(shuō)話“嘟嘟囔囔”,表達(dá)不清。
情感表現(xiàn)的多樣性和復(fù)雜性導(dǎo)致情感聲學(xué)參數(shù)的數(shù)值分布多呈現(xiàn)較大的離散特性,表1針對(duì)五種基本情感狀態(tài)列出了幾種基本聲學(xué)參數(shù)較為平均的體現(xiàn)。

從語(yǔ)音中抽取個(gè)性特征
通常情況下,語(yǔ)音理解是從一段語(yǔ)音中分析出文本,讓系統(tǒng)“聽懂”語(yǔ)音的內(nèi)容。它的研究重點(diǎn)是分析語(yǔ)音中的共性特征。情感語(yǔ)音的研究則是從語(yǔ)音中抽取個(gè)性特征,并加以參數(shù)化描述。充分的利用情感韻律特征,從中獲取說(shuō)話人意向及部分語(yǔ)義信息,可以從一定程度上提高理解的準(zhǔn)確率。
由于一般情況下人們很少進(jìn)行典型情緒的發(fā)音,說(shuō)話的情感狀態(tài)通常分布在一個(gè)連續(xù)的狀態(tài)空間里,在Marc Schrder(2001)等人的工作中,采用了三個(gè)參數(shù)來(lái)對(duì)其進(jìn)行描述,分別是激活度(Activation)、評(píng)價(jià)(Evaluation)和強(qiáng)度(Power),不同的情感可以對(duì)應(yīng)到這三個(gè)參數(shù)的值上,下表2為Marc Schrder給出的一個(gè)經(jīng)驗(yàn)對(duì)照表。

對(duì)于一個(gè)給定的情感三維坐標(biāo),其相應(yīng)的聲學(xué)特征具有一定的關(guān)聯(lián)特性。這種三維坐標(biāo)的形式,提供了一種情感語(yǔ)音的特征相似性比較的途徑。例如,生氣和恐懼相比較可發(fā)現(xiàn)具有相似的聲學(xué)特征和情感特征。聲學(xué)上說(shuō)它們?cè)谄骄鶅A斜度、傾斜范圍、語(yǔ)速和清晰度方面是相似的,不同點(diǎn)是害怕的傾斜度改變比中性要緩、語(yǔ)速要快、強(qiáng)度正常、聲音不規(guī)則。在三維情感空間中這兩個(gè)情緒在Activation和Evaluation很近,在Power則有所不同。因而使得情感的聲學(xué)特征具有一定的可預(yù)測(cè)性。
當(dāng)然該三維坐標(biāo)并不能解決所有的情感特征,例如擔(dān)心、熱愛等情感則不能只通過三維空間的描述來(lái)說(shuō)明,同時(shí)由于情感受不同的人感知,反映在語(yǔ)音的聲學(xué)特征上亦會(huì)具有不同的表現(xiàn)形式,因此還需要在情感與認(rèn)知模型上進(jìn)行更深入的研究。
盡管如此,仍然有一些情感信息處理方面的研究成果。這些研究的主要目的是把情感信息的研究從心理學(xué)角度向心理學(xué)、信息學(xué)這一交叉學(xué)科領(lǐng)域過渡。從這幾年的成果看,有關(guān)情感信息的建模以及工學(xué)處理方法等方面的研究成果非常少,較多的是對(duì)情感信息韻律特征表現(xiàn)的觀察和分析。這些特征的分析將從另一個(gè)側(cè)面有助于語(yǔ)音的理解和產(chǎn)生更為生動(dòng)的語(yǔ)音表達(dá)。
小資料
情感計(jì)算的主要應(yīng)用形式
在人機(jī)交互方面的應(yīng)用
情感計(jì)算更多地應(yīng)用于人機(jī)交互方面,它將能有效地改變過去計(jì)算機(jī)呆板的交互服務(wù),提高人機(jī)交互的親切性和準(zhǔn)確性。一個(gè)擁有情感能力的計(jì)算機(jī)能夠?qū)θ祟惽楦羞M(jìn)行獲取、分類、識(shí)別和響應(yīng),進(jìn)而幫助使用者獲得高效而又親切的感覺,并能有效減輕人們使用電腦的挫敗感,甚至能幫助人們理解自己和他人的情感世界,這正是計(jì)算技術(shù)向人類社會(huì)全面滲透的重要手段。例如采用此類技術(shù)探測(cè)司機(jī)精力是否集中,并做出相對(duì)反應(yīng);還可以在汽車中用電腦測(cè)量駕車者感受到的壓力水平,以幫助解決駕駛者的所謂“道路狂暴癥”問題。
同時(shí),情感計(jì)算及其相關(guān)研究還能給電子商務(wù)帶來(lái)實(shí)惠。有研究顯示,不同圖像可以喚起人類不同的情感,例如蛇、蜘蛛、槍的圖片能引起恐懼,而大量美元現(xiàn)金和金塊的圖片則可以使人產(chǎn)生強(qiáng)烈的積極反應(yīng),如果購(gòu)物網(wǎng)站和股票交易網(wǎng)站在設(shè)計(jì)時(shí)考慮到這些因素,則能對(duì)客流量的上升產(chǎn)生積極影響。
在信息家電和智能儀器中增加自動(dòng)感知人們情緒狀態(tài)的功能,可以提供更好的服務(wù);在信息檢索應(yīng)用中,通過情感分析的概念解析功能,則可提高智能信息檢索的精度和效率;在遠(yuǎn)程教育平臺(tái)中,情感計(jì)算技術(shù)的應(yīng)用能提升教學(xué)效果;利用多模式的情感交互技術(shù),還可以構(gòu)筑更貼近人們生活的智能空間或虛擬場(chǎng)景。此外,情感計(jì)算還能應(yīng)用在機(jī)器人、智能玩具、游戲等相關(guān)產(chǎn)業(yè)中,以構(gòu)筑更加擬人化的風(fēng)格和更加逼真的場(chǎng)景。
在心理學(xué)方面的應(yīng)用
從認(rèn)知科學(xué)的角度看,情感反映了人的心理狀態(tài),是人類思維活動(dòng)最生動(dòng)的體現(xiàn),所以對(duì)人類情感機(jī)理的研究與探索一直是科學(xué)研究的重要方向。情感計(jì)算理論通過計(jì)算機(jī)的分析和處理手段,將對(duì)情感的研究從感性認(rèn)知上升為可計(jì)算模型,對(duì)在認(rèn)知科學(xué)上探索大腦對(duì)信息的分析和處理機(jī)理、進(jìn)一步加深對(duì)大腦中情感概念的解析和理解將具有重要的科學(xué)意義。
在醫(yī)學(xué)上的應(yīng)用
現(xiàn)代醫(yī)學(xué)研究表明,健康應(yīng)該包含更多情緒方面的內(nèi)容,可是現(xiàn)代人中患有抑郁癥的比例卻在逐年上升,所以醫(yī)學(xué)界希望能夠更早地向好的方面誘導(dǎo),從而有效地幫助人們對(duì)不良情緒進(jìn)行排解。
情感雖然是一種內(nèi)部的主觀體驗(yàn),但總是伴隨著某種外部表現(xiàn)。面部表情不僅是人們常用的較自然的情感表現(xiàn)方式,也是人們鑒別情感的主要標(biāo)志。另外在醫(yī)學(xué)研究中也已使用過很多生理指標(biāo),如皮質(zhì)醇水平、心率、血壓、呼吸、皮膚電活動(dòng)、掌汗、瞳孔直徑、事件相關(guān)電位、腦電EEG等,都是對(duì)人類情緒狀態(tài)的客觀度量。
計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接:
新竹县|
榆林市|
泾川县|
沂南县|
民丰县|
延安市|
天长市|
诏安县|
乐清市|
咸阳市|
宾阳县|
东安县|
化隆|
达州市|
六安市|
隆昌县|
灵山县|
五家渠市|
连江县|
上思县|
朝阳市|
曲松县|
尼木县|
萍乡市|
通许县|
中牟县|
汾阳市|
青神县|
化隆|
富顺县|
湖州市|
灌南县|
司法|
留坝县|
嵩明县|
湘阴县|
亚东县|
怀来县|
东平县|
西乌珠穆沁旗|
巧家县|