CTI論壇(ctiforum.com)9月5日消息(編譯/老秦): 隨著(zhù)短短幾年的巨大技術(shù)進(jìn)步,關(guān)于人工智能是否可以感知的爭論已經(jīng)走出了科幻小說(shuō)和好萊塢的圈子,進(jìn)入了世界各地大大小小的公司的董事會(huì )。商界領(lǐng)袖提出的真正問(wèn)題是:人工智能情緒檢測是否準備好迎接黃金時(shí)代?

毫無(wú)疑問(wèn),擁有可以識別人類(lèi)情緒的人工智能可能對聯(lián)絡(luò )中心、營(yíng)銷(xiāo)、銷(xiāo)售、招聘和許多其他業(yè)務(wù)功能有益,但我們真的希望機器解釋或取代人類(lèi)互動(dòng)嗎?我們相信他們能準確地做到這一點(diǎn)嗎?
看起來(lái)是這樣。情緒檢測開(kāi)始進(jìn)入各種業(yè)務(wù)流程,研究公司 MarketsandMarkets 預測全球情緒檢測和識別市場(chǎng)將從今年的 236 億美元增長(cháng)到 2027 年的 433 億美元,復合年增長(cháng)率為 12.9%。
MarketsandMarkets 的報告稱(chēng),這種預期的增長(cháng)是由于對基于語(yǔ)音的情緒檢測系統分析情緒狀態(tài)和社交智能人工智能的需求不斷增長(cháng)。這種需求的部分原因是對卓越運營(yíng)的需求增加。但也有許多因素阻礙了越來(lái)越多的采用。主要問(wèn)題之一是對所涉及的術(shù)語(yǔ)和技術(shù)缺乏明確性。
術(shù)語(yǔ)"情緒檢測"和"情緒分析"經(jīng)常互換使用,但也有區別。
據基于 AI 的語(yǔ)音識別和聯(lián)絡(luò )中心解決方案提供商 Deepgram 的專(zhuān)家稱(chēng),情緒分析通常是基于文本的學(xué)習分類(lèi)任務(wù)。它可能對單個(gè)句子、段落或整個(gè)文檔進(jìn)行操作。 Deepgram 專(zhuān)家在最近的一篇博文中寫(xiě)道,情緒分析有多種用途,包括分析客戶(hù)反饋、監控社交媒體對話(huà)、跟蹤品牌聲譽(yù)、衡量公眾對某個(gè)主題或問(wèn)題的看法以及評估客戶(hù)滿(mǎn)意度。
另一方面,情緒檢測,有時(shí)也稱(chēng)為情緒識別,通常依賴(lài)于音頻,使用語(yǔ)調、音量和速度等因素來(lái)確定說(shuō)話(huà)者所感受到的情緒,根據 Deepgram 的說(shuō)法,通常編碼為幾個(gè)類(lèi)別之一,如快樂(lè )、悲傷、生氣等。
情緒檢測以簡(jiǎn)單的分析技術(shù)無(wú)法提供的方式為客戶(hù)對公司的態(tài)度提供線(xiàn)索。
"情感是我們所有人的一部分,"CallMiner 的人工智能副總裁 Rick Britt 說(shuō)。 "我們都會(huì )感到憤怒和沮喪,快樂(lè )和幸福。但我們也以不同的方式分享這些情緒。例如,有些人在生氣時(shí)會(huì )變得非常安靜和輕聲細語(yǔ),而不是大聲而快速地說(shuō)話(huà)。眾所周知,檢測和理解情緒很困難。"
Britt 補充說(shuō),了解客戶(hù)對話(huà)中的情緒,例如客戶(hù)是否對公司或產(chǎn)品感到沮喪或滿(mǎn)意,對于面向客戶(hù)的組織來(lái)說(shuō)非常有用。 "雖然檢測情緒對機器來(lái)說(shuō)很困難,就像對人類(lèi)一樣,但深度學(xué)習的進(jìn)步正在幫助公司識別客戶(hù)在互動(dòng)中表現出廣泛情緒的方式。"
Britt 說(shuō),另一個(gè)使問(wèn)題復雜化的事實(shí)是,情緒對于他們所參與的個(gè)人和組織來(lái)說(shuō)都是獨一無(wú)二的。每個(gè)人都有個(gè)人情感基線(xiàn),可能是情境性的。客戶(hù)在與收債員互動(dòng)時(shí)表現出的情緒反應與跟電子零售商互動(dòng)時(shí)表現出的情緒反應大不相同。
"當組織能夠有效和準確地理解情緒時(shí),他們可以更好地對客戶(hù)對話(huà)中發(fā)生的事情采取行動(dòng)," Britt 說(shuō)。 "這可以包括幫助聯(lián)絡(luò )中心或客戶(hù)服務(wù)座席更好地處理情感互動(dòng),例如當他們可能與需要額外照顧和同情的弱勢客戶(hù)互動(dòng)時(shí)。或者了解客戶(hù)在對話(huà)期間的情緒,以便他們可以查明如何將開(kāi)始為消極而結束為積極的互動(dòng)所采取的成功步驟。這些見(jiàn)解可以推動(dòng)更好的座席入職和指導工作。"
這種能力對于聯(lián)絡(luò )中心很重要,因為當組織可以在對話(huà)中檢測到情緒時(shí),他們可以在問(wèn)題成為真正問(wèn)題之前發(fā)現問(wèn)題,為座席提供更多數據驅動(dòng)的績(jì)效反饋,從過(guò)去的交互中學(xué)習以改善未來(lái)的客戶(hù)結果等等,Britt 說(shuō)。
"人類(lèi)交流很復雜,包含語(yǔ)言和非語(yǔ)言元素,"Outreach 的高級應用科學(xué)家 Kushal Lakhotia 補充道。 "情感是人類(lèi)表達自我的重要非語(yǔ)言成分。它通過(guò)音頻和視覺(jué)提示來(lái)傳達,例如語(yǔ)音和面部表情中的語(yǔ)調。情緒識別技術(shù)提取語(yǔ)音識別的互補信號,從而有助于充分了解一個(gè)人試圖交流的內容。"
Lakhotia 表示,此類(lèi)數據在對話(huà)智能應用程序中特別有用,它可以總結對話(huà)的要點(diǎn),這些要點(diǎn)需要更深入地理解一個(gè)人所說(shuō)的話(huà)之外的信息。
語(yǔ)言學(xué)是最好的情緒檢測器
然而,Verint 的語(yǔ)音和文本分析市場(chǎng)副總裁 D. Daniel Ziv 反駁說(shuō),即使 Verint 和其他公司提供的技術(shù)可以識別音量、提高說(shuō)話(huà)速度以及類(lèi)似的客戶(hù)滿(mǎn)意度或情緒指標,對公司和特定互動(dòng)的不滿(mǎn)意,實(shí)際使用的詞語(yǔ)比其他指標更能反映客戶(hù)的感受。
"并不是所有的臟話(huà)都有四個(gè)字母,有些詞自然而然地比其他詞帶有更多的情感,"Ziv 解釋說(shuō)。 "我們可以統計識別哪些詞帶有更多的情感。因為我們現在的轉錄非常準確,與使用音調、音高、速度和其他可以傳遞情感的東西相比,這往往會(huì )產(chǎn)生非常準確的結果。"
Ziv 補充道:"如果我非常生氣,而且我沒(méi)有說(shuō)過(guò)一個(gè)生氣的話(huà),但 [滿(mǎn)意度評分] 僅基于語(yǔ)氣,那么很有可能是誤報。背景中可能有一個(gè)嬰兒在哭泣,我可能是從嘈雜的公共汽車(chē)或機場(chǎng)打來(lái)的。我們做了很多測試,發(fā)現使用基于語(yǔ)言的情感和一些基于聲學(xué)的證據更準確。"
根據 Ziv 的說(shuō)法,串擾--當客戶(hù)與座席交談時(shí),反之亦然--是真實(shí)情緒的另一個(gè)強有力的指標,談話(huà)中長(cháng)時(shí)間的沉默或間隙也是如此。 "我們已經(jīng)測試了五種不同類(lèi)型的算法,它們使用聲學(xué)分析進(jìn)行情緒檢測。純聲學(xué)是非常不準確的。僅語(yǔ)言非常準確,而且比以前更準確,因為我們的轉錄現在更準確,"他說(shuō)。
Ziv 說(shuō),聯(lián)絡(luò )中心客戶(hù)越來(lái)越多地尋求情緒檢測分數,因為他們想要情緒分析并希望取代調查,以便他們可以自動(dòng)覆蓋 100% 的交互,而不是只覆蓋包括已完成關(guān)注在內的一小部分客戶(hù)交互情緒調查。
更好的情緒預測器
據 Ziv 稱(chēng),情緒檢測功能在聯(lián)絡(luò )中心變得越來(lái)越流行,因為它們比凈推薦值更能真實(shí)地反映客戶(hù)情緒。他說(shuō),獲取 NPS 數據需要客戶(hù)付出努力,其中許多人只是不想被打擾。 "客戶(hù)厭倦了 [NPS 調查],因為他們受到了轟炸。因此,響應率有所下降。"
Ziv 補充說(shuō),即使客戶(hù)確實(shí)做出了回應,NPS 調查也沒(méi)有詳細說(shuō)明客戶(hù)為什么會(huì )推薦或不會(huì )推薦一家公司。 "這沒(méi)什么幫助。它有助于識別趨勢,但并不能真正幫助解決問(wèn)題。因此,轉變是使用我們從客戶(hù)那里獲得的實(shí)際信息。"
Ziv 進(jìn)一步解釋說(shuō),公司希望從通過(guò)語(yǔ)音和文本交互顯示的情緒以及圍繞這些交互的上下文中提取真實(shí)的客戶(hù)情緒。 "所以現在我們對推動(dòng)情緒高漲和低迷的原因有了更豐富的了解。"
Lakhotia 表示,雖然過(guò)去幾年解決方案變得更加準確,但這只是情緒檢測方面的最新進(jìn)展之一。
"口語(yǔ)情感識別是一個(gè)專(zhuān)注于副語(yǔ)言學(xué)的研究領(lǐng)域,與自動(dòng)語(yǔ)音識別不同,它需要捕捉語(yǔ)音的韻律元素,"Lakhotia 解釋說(shuō)。 "該領(lǐng)域的研究專(zhuān)注于設計特定的模型來(lái)捕捉可以被訓練來(lái)檢測情緒的韻律。然而,隨著(zhù)在語(yǔ)音中使用神經(jīng)網(wǎng)絡(luò )進(jìn)行自我監督學(xué)習的發(fā)展,該領(lǐng)域已經(jīng)從專(zhuān)業(yè)模型轉向通用模型。"
Lakhotia 補充說(shuō),自我監督學(xué)習可以使用大量未標記的數據來(lái)訓練可以從語(yǔ)音中提取信號的模型。這些模型通常經(jīng)過(guò)數千小時(shí)的語(yǔ)音訓練,然后這些預訓練模型可以適應一系列口語(yǔ)任務(wù),而標記的任務(wù)特定數據要少得多。
"一些流行的 SSL 模型在過(guò)去幾年中被廣泛用于多項口語(yǔ)任務(wù),包括 CPC、wav2vec 2.0 和 HuBERT,"Lakhotia 說(shuō)。 "這反過(guò)來(lái)又導致了 SUPERB、HEAR 和 LeBenchmark 等標準化基準的引入,這些基準通過(guò)引入一種一致的方式來(lái)比較多個(gè) SSL 模型對一系列任務(wù)(包括口語(yǔ)情感識別)進(jìn)行比較,從而幫助推動(dòng)了該領(lǐng)域的發(fā)展。"
Lakhotia 表示,雖然口語(yǔ)情感識別是一個(gè)活躍的研究領(lǐng)域,但用于它的數據集是更廣泛的多模式數據集的子集,例如 IEMOCAP、CREMA-D 和 RAVDESS,其中包括聲音數據和面部表情。此類(lèi)數據集的存在正在推動(dòng)超越語(yǔ)音并結合視聽(tīng)信號的多模態(tài)情感識別研究。
流失檢測
據 Ziv 稱(chēng),一些公司,尤其是那些流失率高的公司,希望情緒檢測能夠為座席提供強大的實(shí)時(shí)指標,以表明特定客戶(hù)可能會(huì )流失,而不是僅僅對去競爭對手發(fā)表無(wú)意義的評論。
"在客戶(hù)流失方面,你必須考慮其他因素,"Ziv 說(shuō),并指出很多時(shí)候客戶(hù)對產(chǎn)品表現出的挫敗感可能與銷(xiāo)售該產(chǎn)品的公司無(wú)關(guān)。
在某些行業(yè),尤其是電信和保險行業(yè),合同期結束時(shí)客戶(hù)流失率可能非常高。
"添加尋找有風(fēng)險客戶(hù)的語(yǔ)音類(lèi)別通常會(huì )顯著(zhù)改善這些客戶(hù)流失模型,"Ziv 堅持說(shuō)。 "它的準確程度因客戶(hù)而異。但我們已經(jīng)看到超過(guò) 90% 的準確率,而且我們有時(shí)看到客戶(hù)流失率從 50% 提高到 70%,這很重要。"
Ziv 指出,雖然它可以作為流失率的一個(gè)很好的指標,但其他因素,例如其他供應商的可用性,也會(huì )影響流失率。這在電視領(lǐng)域尤為常見(jiàn),因為大多數地方只有一個(gè)有線(xiàn)電視提供商。雖然也可能有衛星互聯(lián)網(wǎng)提供商,但現實(shí)情況是,在這種情況下沮喪的客戶(hù)可能別無(wú)選擇。
在對計算機情感檢測猶豫不決的其他原因中,有些人認為現有的一些情感檢測解決方案,特別是那些包括面部識別技術(shù)的解決方案,可能過(guò)于個(gè)人化。
DeepMedia.AI 的創(chuàng )始人兼首席執行官 Rijul Gupta 表示,情感技術(shù)必須避免由于當前許多機器學(xué)習系統的情感無(wú)知而導致的非人性化。 "目前在谷歌翻譯(技術(shù)正確但缺乏情感)、TikTok Voice(聽(tīng)起來(lái)很機器人)的狀態(tài)下可以看到無(wú)靈魂的技術(shù)。這些系統中缺乏根深蒂固的情緒檢測不會(huì )產(chǎn)生消費者的喜悅甚至接受。"
據報道,Zoom Video Communications 開(kāi)始探索情緒檢測技術(shù),這引起了超過(guò) 28 個(gè)人權組織的憤怒。他們敦促 Zoom 停止其在情緒跟蹤系統上的工作,該系統旨在分析用戶(hù)的參與度和情緒。
許多行業(yè)專(zhuān)家預計,隱私問(wèn)題在未來(lái)幾年內將十分突出。但與此同時(shí),對技術(shù)的需求將會(huì )增長(cháng),正如 MarketsandMarkets 預測所證明的那樣,技術(shù)本身將繼續發(fā)展。
"在過(guò)去幾年中,在構建可以從視聽(tīng)輸入中聯(lián)合提取信號的自我監督模型方面取得了重大進(jìn)展,"Lakhotia 說(shuō)。 "這使得能夠使用單個(gè)模型對語(yǔ)音和視覺(jué)輸入進(jìn)行建模。多模態(tài)建模的發(fā)展與用于進(jìn)行實(shí)驗的高質(zhì)量視聽(tīng)數據集的存在相結合,將推動(dòng)該領(lǐng)域超越口語(yǔ)情感識別,并為情感識別建立新的最新成果。"
Ziv 說(shuō),公司將繼續使用情緒檢測來(lái)幫助推動(dòng)他們的客戶(hù)心聲工作。 "我認為我們會(huì )看到更多針對它采取行動(dòng)的獨特案例,其背后的算法也會(huì )有所發(fā)展。"
然而,Ziv 說(shuō),除了算法或情緒評分之外,公司最重要的好處將是能夠使用分析實(shí)時(shí)采取行動(dòng),而不是等到交互發(fā)生之后。
聲明:版權所有 非合作媒體謝絕轉載
作者:Phillip Britt
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/Interest-Mounts-for-Emotion-Detection-153969.aspx