羅盟,本工作的第一作者。新加坡國立大學(xué)(NUS)人工智能專業(yè)準(zhǔn)博士生,本科畢業(yè)于武漢大學(xué)。主要研究方向?yàn)槎嗄B(tài)大語言模型和 Social AI、Human-eccentric AI。
情感計(jì)算一直是自然語言處理等相關(guān)領(lǐng)域的一個火熱的研究課題,最近的進(jìn)展包括細(xì)粒度情感分析(ABSA)、多模態(tài)情感分析等等。
新加坡國立大學(xué)聯(lián)合武漢大學(xué)、奧克蘭大學(xué)、新加坡科技設(shè)計(jì)大學(xué)、南洋理工大學(xué)團(tuán)隊(duì)近期在這個方向上邁出了重要的一步,探索了情感分析的終極形態(tài),提出了 PanoSent —— 一個全景式細(xì)粒度多模態(tài)對話情感分析基準(zhǔn)。PanoSent 覆蓋了全面的細(xì)粒度、多模態(tài)、豐富場景和認(rèn)知導(dǎo)向的情感分析任務(wù),將為情感計(jì)算方向開辟新的篇章,并引領(lǐng)未來的研究方向。該工作被 ACM MM 2024 錄用為 Oral paper。

研究背景
在人工智能領(lǐng)域,讓機(jī)器理解人類情感是邁向真正智能化的重要一步。情感分析是自然語言處理領(lǐng)域的一個關(guān)鍵研究課題。通過多年的研究,情感分析在各個維度和方面取得了顯著的發(fā)展。該領(lǐng)域已從傳統(tǒng)的粗粒度分析(如文檔和句子級別分析)發(fā)展到細(xì)粒度分析(例如 ABSA),融合了廣泛的情感元素,并發(fā)展出提取目標(biāo)、方面、觀點(diǎn)和情感等不同的情感元組。此外,情感分析的范圍已從純文本內(nèi)容擴(kuò)展到包括圖像和視頻的多模態(tài)內(nèi)容。
因?yàn)樵诂F(xiàn)實(shí)世界場景中,用戶通常通過多種多樣的多媒體更準(zhǔn)確地傳達(dá)他們的觀點(diǎn)和情緒,提供超越文本的附加信息,如微表情、語音語調(diào)和其他線索。此外,研究已超越單一文本場景,考慮更復(fù)雜的對話情境,在這些情境中,個體在社交媒體平臺(例如 Twitter、Facebook、微博、知乎、小紅書、抖音等)上頻繁進(jìn)行關(guān)于服務(wù)、產(chǎn)品、體育等的多輪、多方討論。
盡管情感分析領(lǐng)域已取得顯著進(jìn)展,目前的研究定義仍然不夠全面,無法提供一個完整且詳細(xì)的情感畫面,這主要是由于以下幾個問題。
首先,缺乏一個綜合定義,將細(xì)粒度分析、多模態(tài)和對話場景結(jié)合起來。在現(xiàn)實(shí)生活應(yīng)用中,如社交媒體和論壇上,這些方面往往需要同時(shí)考慮。然而,現(xiàn)有研究要么在多模態(tài)情感分析定義中缺乏詳細(xì)分析,要么在對話 ABSA 中缺失多模態(tài)建模。最完整的基于文本的 ABSA 定義仍然無法完全涵蓋或細(xì)致劃分情感元素的粒度。
其次,當(dāng)前的情感分析定義只考慮識別固定的靜態(tài)情感極性,忽略了情感隨時(shí)間變化或因各種因素變化的動態(tài)性。例如,社交媒體對話中的用戶最初的觀點(diǎn),可能會在接觸到其他發(fā)言者的新信息或不同觀點(diǎn)后發(fā)生變化。
第三,也是最關(guān)鍵的,現(xiàn)有工作沒有徹底分析或識別情感背后的因果原因和意圖。人類情感的激發(fā)和變化有特定的觸發(fā)因素,未能從認(rèn)知角度理解情感背后的因果邏輯意味著尚未根本實(shí)現(xiàn)人類級別的情感智能。總的來說,提供一個更全面的情感分析定義可能會顯著增強(qiáng)這項(xiàng)任務(wù)的實(shí)用價(jià)值,例如,開發(fā)更智能的語音助手、更好的臨床診斷和治療輔助以及更具人性化的客戶服務(wù)系統(tǒng)。
為填補(bǔ)這些空白,本文提出了一種全新的全景式細(xì)粒度多模態(tài)對話情感分析方法,旨在提供一個更全面的 ABSA 定義,包括全景情感六元組提取(子任務(wù)一)和情感翻轉(zhuǎn)分析(子任務(wù)二)。如圖 1 所示,本文關(guān)注的是涵蓋日常生活中最常見的四種情感表達(dá)模態(tài)的對話場景。
一方面,作者將當(dāng)前的 ABSA 四元組提取定義擴(kuò)展到六元組提取,包括持有者、目標(biāo)、方面、觀點(diǎn)、情感和理由,全面覆蓋更細(xì)粒度的情感元素,提供情感的全景視圖。
另一方面,作者進(jìn)一步定義了一個子任務(wù),監(jiān)控同一持有者在對話中針對同一目標(biāo)和方面的情感動態(tài)變化,并識別導(dǎo)致情感翻轉(zhuǎn)的觸發(fā)因素。在六元組提取和情感變化識別中,作者強(qiáng)調(diào)辨別潛在的因果邏輯與觸發(fā)因素,力求不僅掌握方法,還要理解背后的原因,并從認(rèn)知角度進(jìn)行分析。

為了對這一新任務(wù)進(jìn)行基準(zhǔn)測試,作者構(gòu)建了一個大規(guī)模高質(zhì)量的數(shù)據(jù)集,PanoSent。PanoSent 涵蓋了 100 多個常見的領(lǐng)域和場景,基于多輪、多方的對話情境,情感元素在六元組中可能跨越多個句子。
為了更真實(shí)地模擬人類的情感表達(dá)習(xí)慣,數(shù)據(jù)集中的元素可以來自文本和非文本(音頻或視覺)模態(tài)。情感可能以隱式的方式表達(dá),數(shù)據(jù)集涵蓋了隱式和顯式的情感元素。
為確保基準(zhǔn)的通用性,數(shù)據(jù)集包括三種主流語言:英語、中文和西班牙語。作者從現(xiàn)實(shí)世界來源收集數(shù)據(jù),進(jìn)行了精心的手動標(biāo)注。為了擴(kuò)大數(shù)據(jù)集的規(guī)模,作者進(jìn)一步利用 OpenAI GPT-4 自動生成數(shù)據(jù),并結(jié)合多模態(tài)檢索技術(shù)進(jìn)行擴(kuò)展。嚴(yán)格的人工檢查和交叉驗(yàn)證確保了高質(zhì)量標(biāo)準(zhǔn)。PanoSent 總共覆蓋了 10,000 個對話。表 1 對 PanoSent 與現(xiàn)有的一些多模態(tài)細(xì)粒度情感分析數(shù)據(jù)集進(jìn)行了對比分析。

與現(xiàn)有的 ABSA 任務(wù)相比,本文提出的新任務(wù)提出了更大的挑戰(zhàn),例如需要理解復(fù)雜的對話情境并靈活地從各種模態(tài)中提取特征,尤其是在認(rèn)知層面識別因果原因。考慮到多模態(tài)大型語言模型(MLLMs)在跨多模態(tài)的強(qiáng)大語義理解方面最近取得的巨大成功,作者構(gòu)建了一個主干 MLLM 系統(tǒng),Sentica,用于編碼和理解多模態(tài)對話內(nèi)容。受人類情感分析過程的啟發(fā),作者進(jìn)一步開發(fā)了一個情感鏈推理框架(CoS),用于高效地解決任務(wù),該框架基于思維鏈的思想,將任務(wù)分解為從簡單到復(fù)雜的四個漸進(jìn)推理步驟。該系統(tǒng)能夠更有效地提取情感六元組的元素,并逐步識別情感翻轉(zhuǎn),同時(shí)引導(dǎo)出相應(yīng)的理由和觸發(fā)因素。基于釋義的驗(yàn)證(PpV)機(jī)制增強(qiáng)了 CoS 推理過程的穩(wěn)固性。
全景式細(xì)粒度多模態(tài)對話情感分析基準(zhǔn):PanoSent
任務(wù)建模
PanoSent 包括兩個關(guān)鍵任務(wù),具體可參見圖 1 的可視化展示。
全景式情感六元組抽取:從多輪、多方、多模態(tài)對話中識別情感持有者、目標(biāo)、方面、觀點(diǎn)、情感及其原因。情感翻轉(zhuǎn)分析:檢測對話中情感的動態(tài)變化及其背后的因果關(guān)系。PanoSent 基準(zhǔn)數(shù)據(jù)集
研究團(tuán)隊(duì)構(gòu)建了一個包含 10,000 個對話的大規(guī)模高質(zhì)量數(shù)據(jù)集 PanoSent,數(shù)據(jù)來自現(xiàn)實(shí)世界的多樣化來源,情感六元組元素經(jīng)過手動注釋,并借助 GPT-4 和多模態(tài)檢索進(jìn)行擴(kuò)展。通過嚴(yán)格的人工檢查和交叉驗(yàn)證,確保數(shù)據(jù)集的高質(zhì)量。PanoSent 數(shù)據(jù)集首次引入了隱式情感元素和情感背后的認(rèn)知原因,覆蓋最全面的細(xì)粒度情感元素,適用于多模態(tài)、多語言和多場景的應(yīng)用。



多模態(tài)情感分析大模型:Sentica
多模態(tài)大語言模型骨干
當(dāng)前,大型語言模型(LLM)在理解語言語義方面表現(xiàn)卓越,多模態(tài)大語言模型(MLLM)則展示了對多模態(tài)數(shù)據(jù)的強(qiáng)大理解能力。基于此,研究團(tuán)隊(duì)為 PanoSent 設(shè)計(jì)了一款新的 MLLM——Sentica。該模型使用 Flan-T5 (XXL) 作為語義理解和決策的核心 LLM。對于非文本輸入,采用 ImageBind 統(tǒng)一編碼多模態(tài)信息,并將編碼結(jié)果投影到 LLM 的嵌入空間。
鏈?zhǔn)角楦型评砜蚣?/strong>
針對全景式情感六元組抽取和情感翻轉(zhuǎn)分析任務(wù),團(tuán)隊(duì)提出了受思想鏈(CoT)推理啟發(fā)的鏈?zhǔn)角楦型评砜蚣埽–oS)。該框架通過四個漸進(jìn)的推理步驟,從簡單到復(fù)雜,逐步解決每個任務(wù),并為后續(xù)步驟積累關(guān)鍵線索和見解。步驟包括 “目標(biāo) – 方面” 識別、“持有者 - 觀點(diǎn)” 檢測、“情感 - 理由” 挖掘及 “情感翻轉(zhuǎn)觸發(fā)器” 分類。
步驟 1:“目標(biāo) - 方面” 識別
在給定對話文本及其多模態(tài)信號下,通過特定指令,要求模型識別對話中提到的所有可能的目標(biāo)及其對應(yīng)的方面,形成目標(biāo) - 方面對。

步驟 2:“持有者 - 觀點(diǎn)” 檢測
在識別出 “目標(biāo) - 方面” 對之后,下一步是檢測相關(guān)的持有者及其具體觀點(diǎn)。輸出應(yīng)為包含持有者、目標(biāo)、方面和觀點(diǎn)的四元組,為后續(xù)的情感分析奠定基礎(chǔ)。

步驟 3:“情感 - 理由” 挖掘
基于已識別的四元組,分析與每個觀點(diǎn)相關(guān)的情感并識別其背后的理由。最終輸出為六元組,全面展現(xiàn)情感表達(dá)及其背后的因果邏輯。

步驟 4:“情感翻轉(zhuǎn)觸發(fā)器” 分類
在識別出所有六元組后,最后一步是檢測情感的翻轉(zhuǎn),即從初始情感到翻轉(zhuǎn)情感的變化,對導(dǎo)致情感翻轉(zhuǎn)的觸發(fā)因素進(jìn)行分類。輸出應(yīng)為包含上述情感元素的六元組或 “None” (如果沒有情感翻轉(zhuǎn))

基于復(fù)述的驗(yàn)證
為避免鏈?zhǔn)酵评碇锌赡墚a(chǎn)生的錯誤累積,研究團(tuán)隊(duì)設(shè)計(jì)了基于復(fù)述的驗(yàn)證機(jī)制(PpV)。在每個推理步驟中,通過將結(jié)構(gòu)化的 k 元組轉(zhuǎn)化為自然語言表達(dá),并結(jié)合上下文檢查其是否具有蘊(yùn)涵或矛盾關(guān)系,從而確保每個步驟的準(zhǔn)確性。這一機(jī)制不僅增強(qiáng)了情感分析的穩(wěn)健性,還有效減輕了 LLM 固有幻覺的影響。




實(shí)驗(yàn)和分析
主實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)通過實(shí)驗(yàn)驗(yàn)證了 Sentica 在兩個子任務(wù)中的表現(xiàn)。在六元組抽取任務(wù)中,Sentica 顯著優(yōu)于其他方法,尤其是在結(jié)合 CoS 和 PpV 機(jī)制后,表現(xiàn)達(dá)到最佳。在情感翻轉(zhuǎn)分析中,Sentica 同樣表現(xiàn)出色,特別是在多語言環(huán)境下,準(zhǔn)確性顯著提高。


驗(yàn)證構(gòu)建合成數(shù)據(jù)的必要性
實(shí)驗(yàn)結(jié)果表明,盡管合成數(shù)據(jù)量較大,模型在真實(shí)數(shù)據(jù)上的訓(xùn)練效果更佳。這是因?yàn)檎鎸?shí)數(shù)據(jù)的信息分布更為自然,幫助模型學(xué)習(xí)到更具代表性的特征。然而,合成數(shù)據(jù)作為補(bǔ)充則顯著提升了模型的最終性能,進(jìn)一步證明了合成數(shù)據(jù)在優(yōu)化模型表現(xiàn)中的關(guān)鍵作用。因此,構(gòu)建合成數(shù)據(jù)不僅是必要的,而且有助于提升情感分析的整體效果。

驗(yàn)證多模態(tài)信息的重要性
研究團(tuán)隊(duì)深入分析了多模態(tài)信息在情感分析中的作用,發(fā)現(xiàn)其不僅是對文本信息的補(bǔ)充,還在六元組元素的判斷中起到關(guān)鍵作用。實(shí)驗(yàn)結(jié)果顯示,移除任何模態(tài)信號都會導(dǎo)致性能下降,尤其是圖像信息的缺失對性能的影響最大。這表明,多模態(tài)信息在任務(wù)中不可或缺,對提高模型的識別精度至關(guān)重要。

驗(yàn)證顯性與隱性元素的識別性能
通過對顯性與隱性情感元素的識別性能進(jìn)行對比分析,結(jié)果顯示,隱性元素的識別難度明顯高于顯性元素。這反映了識別隱性元素對上下文語義理解的更高要求,進(jìn)一步說明在情感分析中,應(yīng)特別關(guān)注對隱性元素的識別和處理。

驗(yàn)證 PpV 機(jī)制的合理性
作者驗(yàn)證了基于復(fù)述的驗(yàn)證機(jī)制(PpV)的有效性。實(shí)驗(yàn)表明,通過 LLM 復(fù)述和直接驗(yàn)證,PpV 機(jī)制能夠確保結(jié)構(gòu)化數(shù)據(jù)與對話上下文之間的語義一致性,其性能優(yōu)于僅依賴直接驗(yàn)證或不進(jìn)行驗(yàn)證的方式。此外,使用固定模板復(fù)述結(jié)構(gòu)化元組比依賴 LLM 復(fù)述更為可靠,這進(jìn)一步增強(qiáng)了情感分析的穩(wěn)健性。

案例研究
作者通過多個實(shí)例展示了所提出模型在與其他模型對比中的優(yōu)越性能。如圖 12-14 所示,該模型展現(xiàn)了對復(fù)雜對話上下文的更深入理解,能夠精準(zhǔn)捕捉對話中的微妙細(xì)節(jié),并推斷出隱含意圖。得益于卓越的多模態(tài)信息處理能力,該模型能夠更準(zhǔn)確地解釋各種模態(tài)信號。此外,該模型在識別對話中隱含元素方面表現(xiàn)突出。這些優(yōu)勢使模型能夠更全面地提取六元組信息,并更準(zhǔn)確地分析對話中的情感翻轉(zhuǎn)。



結(jié)論與展望
在這項(xiàng)研究中,團(tuán)隊(duì)引入了全新的全景式細(xì)粒度多模態(tài)對話情感分析基準(zhǔn) PanoSent,提出了兩項(xiàng)新任務(wù):全景情感六元組抽取和情感翻轉(zhuǎn)分析。基于 MLLM 的鏈?zhǔn)角楦型评矸椒ㄔ?PanoSent 數(shù)據(jù)集上展示了卓越的基準(zhǔn)性能,為情感分析領(lǐng)域開辟了新的篇章。
未來的研究可以朝以下幾個方向展開:
多模態(tài)信息的進(jìn)一步探索:開發(fā)更強(qiáng)大的多模態(tài)特征提取和融合方法,深入研究不同模態(tài)在情感識別中的具體影響。隱性情感元素的識別:探索更精準(zhǔn)的技術(shù)來識別隱性情感元素,這是當(dāng)前情感分析中較為棘手的挑戰(zhàn)。情感認(rèn)知與推理機(jī)制:研究情感元素之間的交互及其背后的因果機(jī)制,以開發(fā)更為穩(wěn)健的情感推理解決方案。對話上下文的建模:增強(qiáng)模型對對話上下文的理解能力,特別是在處理對話結(jié)構(gòu)和說話者共指解析方面。跨語言與跨領(lǐng)域遷移學(xué)習(xí):研究多模態(tài)場景下的遷移學(xué)習(xí)方法,開發(fā)能適應(yīng)不同語言和領(lǐng)域的通用情感分析模型。





京公網(wǎng)安備 11011402013531號