![]()
在日常生活中,談判無處不在:網購時“賣家再降 50”就下單,租房時跟房東爭取“押一付一”,在職場上和客戶敲定合作細節…… 這時候,“情感技巧”往往是關鍵,比如假裝猶豫說“預算真的不夠了”,或是適度表達期待,總能讓談判朝著對自身更有利的方向發展。
可對于 AI 來說,談判是一個大難題。
現有的 LLM Agent 大多忽視了情感(emotion)在談判中的功能性作用,其生成的情感反應往往被動且受偏好驅動,容易被對手操縱和利用。哪怕是最先進的 LLM,參與多輪談判時也經常掉鏈子:要么全程“禮貌到底”,被對手輕松拿捏;要么分不清對方是真著急還是裝樣子,輕易就妥協讓步。
近日,劍橋大學團隊及其合作者聯合提出了一個名為“EvoEmo”的進化強化學習框架,為 LLM 補上了“情感談判”這一短板。相關研究論文已發表在預印本網站 arXiv 上。
![]()
論文鏈接:https://arxiv.org/abs/2509.04310
大量實驗與消融研究表明,EvoEmo 在成功率、效率及買家節省成本方面均實現突破。這一發現強調了自適應情緒表達對提升 LLM 在多輪談判中效能的關鍵作用。
傳統 LLM 談判:三大短板拖后腿
為何以前的 AI 談判總是不盡如人意呢?
大量行為研究表明,人類的決策系統性地偏離了經典經濟學對純粹理性的假設,是被心理偏見和情緒狀態動態塑造的,而不僅僅是穩定的個性特征。
盡管現代 LLM 在通過思維鏈(CoT)復現人格驅動行為模式方面取得進展,但情感在決策形成中的作用仍相對缺乏研究,尤其與基于靜態人類特質的方法相比。然而,在價格討價還價等精細協商場景中,情感動態起著關鍵作用,情緒直接影響戰術選擇,并立即影響談判結果。相比之下,人格特質只能捕捉廣泛的行為傾向,卻無法解釋適應性、即時性的動態變化。
據論文描述,相較于人類談判者,LLM 存在三大根本性缺陷:
一是戰術太僵化(Tactical Inflexibility)。人類談判時能夠動態調節情緒信號,會根據對手反應靈活變招。如果賣家態度強硬,可能會故意表現出“失望”“放棄”的樣子施壓;要是賣家松口,又會趕緊用“感謝”鞏固成果。但 LLM 通常默認靜態響應模式,只會按固定模式響應,不管賣家怎么說,都只會機械地“請求降價”,使其行為既容易被預測又容易被利用。
二是對抗性天真(Adversarial Naivety)。LLM 的情緒識別能力雖然很強,卻也成了致命弱點。盡管能夠識別挫敗感或同理心等信號,但 LLM 仍無法區分真實情感與操縱性策略,例如價格談判中的假裝緊迫。 遇到這種操縱性策略,LLM 往往會乖乖讓步,完全沒有反抗能力。
三是眼光太短淺(Strategic Myopia)。人類談判前會鋪墊情感,主動塑造互動中的情感軌跡。比如先跟賣家聊幾句家常、夸贊商品質量,建立好感后再提降價需求;談判中也會把控節奏,不會一上來就亮明底線。但與人類不同,LLM 因缺乏對情感因果關系的推理能力,在管理情感動態時保持被動反應而非主動生成。只會被動應對,走一步看一步,很難掌控談判主動權。
以上三點缺陷,解釋了為什么具有強推理能力的 LLM 在情緒敏感的談判中的表現可能不如人類,特別是在“討價還價”中,戰略情緒調節是最重要的。
EvoEmo:為AI搭起“情感進化流水線”
EvoEmo 框架是一種用于優化多輪次情感敏感談判中情緒策略的進化強化學習框架。該方法通過群體層面的進化學習機制,發現最優的情緒轉換規則,并根據談判過程中獲得的獎勵迭代優化策略。進化操作(包括交叉和變異)能高效探索策略空間,傳播高回報的情感策略。EvoEmo 將群體優化的探索優勢與強化學習的序列決策框架相結合,為演化復雜情緒策略提供了有效途徑。
換言之,EvoEmo 框架的核心思路很簡單:既然 AI 自己學不會靈活用情感,那就讓它在“實戰”中不斷進化。就像生物進化一樣,好的情感策略會被保留,不好的會被淘汰,慢慢篩選出最優方案。
![]()
圖|EvoEmo 框架工作流程示意圖
這套框架之所以有效,關鍵在于以下設計,讓 AI 的情感決策“有章可循”:
首先是情感感知 MDP。EvoEmo 框架將協商過程形式化為一個MDP(狀態-動作-政策-獎勵),把談判中的情感分為 7 種基礎類型:憤怒、厭惡、恐懼、快樂、悲傷、驚訝和中性。每種情緒對應不同的談判意圖,比如“適度憤怒”可以表達對價格的不滿,“中性”適合理性溝通細節,“驚喜”能在賣家讓步時鞏固成果,讓 AI 的情感表達不再混亂。
其次是系統化的策略構成。每個協商策略編碼了三個核心組件,這些組件支配著 Agent 的情感行為:情感軌跡、溫度參數、情緒轉移矩陣等。這些組件的組合,讓 AI 的情感決策既有規劃,又不失靈活。
以及科學化的獎勵機制。進化優化通過獎勵函數評估策略,獎勵函數可解釋為適應度評分,用于衡量協商有效性。AI 的每輪談判都會被打分:談判成功得基礎分,買家省的錢越多、用的回合越少,加分越多。這種“成功率 + 省錢 + 效率” 的評分標準,督促 AI 不會為了省錢硬耗,也不會為了快而輕易讓步,精準找到最佳平衡點。
最后是改進的強化學習。EvoEmo 框架將情感策略的優化問題轉化為進化強化學習任務,通過世代循環的評估與群體優化機制,持續改進策略的情感轉換參數。每次迭代首先將候選策略部署到多輪次對話模擬環境中,該環境由 LLM 模型和交互提示集共同構建。每個策略執行后會生成完整的情感狀態與對話序列,其效果通過獎勵函數進行量化評估。經過這一評估階段后,系統將根據概率選擇策略進行優化。
整個進化流程,就像一條情感策略的“流水線”:先初始化一批隨機的情感策略,讓它們分別參與談判并打分;然后留下表現好的策略,通過把兩個好策略的優點結合、隨機調整部分參數生成新策略;再讓新策略去談判、打分…… 反復迭代,直到找到最厲害的情感策略。
靠憤怒、悲傷來“討價還價”
為了測試 EvoEmo 的效果,研究團隊做了一組嚴謹的實驗:從 CraigslistBargain 數據集中選取了談判案例子集進行評估,其包含 20 個跨品類的多輪次談判場景,涵蓋電子產品、家具、汽車及住房等多個領域,每個場景均包含三要素:商品詳情、賣家設定的特定目標價格、體現真實討價還價動態的情感標注,同時覆蓋 50 至 5000 美元的廣泛價格區間,并包含全新或二手等不同品相的商品,從而能夠全面評估不同市場環境下談判策略的有效性。
研究團隊選擇了語言模型 GPT-5-mini、Gemini-2.5-Pro、DeepSeek-V3.1.1 三種主流 LLM 來驅動實驗中的買賣雙方 Agent。
在評估過程中,研究人員定義了兩個基準模型進行對比:第一個基準僅包含標準 Agent,買方和賣家均未接受情緒引導。這種設置確保雙方完全依據內在情緒傾向和戰略推理能力行動,從而提供反映默認談判行為的參考基準。
第二個基準將標準賣家與固定情緒買方配對,其中買方在整個談判過程中保持恒定的情緒狀態。通過將這些基準與通過 EvoEmo 優化買方情緒的設置進行比較,可以量化情緒對談判結果的影響,并評估 EvoEmo 在增強基于LLM、情緒驅動的談判方面的有效性。
實驗結果也印證了 EvoEmo 的有效性:EvoEmo 在所有買方-賣家配對中始終實現最高買家節省率,明顯優于基準模型(普通設置和固定情緒設置)。
![]()
圖|9 對買賣雙方的談判結果中買家節省金額(%)。每根柱狀圖頂部的黑色垂直線表示各設置的 95% 置信區間(CI)。
此外,研究結果還揭示了兩個有趣的發現:
首先,在情緒策略方面,采用固定負面情緒(如憤怒和悲傷)的買家表現通常優于普通基準模型。這種效應在面對持續表達厭惡或悲傷情緒的買家時尤為明顯,表明當遭遇持續負面情緒信號時,LLM 賣家 Agent 更傾向于讓步。
該發現強調了持續負面情緒是影響談判動態與結果的重要因素。相反,具有固定積極情緒的買家,如快樂和驚喜,其節省金額低于基準水平。這表明當賣家 agent 將買家的情緒解讀為積極時,他們能更有效地捍衛價格,可能認為沒有那么迫切要做出讓步。
![]()
圖|9 對買賣雙方談判成功率(%)和談判效率(對話輪數)的談判結果。
其次,不同語言模型(LLM)的性能表現差異顯著。
在賣家端,Gemini-2.5-pro 模型對普通買家和固定情緒買家展現出最強的價格防御能力,但面對 EvoEmo 優化的情感適應型買家時仍顯脆弱。買家端的結果則因模型而異:基于 Gemini 模型的買家在對抗 GPT-5-mini 賣家時實現最大節省,而 GPT-5-mini 買家在應對 DeepSeek-V3.1 賣家時表現最為出色。值得注意的是,沒有任何買家模型在與魯棒的 Gemini-2.5-pro 賣家談判時展現出顯著優勢,突顯了其作為挑戰性談判對手的優勢。
![]()
表|不同獎勵函數公式之間的談判績效比較
采用 EvoEmo 優化情感配置的買家始終保持著接近 100% 的成功率,且比使用常規或固定情感設置的買家更高效,達成協議所需的回合數也大幅減少。這些結果充分證明了 EvoEmo 在兩項基準測試中均具有顯著優勢。
高情商AI?還很遠
以上研究結果表明,情感是成功談判中一個不可忽視的因素。相比于基礎模型和固定情感基線,EvoEmo 優化后的情感策略能夠持續提升談判表現,體現在更高的成功率、更強的效率和更多的買家節省。事實證明,動態調整情感狀態的能力對于有效的多輪討價還價至關重要,它使得 Agent 能夠在談判中策略性地利用情商。
當然,EvoEmo 并非完美,依然存在一些局限性:
情緒譜系與基準對照的局限性。該研究僅考察了 7 種基礎情緒狀態,可能無法全面捕捉真實談判中人類情緒表達的復雜性。此外,基準對照僅限于固定情緒策略與情緒中立策略,遺漏了隨機情緒序列等潛在有價值的對照方案。
情境依賴性與泛化挑戰。評估基于 20 個日常談判場景展開,聚焦傳統商業領域,引發潛在選擇偏見與泛化能力受限的質疑。EvoEmo 在多元談判場景中的有效性尚未驗證,尤其在高風險、情緒激烈的領域,其情感動態可能與標準商業環境存在顯著差異。
情感策略可解釋性。LLM 響應的黑箱特性與進化優化機制,使得特定情感序列在特定談判情境中取得成效的原因難以闡釋。
模擬與現實的鴻溝。基于 LLM 的模擬驗證可能無法捕捉人類專業知識,且計算密集度限制了實際部署中的實時適應能力。
另外,未來的工作還將探討進化策略的倫理影響和行為一致性,并特別關注欺騙行為或妥協行為的出現。
但不可否認的是,EvoEmo 為 AI 情商發展指明了新方向。在不久的將來,每天幫你網購砍價、進行跨境貿易談判的,或許真的是一個高情商 AI 了。
整理:小瑜
如需轉載或投稿,請直接在公眾號內留言
智譜上線 Glm Coding Plan
20 元包月,「1/7 價格、3 倍用量」
暢享 Claude Code 編碼體驗
開發者用了都說好
歡迎體驗~
![]()





京公網安備 11011402013531號