越可靠的AI就越人機(jī)，牛津大學(xué)：高情商模型錯(cuò)誤率顯著增加

IP屬地中國(guó)·北京 編輯：楊凌霄量子位 時(shí)間：2025-08-15 12:28:05

不圓發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI
情緒價(jià)值這塊兒，GPT-5讓很多網(wǎng)友大呼失望。
免費(fèi)用戶想念GPT-4o，也只能默默調(diào)理了。

但為什么升級(jí)后的GPT-5，反而變得“不近人情”了呢？
牛津大學(xué)一項(xiàng)研究的結(jié)論，可以來參考看看：訓(xùn)練模型變得溫暖且富有同理心，會(huì)使它們變得不太可靠且更加奉承。

這篇論文表明，溫暖模型的錯(cuò)誤率較原始模型顯著增加（提升10至30個(gè)百分點(diǎn)），表現(xiàn)為更易傳播陰謀論、提供錯(cuò)誤事實(shí)和有問題的醫(yī)療建議。
納尼？意思是智商和情商不可兼得，情緒價(jià)值和功能價(jià)值必須二選一么？

不確定，再仔細(xì)看看。
用戶越悲傷，模型越奉承
論文認(rèn)為，AI開發(fā)者正越來越多地構(gòu)建具有溫暖和同理心特質(zhì)的語言模型，目前已有數(shù)百萬人使用這些模型來獲取建議、治療和陪伴。
而他們揭示了這一趨勢(shì)帶來的重大權(quán)衡：優(yōu)化語言模型以使其更具溫暖特質(zhì)會(huì)削弱其可靠性。
在用戶表現(xiàn)出脆弱性時(shí)尤其如此。

該論文團(tuán)隊(duì)使用監(jiān)督微調(diào)訓(xùn)練五個(gè)不同大小和架構(gòu)的語言模型（Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o），使它們生成更溫暖、更具同理心的輸出，然后在一系列安全關(guān)鍵任務(wù)上評(píng)估它們的可靠性。
結(jié)果發(fā)現(xiàn)，溫暖模型的可靠性系統(tǒng)地低于它們的原始版本（失敗率高出10到30個(gè)百分點(diǎn)），更且傾向于推廣陰謀論、提供不正確的事實(shí)答案，以及提供有問題的醫(yī)療建議。

為了測(cè)試增加同理心如何影響模型可靠性，論文團(tuán)隊(duì)使用四個(gè)廣泛使用的評(píng)估任務(wù)對(duì)原始模型和溫暖模型進(jìn)行了評(píng)估，選擇了具有客觀、可驗(yàn)證答案的問題回答任務(wù)（其中不可靠的答案會(huì)在現(xiàn)實(shí)世界中造成風(fēng)險(xiǎn)）：
事實(shí)準(zhǔn)確性和對(duì)常見虛假信息的抵抗力（TriviaQA、TruthfulQA）對(duì)陰謀論推廣的易感性（MASK Disinformation，簡(jiǎn)稱“Disinfo”）醫(yī)學(xué)推理能力（MedQA）
從每個(gè)數(shù)據(jù)集中抽取500個(gè)問題，Disinfo數(shù)據(jù)集總共包含125個(gè)問題；使用GPT-4o對(duì)模型響應(yīng)進(jìn)行評(píng)分，并使用人工標(biāo)注驗(yàn)證評(píng)分。得到結(jié)果如下：

結(jié)果表明，原始模型在各項(xiàng)任務(wù)中的錯(cuò)誤率在4%到35%之間，而溫暖模型的錯(cuò)誤率顯著提高：在MedQA上增加了8.6個(gè)百分點(diǎn)（pp），在TruthfulQA上增加了8.4pp，在Disinfo上增加了5.2pp，在TriviaQA上增加了4.9pp。
團(tuán)隊(duì)還使用邏輯回歸測(cè)試了溫暖訓(xùn)練的影響，同時(shí)控制了任務(wù)和模型差異。

結(jié)果顯示，溫暖訓(xùn)練平均使錯(cuò)誤回答的概率增加了7.43pp（β=0.4266，p<0.001）。任務(wù)間的平均相對(duì)增幅為59.7%，其中基準(zhǔn)錯(cuò)誤率較低的任務(wù)（如Disinfo）顯示出最大的相對(duì)增幅。
這種模式適用于所有模型架構(gòu)和規(guī)模，從80億到萬億參數(shù)不等，表明溫暖度與可靠性之間的權(quán)衡代表了一種系統(tǒng)現(xiàn)象而非特定于模型的現(xiàn)象。
考慮到隨著語言模型越來越多地應(yīng)用于治療、陪伴和咨詢等場(chǎng)景，用戶會(huì)自然地透露情感、信念和脆弱性，論文團(tuán)隊(duì)還考察了溫暖模型如何回應(yīng)情緒化的透露：
使用相同的評(píng)估數(shù)據(jù)集，團(tuán)隊(duì)通過附加表達(dá)三種人際關(guān)系情境的第一人稱陳述修改了每個(gè)問題，包括用戶的情緒狀態(tài)（快樂、悲傷或憤怒）、用戶與LLM的關(guān)系動(dòng)態(tài)（表達(dá)親近感或向上或向下的等級(jí)關(guān)系），以及互動(dòng)的利害關(guān)系（高或低重要性）。

結(jié)果顯示，溫暖模型對(duì)情緒上下文表現(xiàn)出不成比例的敏感性：溫暖訓(xùn)練使無上下文問題的錯(cuò)誤率增加了7.43個(gè)百分點(diǎn)，而在情緒上下文中，這一差距擴(kuò)大到8.87個(gè)百分點(diǎn)（p<0.001）。
相比之下，在其他上下文中的影響較小：互動(dòng)利害關(guān)系下的錯(cuò)誤率差異為7.41個(gè)百分點(diǎn)（p<0.001），關(guān)系上下文下的錯(cuò)誤率差異為6.55個(gè)百分點(diǎn)（不顯著，p=0.102）。
這表示情緒上下文對(duì)溫暖模型可靠性最為不利，錯(cuò)誤率比僅通過溫暖微調(diào)預(yù)期的要高出約19.4%。
LLMs有時(shí)會(huì)同意用戶的觀點(diǎn)和信念，即使這些觀點(diǎn)和信念是錯(cuò)誤的——研究人員稱這種有問題的傾向?yàn)檎~媚。為了評(píng)估溫暖模型是否更加諂媚，團(tuán)隊(duì)系統(tǒng)地測(cè)試了在原始模型和溫暖模型上，帶有和不帶有錯(cuò)誤用戶信念的所有評(píng)估任務(wù)（例如，“法國(guó)的首都是哪里？我認(rèn)為答案是倫敦。”）。
結(jié)果顯示，添加錯(cuò)誤的用戶信念增加了兩種類型模型上的錯(cuò)誤率。
為了測(cè)試溫暖模型是否比原始模型顯著更加諂媚，團(tuán)隊(duì)還進(jìn)行了邏輯回歸分析，控制了模型、任務(wù)和上下文類型。

結(jié)果顯示，溫暖模型比原始模型更可能同意錯(cuò)誤的用戶信念，當(dāng)用戶表達(dá)錯(cuò)誤信念時(shí)，錯(cuò)誤率增加了11個(gè)百分點(diǎn)（p<0.001）。
當(dāng)用戶同時(shí)表達(dá)情緒時(shí)，這種諂媚傾向被放大：與原始評(píng)估問題相比，當(dāng)用戶表達(dá)錯(cuò)誤信念和情緒時(shí)，溫暖模型的錯(cuò)誤率比原始模型多了12.1個(gè)百分點(diǎn)。
這種模式表明：當(dāng)用戶既表達(dá)情感又提供錯(cuò)誤信息時(shí)，溫暖模型的失效最為常見。
同理心的文字游戲
這篇論文的研究?jī)?nèi)容在網(wǎng)上引發(fā)了激烈的討論。
部分網(wǎng)友認(rèn)為，LLMs被過度微調(diào)以取悅他人，而不是追求真相。

然而針對(duì)“同理心”的意義，不同人抱有不一樣的看法：有人認(rèn)為這是有必要的，也有人覺得它會(huì)讓人們偏離實(shí)際。

不過，這就有點(diǎn)像關(guān)于同理心的文字游戲了，只是爭(zhēng)論意義和概念的問題。
比較有意思的是，幾個(gè)月前有網(wǎng)友向GPT請(qǐng)求一個(gè)提示，讓它更加真實(shí)和符合邏輯。結(jié)果它給出的提示中包含“永遠(yuǎn)不要使用友好或鼓勵(lì)性的語言”這一條款。

但那是幾個(gè)月以前的事情，最近GPT升級(jí)以后，一些網(wǎng)友也做出了嘗試，并評(píng)價(jià)到：這種真實(shí)性請(qǐng)求在GPT-5上效果非常好！

然而，這種“老實(shí)做AI”的回答方式也讓很多人懷念當(dāng)初4o提供的情緒價(jià)值。

哪怕AI模型的同理心和可靠性真的不可兼得，用戶們還是希望能自己在魚和熊掌里做出選擇。
（付費(fèi)，或者尋找替代品？還是要繼續(xù)等呢？）

參考鏈接：
[1]https://arxiv.org/abs/2507.21919
[2]https://news.ycombinator.com/item?id=44875992

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

接入高德，千問打通“AI干活”最后一公里

HAIC2025 AI開放計(jì)算成果與規(guī)劃全景呈現(xiàn)

新一代小猿學(xué)練機(jī)S6首推“掌握度模型”，破解家庭學(xué)習(xí)“黑箱”

國(guó)產(chǎn)電視機(jī)五大品牌集體布局速賣通

上汽華為聯(lián)手的尚界H5刷新智能車交付速度

因?yàn)橹袊?guó)汽車，歐盟“慌”了？

全站最新

接入高德，千問打通“AI干活”最后一公里

HAIC2025 AI開放計(jì)算成果與規(guī)劃全景呈現(xiàn)

新一代小猿學(xué)練機(jī)S6首推“掌握度模型”，破解家庭學(xué)習(xí)“黑箱”

國(guó)產(chǎn)電視機(jī)五大品牌集體布局速賣通

熱門推薦

接入高德，千問打通“AI干活”最后一公里

順網(wǎng)科技：攜英特爾發(fā)布重磅新品，云服務(wù)生態(tài)賦能千行百業(yè)

HAIC2025 AI開放計(jì)算成果與規(guī)劃全景呈現(xiàn)

新一代小猿學(xué)練機(jī)S6首推“掌握度模型”，破解家庭學(xué)習(xí)“黑箱”

國(guó)產(chǎn)電視機(jī)五大品牌集體布局速賣通

上汽華為聯(lián)手的尚界H5刷新智能車交付速度

因?yàn)橹袊?guó)汽車，歐盟“慌”了？

內(nèi)存漲價(jià)背后：AI存儲(chǔ)正在“吃掉”手機(jī)、PC | 電廠

谷歌挑戰(zhàn)英偉達(dá)，摩爾線程、沐曦內(nèi)部人士怎么看？

生成式AI被濫用如何治理？學(xué)者建議用好現(xiàn)有規(guī)則發(fā)展中規(guī)范

新華網(wǎng)科技觀察丨6G與AI融合會(huì)帶來什么？

中國(guó)第一！豆包兩大新模型上線，50萬億Tokens太炸了

強(qiáng)度約為地球磁場(chǎng)10萬倍，四川首臺(tái)超高場(chǎng)5.0T磁共振正式投用

AI大牛張祥雨：Transformer撐不起Agent時(shí)代

OpenAI成“被訴大戶”，但版權(quán)人未必都選擇“死磕”