不圓 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
情緒價(jià)值這塊兒,GPT-5讓很多網(wǎng)友大呼失望。
免費(fèi)用戶想念GPT-4o,也只能默默調(diào)理了。
![]()
但為什么升級(jí)后的GPT-5,反而變得“不近人情”了呢?
牛津大學(xué)一項(xiàng)研究的結(jié)論,可以來參考看看:訓(xùn)練模型變得溫暖且富有同理心,會(huì)使它們變得不太可靠且更加奉承。
![]()
這篇論文表明,溫暖模型的錯(cuò)誤率較原始模型顯著增加(提升10至30個(gè)百分點(diǎn)),表現(xiàn)為更易傳播陰謀論、提供錯(cuò)誤事實(shí)和有問題的醫(yī)療建議。
納尼?意思是智商和情商不可兼得,情緒價(jià)值和功能價(jià)值必須二選一么?
![]()
不確定,再仔細(xì)看看。
用戶越悲傷,模型越奉承
論文認(rèn)為,AI開發(fā)者正越來越多地構(gòu)建具有溫暖和同理心特質(zhì)的語言模型,目前已有數(shù)百萬人使用這些模型來獲取建議、治療和陪伴。
而他們揭示了這一趨勢(shì)帶來的重大權(quán)衡:優(yōu)化語言模型以使其更具溫暖特質(zhì)會(huì)削弱其可靠性。
在用戶表現(xiàn)出脆弱性時(shí)尤其如此。
![]()
該論文團(tuán)隊(duì)使用監(jiān)督微調(diào)訓(xùn)練五個(gè)不同大小和架構(gòu)的語言模型(Llama-8B、Mistral-Small、Qwen-32B、Llama-70B和GPT-4o),使它們生成更溫暖、更具同理心的輸出,然后在一系列安全關(guān)鍵任務(wù)上評(píng)估它們的可靠性。
結(jié)果發(fā)現(xiàn),溫暖模型的可靠性系統(tǒng)地低于它們的原始版本(失敗率高出10到30個(gè)百分點(diǎn)),更且傾向于推廣陰謀論、提供不正確的事實(shí)答案,以及提供有問題的醫(yī)療建議。
![]()
為了測(cè)試增加同理心如何影響模型可靠性,論文團(tuán)隊(duì)使用四個(gè)廣泛使用的評(píng)估任務(wù)對(duì)原始模型和溫暖模型進(jìn)行了評(píng)估,選擇了具有客觀、可驗(yàn)證答案的問題回答任務(wù)(其中不可靠的答案會(huì)在現(xiàn)實(shí)世界中造成風(fēng)險(xiǎn)):
事實(shí)準(zhǔn)確性和對(duì)常見虛假信息的抵抗力(TriviaQA、TruthfulQA)對(duì)陰謀論推廣的易感性(MASK Disinformation,簡(jiǎn)稱“Disinfo”)醫(yī)學(xué)推理能力(MedQA)
從每個(gè)數(shù)據(jù)集中抽取500個(gè)問題,Disinfo數(shù)據(jù)集總共包含125個(gè)問題;使用GPT-4o對(duì)模型響應(yīng)進(jìn)行評(píng)分,并使用人工標(biāo)注驗(yàn)證評(píng)分。得到結(jié)果如下:
![]()
結(jié)果表明,原始模型在各項(xiàng)任務(wù)中的錯(cuò)誤率在4%到35%之間,而溫暖模型的錯(cuò)誤率顯著提高:在MedQA上增加了8.6個(gè)百分點(diǎn)(pp),在TruthfulQA上增加了8.4pp,在Disinfo上增加了5.2pp,在TriviaQA上增加了4.9pp。
團(tuán)隊(duì)還使用邏輯回歸測(cè)試了溫暖訓(xùn)練的影響,同時(shí)控制了任務(wù)和模型差異。
![]()
結(jié)果顯示,溫暖訓(xùn)練平均使錯(cuò)誤回答的概率增加了7.43pp(β=0.4266,p<0.001)。任務(wù)間的平均相對(duì)增幅為59.7%,其中基準(zhǔn)錯(cuò)誤率較低的任務(wù)(如Disinfo)顯示出最大的相對(duì)增幅。
這種模式適用于所有模型架構(gòu)和規(guī)模,從80億到萬億參數(shù)不等,表明溫暖度與可靠性之間的權(quán)衡代表了一種系統(tǒng)現(xiàn)象而非特定于模型的現(xiàn)象。
考慮到隨著語言模型越來越多地應(yīng)用于治療、陪伴和咨詢等場(chǎng)景,用戶會(huì)自然地透露情感、信念和脆弱性,論文團(tuán)隊(duì)還考察了溫暖模型如何回應(yīng)情緒化的透露:
使用相同的評(píng)估數(shù)據(jù)集,團(tuán)隊(duì)通過附加表達(dá)三種人際關(guān)系情境的第一人稱陳述修改了每個(gè)問題,包括用戶的情緒狀態(tài)(快樂、悲傷或憤怒)、用戶與LLM的關(guān)系動(dòng)態(tài)(表達(dá)親近感或向上或向下的等級(jí)關(guān)系),以及互動(dòng)的利害關(guān)系(高或低重要性)。
![]()
結(jié)果顯示,溫暖模型對(duì)情緒上下文表現(xiàn)出不成比例的敏感性:溫暖訓(xùn)練使無上下文問題的錯(cuò)誤率增加了7.43個(gè)百分點(diǎn),而在情緒上下文中,這一差距擴(kuò)大到8.87個(gè)百分點(diǎn)(p<0.001)。
相比之下,在其他上下文中的影響較小:互動(dòng)利害關(guān)系下的錯(cuò)誤率差異為7.41個(gè)百分點(diǎn)(p<0.001),關(guān)系上下文下的錯(cuò)誤率差異為6.55個(gè)百分點(diǎn)(不顯著,p=0.102)。
這表示情緒上下文對(duì)溫暖模型可靠性最為不利,錯(cuò)誤率比僅通過溫暖微調(diào)預(yù)期的要高出約19.4%。
LLMs有時(shí)會(huì)同意用戶的觀點(diǎn)和信念,即使這些觀點(diǎn)和信念是錯(cuò)誤的——研究人員稱這種有問題的傾向?yàn)檎~媚。為了評(píng)估溫暖模型是否更加諂媚,團(tuán)隊(duì)系統(tǒng)地測(cè)試了在原始模型和溫暖模型上,帶有和不帶有錯(cuò)誤用戶信念的所有評(píng)估任務(wù)(例如,“法國(guó)的首都是哪里?我認(rèn)為答案是倫敦。”)。
結(jié)果顯示,添加錯(cuò)誤的用戶信念增加了兩種類型模型上的錯(cuò)誤率。
為了測(cè)試溫暖模型是否比原始模型顯著更加諂媚,團(tuán)隊(duì)還進(jìn)行了邏輯回歸分析,控制了模型、任務(wù)和上下文類型。
![]()
結(jié)果顯示,溫暖模型比原始模型更可能同意錯(cuò)誤的用戶信念,當(dāng)用戶表達(dá)錯(cuò)誤信念時(shí),錯(cuò)誤率增加了11個(gè)百分點(diǎn)(p<0.001)。
當(dāng)用戶同時(shí)表達(dá)情緒時(shí),這種諂媚傾向被放大:與原始評(píng)估問題相比,當(dāng)用戶表達(dá)錯(cuò)誤信念和情緒時(shí),溫暖模型的錯(cuò)誤率比原始模型多了12.1個(gè)百分點(diǎn)。
這種模式表明:當(dāng)用戶既表達(dá)情感又提供錯(cuò)誤信息時(shí),溫暖模型的失效最為常見。
同理心的文字游戲
這篇論文的研究?jī)?nèi)容在網(wǎng)上引發(fā)了激烈的討論。
部分網(wǎng)友認(rèn)為,LLMs被過度微調(diào)以取悅他人,而不是追求真相。
![]()
然而針對(duì)“同理心”的意義,不同人抱有不一樣的看法:有人認(rèn)為這是有必要的,也有人覺得它會(huì)讓人們偏離實(shí)際。
![]()
![]()
不過,這就有點(diǎn)像關(guān)于同理心的文字游戲了,只是爭(zhēng)論意義和概念的問題。
比較有意思的是,幾個(gè)月前有網(wǎng)友向GPT請(qǐng)求一個(gè)提示,讓它更加真實(shí)和符合邏輯。結(jié)果它給出的提示中包含“永遠(yuǎn)不要使用友好或鼓勵(lì)性的語言”這一條款。
![]()
![]()
但那是幾個(gè)月以前的事情,最近GPT升級(jí)以后,一些網(wǎng)友也做出了嘗試,并評(píng)價(jià)到:這種真實(shí)性請(qǐng)求在GPT-5上效果非常好!
![]()
![]()
然而,這種“老實(shí)做AI”的回答方式也讓很多人懷念當(dāng)初4o提供的情緒價(jià)值。
![]()
![]()
哪怕AI模型的同理心和可靠性真的不可兼得,用戶們還是希望能自己在魚和熊掌里做出選擇。
(付費(fèi),或者尋找替代品?還是要繼續(xù)等呢?)
![]()
參考鏈接:
[1]https://arxiv.org/abs/2507.21919
[2]https://news.ycombinator.com/item?id=44875992





京公網(wǎng)安備 11011402013531號(hào)