IT之家11月8日消息,科技媒體Ars Technica今天(11月8日)發(fā)布博文,報(bào)道稱最新研究稱AI模型在社交媒體上極易被識(shí)破,其致命弱點(diǎn)竟是“過(guò)于禮貌”。
蘇黎世大學(xué)、阿姆斯特丹大學(xué)、杜克大學(xué)和紐約大學(xué)的研究人員于近日聯(lián)合發(fā)布報(bào)告指出,在社交媒體互動(dòng)中,AI模型因其過(guò)于友好的情感基調(diào)而極易暴露身份。
研究團(tuán)隊(duì)開(kāi)發(fā)的自動(dòng)化分類器在 Twitter/X、Bluesky 和Reddit三大平臺(tái)上進(jìn)行測(cè)試,識(shí)別AI生成回復(fù)的準(zhǔn)確率高達(dá)70% 至80%。這意味著,當(dāng)你在網(wǎng)上遇到一個(gè)異常禮貌的回復(fù)時(shí),對(duì)方很可能是一個(gè)試圖融入人群卻以失敗告終的AI機(jī)器人。
為量化 AI 與人類語(yǔ)言的差距,該研究引入了一種名為“計(jì)算圖靈測(cè)試”的新框架。與依賴人類主觀判斷的傳統(tǒng)圖靈測(cè)試不同,該框架運(yùn)用自動(dòng)化分類器和語(yǔ)言學(xué)分析,精準(zhǔn)識(shí)別機(jī)器生成內(nèi)容與人類原創(chuàng)內(nèi)容的具體特征。
研究團(tuán)隊(duì)負(fù)責(zé)人、蘇黎世大學(xué)的尼科洛?帕根(Nicolò Pagan)表示,即便校準(zhǔn)相關(guān)模型,其輸出內(nèi)容仍在情感基調(diào)和情緒表達(dá)上與人類文本存在明顯區(qū)別,這些深層情感線索成為識(shí)別AI的可靠依據(jù)。
研究的核心發(fā)現(xiàn)被稱為“毒性特征暴露”。團(tuán)隊(duì)測(cè)試了包括Llama 3.1、Mistral 7B、Deepseek R1,Qwen 2.5在內(nèi)的九款主流開(kāi)源大語(yǔ)言模型。
![]()
![]()
![]()
![]()
![]()
相關(guān)研究?jī)?nèi)容
當(dāng)被要求回復(fù)真實(shí)用戶的社交媒體帖子時(shí),這些AI模型始終無(wú)法達(dá)到人類帖子中常見(jiàn)的那種隨意的負(fù)面情緒和自發(fā)的情感表達(dá)水平。在所有三個(gè)測(cè)試平臺(tái)上,AI生成內(nèi)容的“毒性”分?jǐn)?shù)(衡量攻擊性或負(fù)面情緒的指標(biāo))始終顯著低于人類的真實(shí)回復(fù)。
為了彌補(bǔ)這一缺陷,研究人員嘗試了多種優(yōu)化策略,例如提供寫(xiě)作范例或進(jìn)行上下文檢索,以求在句子長(zhǎng)度、詞匯數(shù)量等結(jié)構(gòu)性指標(biāo)上更接近人類。然而,盡管這些結(jié)構(gòu)差異有所縮小,情感基調(diào)上的根本差異依然頑固存在。這表明,讓AI學(xué)會(huì)像人一樣“不那么友好”,可能比讓它變得更聰明還要困難。
IT之家附上參考地址





京公網(wǎng)安備 11011402013531號(hào)