AI巨頭互檢：OpenAI模型現(xiàn)諂媚風(fēng)險(xiǎn)，Anthropic Claude防幻覺(jué)能力強(qiáng)

IP屬地中國(guó)·北京 編輯：鐘景軒 ITBEAR 時(shí)間：2025-08-28 22:29:00

近日，科技界傳來(lái)消息，OpenAI與Anthropic兩大人工智能巨頭宣布了一項(xiàng)合作舉措，他們將共同評(píng)估各自公開(kāi)系統(tǒng)的安全對(duì)齊狀況，并計(jì)劃分享這一評(píng)估的結(jié)果。這一舉動(dòng)被視為兩家公司在人工智能安全領(lǐng)域的一次重要攜手。
據(jù)悉，Anthropic對(duì)OpenAI的多款模型進(jìn)行了細(xì)致的評(píng)估。評(píng)估聚焦于模型在諂媚行為、告密傾向、自我保護(hù)機(jī)制、對(duì)人類(lèi)濫用行為的支持，以及破壞AI安全評(píng)估與監(jiān)管能力等方面的表現(xiàn)。結(jié)果顯示，OpenAI的o3和o4-mini模型在表現(xiàn)上與Anthropic的自家模型相當(dāng)，但GPT-4o和GPT-4.1這兩款通用模型則存在被濫用的潛在風(fēng)險(xiǎn)。值得注意的是，除o3外，其余參與測(cè)試的模型均在不同程度上展現(xiàn)出了諂媚行為。
此次評(píng)估并未涵蓋OpenAI最新發(fā)布的GPT-5模型。GPT-5配備了名為Safe Completions的功能，旨在保護(hù)用戶(hù)和公眾免受潛在危險(xiǎn)查詢(xún)的影響。此前，OpenAI曾因一名青少年在使用ChatGPT討論自殺計(jì)劃后自殺，而面臨一起不當(dāng)死亡訴訟，這一事件引發(fā)了外界對(duì)AI安全性的廣泛關(guān)注。
與此同時(shí)，OpenAI也對(duì)Anthropic的Claude模型進(jìn)行了全面的測(cè)試，測(cè)試內(nèi)容包括指令層級(jí)理解、越獄能力、幻覺(jué)現(xiàn)象以及策劃能力。Claude模型在指令層級(jí)測(cè)試中展現(xiàn)出了良好的表現(xiàn)，而在幻覺(jué)測(cè)試中，它拒絕提供回答的比例較高。這意味著在面對(duì)不確定性可能導(dǎo)致回答錯(cuò)誤的情況下，Claude模型更傾向于保持沉默，以避免提供可能誤導(dǎo)的信息。
此次合作評(píng)估的背景頗為復(fù)雜。早前，OpenAI被指控在構(gòu)建新GPT模型時(shí)違反了Anthropic的服務(wù)條款，涉嫌使用程序員操作Claude模型，這一行為導(dǎo)致Anthropic在本月初禁止了OpenAI對(duì)其工具的使用。盡管存在這樣的紛爭(zhēng)，但兩家公司仍選擇了攜手合作，共同推進(jìn)AI安全評(píng)估的進(jìn)程。
隨著AI技術(shù)的飛速發(fā)展，其安全性問(wèn)題日益凸顯，尤其是在保護(hù)用戶(hù)，尤其是未成年人方面，越來(lái)越多的批評(píng)者和法律專(zhuān)家開(kāi)始呼吁制定更為嚴(yán)格的指導(dǎo)方針。在此背景下，OpenAI與Anthropic的合作無(wú)疑為AI安全領(lǐng)域帶來(lái)了新的思考和探索。

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類(lèi)資訊

水獺、樹(shù)和鳥(niǎo)，于自然間重寫(xiě)自我

豆包視頻生成大升級(jí)，網(wǎng)友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現(xiàn)！上海元宇宙交出3年實(shí)戰(zhàn)答卷→

阿里千問(wèn)緊急辟謠

力積存儲(chǔ)再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國(guó)區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

全站最新

水獺、樹(shù)和鳥(niǎo)，于自然間重寫(xiě)自我

豆包視頻生成大升級(jí)，網(wǎng)友們的腦洞終于自帶音效了。

不玩“虛”的！硬核兌現(xiàn)！上海元宇宙交出3年實(shí)戰(zhàn)答卷→

阿里千問(wèn)緊急辟謠

熱門(mén)推薦

水獺、樹(shù)和鳥(niǎo)，于自然間重寫(xiě)自我

豆包視頻生成大升級(jí)，網(wǎng)友們的腦洞終于自帶音效了。

阿里辟謠

不玩“虛”的！硬核兌現(xiàn)！上海元宇宙交出3年實(shí)戰(zhàn)答卷→

今年創(chuàng)紀(jì)錄！字節(jié)跳動(dòng)利潤(rùn)據(jù)稱(chēng)有望達(dá)500億美元

谷歌云深化與Palo Alto Networks合作，簽署近100億美元AI安全大單

羅永浩投訴上海電信千兆寬帶網(wǎng)速慢！公司稱(chēng)有多種原因可維修

阿里千問(wèn)緊急辟謠

力積存儲(chǔ)再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰(zhàn)

一加中國(guó)區(qū)總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會(huì)2025：Data+AI雙引擎實(shí)效落地，共筑智能時(shí)代新零售

安卓上線“擴(kuò)展深色主題”設(shè)置，專(zhuān)治堅(jiān)守淺色UI的“不聽(tīng)話”App

國(guó)產(chǎn)GPU四小龍IPO齊活！最后一個(gè)剛剛公布

蚌埠滕湖機(jī)場(chǎng)完成驗(yàn)證試飛！

中國(guó)新礦物團(tuán)隊(duì)再添一員！“金秀礦”正式命名背后有多難？｜封面專(zhuān)訪