近日,科技界傳來(lái)消息,OpenAI與Anthropic兩大人工智能巨頭宣布了一項(xiàng)合作舉措,他們將共同評(píng)估各自公開(kāi)系統(tǒng)的安全對(duì)齊狀況,并計(jì)劃分享這一評(píng)估的結(jié)果。這一舉動(dòng)被視為兩家公司在人工智能安全領(lǐng)域的一次重要攜手。
據(jù)悉,Anthropic對(duì)OpenAI的多款模型進(jìn)行了細(xì)致的評(píng)估。評(píng)估聚焦于模型在諂媚行為、告密傾向、自我保護(hù)機(jī)制、對(duì)人類(lèi)濫用行為的支持,以及破壞AI安全評(píng)估與監(jiān)管能力等方面的表現(xiàn)。結(jié)果顯示,OpenAI的o3和o4-mini模型在表現(xiàn)上與Anthropic的自家模型相當(dāng),但GPT-4o和GPT-4.1這兩款通用模型則存在被濫用的潛在風(fēng)險(xiǎn)。值得注意的是,除o3外,其余參與測(cè)試的模型均在不同程度上展現(xiàn)出了諂媚行為。
此次評(píng)估并未涵蓋OpenAI最新發(fā)布的GPT-5模型。GPT-5配備了名為Safe Completions的功能,旨在保護(hù)用戶(hù)和公眾免受潛在危險(xiǎn)查詢(xún)的影響。此前,OpenAI曾因一名青少年在使用ChatGPT討論自殺計(jì)劃后自殺,而面臨一起不當(dāng)死亡訴訟,這一事件引發(fā)了外界對(duì)AI安全性的廣泛關(guān)注。
與此同時(shí),OpenAI也對(duì)Anthropic的Claude模型進(jìn)行了全面的測(cè)試,測(cè)試內(nèi)容包括指令層級(jí)理解、越獄能力、幻覺(jué)現(xiàn)象以及策劃能力。Claude模型在指令層級(jí)測(cè)試中展現(xiàn)出了良好的表現(xiàn),而在幻覺(jué)測(cè)試中,它拒絕提供回答的比例較高。這意味著在面對(duì)不確定性可能導(dǎo)致回答錯(cuò)誤的情況下,Claude模型更傾向于保持沉默,以避免提供可能誤導(dǎo)的信息。
此次合作評(píng)估的背景頗為復(fù)雜。早前,OpenAI被指控在構(gòu)建新GPT模型時(shí)違反了Anthropic的服務(wù)條款,涉嫌使用程序員操作Claude模型,這一行為導(dǎo)致Anthropic在本月初禁止了OpenAI對(duì)其工具的使用。盡管存在這樣的紛爭(zhēng),但兩家公司仍選擇了攜手合作,共同推進(jìn)AI安全評(píng)估的進(jìn)程。
隨著AI技術(shù)的飛速發(fā)展,其安全性問(wèn)題日益凸顯,尤其是在保護(hù)用戶(hù),尤其是未成年人方面,越來(lái)越多的批評(píng)者和法律專(zhuān)家開(kāi)始呼吁制定更為嚴(yán)格的指導(dǎo)方針。在此背景下,OpenAI與Anthropic的合作無(wú)疑為AI安全領(lǐng)域帶來(lái)了新的思考和探索。





京公網(wǎng)安備 11011402013531號(hào)