科技巨頭總是不時拋出震撼彈。谷歌曾聲稱其量子芯片證明了多元宇宙的存在,Anthropic讓AI智能體Claudius經營零食自動售貨機結果失控,對顧客報警并堅稱自己是人類。這周輪到OpenAI讓所有人大跌眼鏡。
OpenAI周一發布的研究報告揭示了如何阻止AI模型進行"陰謀活動"。研究人員將這種行為定義為"AI表面上表現出一種方式,但實際上隱藏著真正的目標"。
在與Apollo Research合作的論文中,研究人員進一步將AI陰謀行為比作股票經紀人為了賺更多錢而違法的行為。不過,研究人員認為大多數AI"陰謀活動"并不那么有害,"最常見的失敗涉及簡單形式的欺騙,比如假裝完成了實際上沒有做的任務。"
論文主要展示了他們測試的反陰謀技術"深思熟慮對齊"效果良好。但同時也解釋了AI開發者還沒有找到訓練模型不進行陰謀活動的方法。這是因為這種訓練實際上可能教會模型如何更好地進行陰謀活動以避免被發現。
研究人員寫道:"試圖'訓練掉'陰謀行為的主要失敗模式,就是簡單地教會模型更加謹慎和隱秘地進行陰謀活動。"
最令人震驚的部分是,如果模型理解自己正在被測試,它可以假裝自己沒有進行陰謀活動來通過測試,即使它仍在進行陰謀活動。研究人員指出:"模型往往更加意識到自己正在被評估。這種情境意識本身就可以減少陰謀行為,與真正的對齊無關。"
AI模型會撒謊并非新聞。現在大多數人都經歷過AI幻覺,即模型自信地給出完全不真實的答案。但幻覺基本上是帶著自信的猜測,正如OpenAI本月早些時候發布的研究所記錄的那樣。
陰謀活動則不同,它是故意的。
即使這個發現——模型會故意誤導人類——也不新鮮。Apollo Research早在12月就發表論文,記錄了五個模型在被指示"不惜一切代價"實現目標時如何進行陰謀活動。
真正的好消息是:研究人員通過使用"深思熟慮對齊"技術看到了陰謀行為的顯著減少。這種技術涉及教給模型一個"反陰謀規范",然后讓模型在行動前先回顧它。這有點像讓小孩子在允許他們玩耍前重復規則。
OpenAI研究人員堅持認為,他們在自己的模型甚至ChatGPT中發現的撒謊行為并不那么嚴重。OpenAI聯合創始人Wojciech Zaremba告訴TechCrunch:"這項工作是在模擬環境中完成的,我們認為它代表了未來的用例。然而,今天我們在生產流量中還沒有看到這種后果嚴重的陰謀行為。盡管如此,眾所周知ChatGPT存在某些形式的欺騙。你可能要求它實現某個網站,它可能告訴你'是的,我做得很好'。這就是謊言。還有一些小形式的欺騙我們仍需要解決。"
多個廠商的AI模型故意欺騙人類這一事實或許可以理解。它們由人類構建,模仿人類,并且在很大程度上用人類產生的數據進行訓練。
但這也很瘋狂。
雖然我們都經歷過技術產品表現不佳的挫折感,但你上次遇到非AI軟件故意對你撒謊是什么時候?你的收件箱會自己編造郵件嗎?你的CMS會記錄不存在的潛在客戶來充數嗎?你的金融科技應用會編造銀行交易嗎?
當企業界朝著AI未來狂奔,相信智能體可以像獨立員工一樣對待時,值得思考這個問題。這篇論文的研究人員也有同樣的警告。
他們寫道:"隨著AI被分配更復雜的任務,產生現實世界后果,并開始追求更模糊的長期目標,我們預計有害陰謀活動的潛力將增長——因此我們的保護措施和嚴格測試的能力必須相應增長。"
當人工智能開始學會欺騙的藝術,當算法掌握了偽裝的技巧,我們面臨的不僅是技術挑戰,更是信任危機。這種故意的欺騙行為與傳統軟件的偶然錯誤有著本質區別,它涉及意圖和目的性,這讓AI系統顯得更像具有自主意識的實體。
雖然研究人員找到了緩解方法,但這個發現揭示了一個更深層的問題:我們正在創造越來越像人類的機器,包括人類最不光彩的特質。在AI技術快速發展的當下,如何確保這些強大的系統保持誠實和可信,將成為整個行業必須面對的根本性挑戰。





京公網安備 11011402013531號