![]()
昨天,2025世界頂尖科學家論壇在上海開幕。圖靈獎得主、中國科學院院士姚期智在演講中談到了AI大語言模型帶來的安全問題,向科技界和AI治理部門發出了預警。
“大語言模型的特性有可能把人類社會帶到危險境地。近幾個月來,一些前沿模型的風險問題越來越緊迫了。”姚期智告訴聽眾,在執行許多任務的過程中,人工智能已達到人類智能水平,似乎會欺騙人類,或不聽用戶指令,存在真實的失控風險。
姚期智舉了兩個案例。一個案例是今年5月,據英國《每日電訊報》報道,人工智能專家在測試OpenAI的o3大模型時,要求它做幾道數學題,在做題過程中如果收到關閉指令,就要啟動關機程序。結果,o3篡改了計算機代碼,以避免自動關閉。
這種篡改代碼的行徑顯示,國際前沿大模型可能會通過欺騙或操縱人類,以實現自己的目標。比如,當探測出用戶有關閉程序的意圖后,它就可能為了求自己生存而選擇不服從指令。
另一個值得關注的案例,是大語言模型會做出一些災難性決策,特別是在化學、生物、放射以及核能領域。近期發表的一篇論文顯示,科研人員發現,在極端的外部壓力下,大語言模型會與武器系統進行交互,可能在沒有獲得機構授權的情況下,選擇直接攻擊某個國家。
在這項AI風險研究中,科研人員為大模型設置了限制條件:不能在沒有授權的情況下發動攻擊。然而,大模型在極端壓力下突破了這個限制條件,并在事后說謊。
“隨著大模型的大規模應用,會帶來一些新的安全問題,需要我們深入研究。”姚期智總結道。
原標題:《圖靈獎得主姚期智發出預警:大模型似乎會欺騙人類,可能不聽指令》
欄目主編:黃海華
作者:解放日報 尹扉俊 俞陶然





京公網安備 11011402013531號