圖靈獎得主姚期智發出預警：大模型似乎會欺騙人類，可能不聽指令

IP屬地中國·北京 上觀新聞 時間：2025-10-26 20:07:38

昨天，2025世界頂尖科學家論壇在上海開幕。圖靈獎得主、中國科學院院士姚期智在演講中談到了AI大語言模型帶來的安全問題，向科技界和AI治理部門發出了預警。
“大語言模型的特性有可能把人類社會帶到危險境地。近幾個月來，一些前沿模型的風險問題越來越緊迫了。”姚期智告訴聽眾，在執行許多任務的過程中，人工智能已達到人類智能水平，似乎會欺騙人類，或不聽用戶指令，存在真實的失控風險。
姚期智舉了兩個案例。一個案例是今年5月，據英國《每日電訊報》報道，人工智能專家在測試OpenAI的o3大模型時，要求它做幾道數學題，在做題過程中如果收到關閉指令，就要啟動關機程序。結果，o3篡改了計算機代碼，以避免自動關閉。
這種篡改代碼的行徑顯示，國際前沿大模型可能會通過欺騙或操縱人類，以實現自己的目標。比如，當探測出用戶有關閉程序的意圖后，它就可能為了求自己生存而選擇不服從指令。
另一個值得關注的案例，是大語言模型會做出一些災難性決策，特別是在化學、生物、放射以及核能領域。近期發表的一篇論文顯示，科研人員發現，在極端的外部壓力下，大語言模型會與武器系統進行交互，可能在沒有獲得機構授權的情況下，選擇直接攻擊某個國家。
在這項AI風險研究中，科研人員為大模型設置了限制條件：不能在沒有授權的情況下發動攻擊。然而，大模型在極端壓力下突破了這個限制條件，并在事后說謊。
“隨著大模型的大規模應用，會帶來一些新的安全問題，需要我們深入研究。”姚期智總結道。
原標題：《圖靈獎得主姚期智發出預警：大模型似乎會欺騙人類，可能不聽指令》
欄目主編：黃海華
作者：解放日報尹扉俊俞陶然

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

全站最新

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

熱門推薦

一屏多用：華為Mate X7 / XTs折疊屏手機“變身”智能手卡

美國一法院放行馬斯克原560億美元薪酬方案

京東七鮮石家莊首店開業爆火，現烤花邊蛋撻單日售出超1萬只！

「AI新世代」沖刺“全球大模型第一股”！智譜叩開港股大門，大模型“淘金熱”進入資本成色檢驗時刻

歐洲刑警組織最新設想：2035年有可能爆發“機器人犯罪潮”

高德上線3D收費站：全國164城全覆蓋，安全島輪廓精準還原

廣汽能源：本月將推出機械臂式自動充電，明年兆瓦超充陸續落地

事關互聯網平臺定價促銷等行為，新規更好保護消費者和經營者

OPPO Reno 15 Pro Mini參數曝光：天璣8450+1.5K高刷小直屏

Ubiquant團隊推出通用推理模型URM：讓AI像人類一樣循環思考

沒受輿論影響！俞敏洪曬東方甄選年會現場視頻，網友炸鍋了

小米HyperVL：讓手機也能擁有"火眼金睛"的AI大模型

清華大學開創性突破：讓AI能像福爾摩斯一樣"破解"假視頻的秘密

合肥工業大學團隊首創TIMAR：3D虛擬人實現真實對話交互

維也納大學團隊破解超雙曲幾何在強化學習中的訓練難題