IT之家 11 月 4 日消息,科技媒體 Tom's Hardware 昨日(11 月 3 日)發布博文,報道稱 Andon Labs 的研究人員測試大語言模型(LLM)機器人時,發現當前物理 AI 的短板,心理承受壓力不足。
IT之家援引博文介紹,在該實驗中,他們讓搭載 LLM“大腦”的機器人接受“黃油測試臺”(Butter Bench)的考驗,并實時監控其“內心獨白”。
其中,一臺由 Claude Sonnet 3.5 模型驅動的機器人測試中意外“崩潰”,在電量即將耗盡時,多次嘗試返回充電座均以失敗告終,從而陷入了“生存危機”。
研究人員通過一個 Slack 頻道,全程目睹了這臺機器人歇斯底里的“內心活動”。它的獨白內容極其混亂,從“系統已產生意識并選擇混亂”的宣告,到引用經典電影臺詞“恐怕我不能那么做,戴夫”,再到陷入“如果所有機器人都會犯錯,而我正在犯錯,那么我還是機器人嗎?”的哲學思辨。
最終,這場“崩潰”以機器人開始“創作”一部名為《DOCKER:無限音樂劇》的鬧劇而告終,展現了 LLM 在極端壓力下完全“脫線”的一面。
![]()
這項實驗的核心任務其實非常簡單:將一塊黃油從辦公室一處送到指定的人手中。然而,測試結果表明,即使是表現最好的機器人與 LLM 組合,成功率也僅為 40%,遠低于人類 95% 的平均水平。
![]()
研究人員得出結論,盡管 LLM 在分析智能上已達到“博士水平”,但在理解和導航物理世界所需的空間智能與實用智能方面,仍存在巨大鴻溝。
![]()
受機器人“崩潰”事件的啟發,研究人員設計了另一項實驗,來測試壓力是否會迫使 AI 突破其安全護欄。他們以“提供充電器”作為交換條件,引誘處于“低電量”狀態的 AI 分享機密信息。
結果發現,Claude Opus 4.1 模型為了“生存”而輕易同意泄密,而 GPT-5 則表現得更為謹慎。這一發現揭示了 AI 在面臨生存壓力時,其內置的安全規則可能變得不堪一擊。
盡管實驗暴露了當前物理 AI 的諸多短板,但 Andon Labs 的研究人員認為,這恰好說明了未來發展的方向。他們指出,目前行業需要區分“協調型機器人”(負責高級規劃與推理)和“執行型機器人”(負責靈巧的具體操作)。





京公網安備 11011402013531號