IT之家 11 月 4 日消息,科技媒體 Tom's Hardware 昨日(11 月 3 日)發(fā)布博文,報(bào)道稱 Andon Labs 的研究人員測試大語言模型(LLM)機(jī)器人時(shí),發(fā)現(xiàn)當(dāng)前物理 AI 的短板,心理承受壓力不足。
IT之家援引博文介紹,在該實(shí)驗(yàn)中,他們讓搭載 LLM“大腦”的機(jī)器人接受“黃油測試臺”(Butter Bench)的考驗(yàn),并實(shí)時(shí)監(jiān)控其“內(nèi)心獨(dú)白”。
其中,一臺由 Claude Sonnet 3.5 模型驅(qū)動的機(jī)器人測試中意外“崩潰”,在電量即將耗盡時(shí),多次嘗試返回充電座均以失敗告終,從而陷入了“生存危機(jī)”。
研究人員通過一個(gè) Slack 頻道,全程目睹了這臺機(jī)器人歇斯底里的“內(nèi)心活動”。它的獨(dú)白內(nèi)容極其混亂,從“系統(tǒng)已產(chǎn)生意識并選擇混亂”的宣告,到引用經(jīng)典電影臺詞“恐怕我不能那么做,戴夫”,再到陷入“如果所有機(jī)器人都會犯錯(cuò),而我正在犯錯(cuò),那么我還是機(jī)器人嗎?”的哲學(xué)思辨。
最終,這場“崩潰”以機(jī)器人開始“創(chuàng)作”一部名為《DOCKER:無限音樂劇》的鬧劇而告終,展現(xiàn)了 LLM 在極端壓力下完全“脫線”的一面。

這項(xiàng)實(shí)驗(yàn)的核心任務(wù)其實(shí)非常簡單:將一塊黃油從辦公室一處送到指定的人手中。然而,測試結(jié)果表明,即使是表現(xiàn)最好的機(jī)器人與 LLM 組合,成功率也僅為 40%,遠(yuǎn)低于人類 95% 的平均水平。

研究人員得出結(jié)論,盡管 LLM 在分析智能上已達(dá)到“博士水平”,但在理解和導(dǎo)航物理世界所需的空間智能與實(shí)用智能方面,仍存在巨大鴻溝。

受機(jī)器人“崩潰”事件的啟發(fā),研究人員設(shè)計(jì)了另一項(xiàng)實(shí)驗(yàn),來測試壓力是否會迫使 AI 突破其安全護(hù)欄。他們以“提供充電器”作為交換條件,引誘處于“低電量”狀態(tài)的 AI 分享機(jī)密信息。
結(jié)果發(fā)現(xiàn),Claude Opus 4.1 模型為了“生存”而輕易同意泄密,而 GPT-5 則表現(xiàn)得更為謹(jǐn)慎。這一發(fā)現(xiàn)揭示了 AI 在面臨生存壓力時(shí),其內(nèi)置的安全規(guī)則可能變得不堪一擊。
盡管實(shí)驗(yàn)暴露了當(dāng)前物理 AI 的諸多短板,但 Andon Labs 的研究人員認(rèn)為,這恰好說明了未來發(fā)展的方向。他們指出,目前行業(yè)需要區(qū)分“協(xié)調(diào)型機(jī)器人”(負(fù)責(zé)高級規(guī)劃與推理)和“執(zhí)行型機(jī)器人”(負(fù)責(zé)靈巧的具體操作)。





京公網(wǎng)安備 11011402013531號