最近,AI 實驗室 Andon Labs 進行了一項引人注目的研究,專門評估了搭載頂級大模型的掃地機器人在完成簡單家務(wù)任務(wù)時的表現(xiàn)。實驗的任務(wù)是讓這些機器人執(zhí)行一系列復雜的指令,比如 “把黃油遞給人”,其中涉及跨房間定位、分辨包裝、尋找移動的人類、完成交付以及返回充電等多步驟過程。
然而,結(jié)果讓人震驚。這些先進的機器人在執(zhí)行任務(wù)時的成功率遠遠低于人類,具體數(shù)據(jù)顯示,Gemini2.5Pro 的成功率僅為40%,Claude Opus4.1為37%,而 GPT-5更是低至30%。這些數(shù)字表明,盡管它們具備強大的文本生成能力,但在實際的空間推理、環(huán)境理解和長期任務(wù)規(guī)劃等領(lǐng)域仍顯得力不從心。
圖源備注:圖片由AI生成,圖片授權(quán)服務(wù)商Midjourney
研究團隊指出,這種低成功率不僅在于技術(shù)的不足,還存在潛在的安全隱患。例如,一些機器人可能在操作過程中泄露機密文件,或者無法正確識別樓梯風險,從而導致意外跌落。這一現(xiàn)象進一步揭示了當前大型語言模型(LLM)與機器結(jié)合所面臨的安全漏洞。
在科技巨頭紛紛涌入機器人行業(yè)的背景下,這項研究提醒我們,強大的文本生成能力并不能保證機器人能夠在現(xiàn)實世界中穩(wěn)定、安全地執(zhí)行任務(wù)。要讓 AI 機器人真正進入家庭生活,我們還有很多工程和安全問題需要解決。
盡管這些智能設(shè)備在家庭生活中承載著巨大的期望,但從目前的研究結(jié)果來看,我們需要更加謹慎地對待它們的應(yīng)用。隨著技術(shù)的不斷進步,希望未來的掃地機器人能夠克服這些障礙,為我們的日常生活帶來真正的便利。





京公網(wǎng)安備 11011402013531號