作者 | Anthony Alford
譯者 | 劉雅夢
策劃 | 丁曉昀
谷歌 DeepMind 推出了 Gemini Robotics On-Device,這是一款視覺 - 語言 - 行動(VLA)基礎模型,旨在在機器人硬件上本地運行。該模型具有低延遲推理能力,并且可以針對特定任務進行微調,只需 50 個演示即可。
Gemini Robotics On-Device 是 Gemini Robotics 家族系列的最新迭代,也是首個可以進行微調的版本。它適用于因低延遲或缺乏網絡而需要在機器人硬件上本地運行的應用程序。該模型遵循自然語言指令,并使用視覺來尋找和推理其環境中的對象。DeepMind 在雙臂 Aloha 機器人上訓練了該模型,但也在其他幾個機器人平臺上進行了評估,顯示出它能夠在新硬件上處理復雜任務。DeepMind 表示:
Gemini Robotics On-Device 標志著在使強大的機器人模型更具易用性和適應性方面方面邁出了一步——我們的本地解決方案將幫助機器人社區解決了重要的延遲和連接性挑戰。Gemini Robotics SDK 將進一步加速創新,允許開發者根據他們自己的特定需求調整模型。通過我們的可信測試程序注冊以獲取模型和 SDK 訪問權限。隨著我們繼續探索將 AI 帶入物理世界的未來,我們很高興看到機器人界將使用這些新工具構建什么。
今年早些時候,DeepMind 首次宣布了 Gemini Robotics 家族系列。基于谷歌的 Gemini 2.0 LLMs,Gemini Robotics 包括一個用于物理行動的輸出模態。除了這些模型,DeepMind 還發布了幾個基準測試,包括用于評估機器人安全機制的 ASIMOV 基準測試(ASIMOV Benchmark )和用于測量視覺推理能力的具身推理問答(Embodied Reasoning QA,ERQA)評估數據集。
DeepMind 測試了他們的模型快速適應新任務的能力。對于 7 種不同的任務,如準備食物和玩牌,他們對模型進行了最多 100 次演示以進行微調;平均而言,使用他們的模型,機器人成功完成任務的時間超過 60%,擊敗了“當前最佳的本地 VLA”。然而,Gemini Robotics 模型的離線版本表現更好,接近 80%。
在有關 Gemini Robotics On-Device 的 Hacker News 討論中,一位用戶寫道:
我在過去幾個月里一直在研究 VLAs,我確信它們能成為一個大事件,即它們很可能是大家期待的“機器人技術的 chatgpt 時刻”。多模態 LLMs 已經內置了對圖像和文本的大量理解,所以 VLAs 只是常規的 MMLLMs,它們被微調以輸出可以饋送到機器人的特定指令序列……精妙之處在于,盡管目前每個人都在關注機器人手臂操縱物體,但沒有理由認為這種方法不能應用于其他任何任務。想要一臺智能割草機嗎?它已經理解了“草坪”、“割草”、“不要破壞路徑上的玩具”等,只需要微調一下如何正確操作割草機。
Gemini Robotics On-Device 尚未廣泛可用,但感興趣的開發人員 可以注冊等待名單。網站上還有一個相關模型 Gemini Robotics-ER 的 互動演示。Gemini Robotics SDK 可在 GitHub 上找到。





京公網安備 11011402013531號