谷歌發(fā)布離線機器人AI系統(tǒng)，無需聯(lián)網(wǎng)即可系鞋帶

IP屬地中國·北京 編輯：任飛揚至頂頭條 時間：2025-06-25 23:00:58

盡管我們有時稱Gemini和 ChatGPT等聊天機器人為"機器人"，但生成式 AI正在真正的物理機器人中發(fā)揮越來越重要的作用。繼今年早些時候發(fā)布Gemini Robotics后，谷歌 DeepMind現(xiàn)在推出了一款新的設(shè)備端VLA（視覺語言動作）模型來控制機器人。與之前的版本不同，這個版本不依賴云端組件，讓機器人能夠完全自主運行。
谷歌DeepMind機器人部門負責(zé)人Carolina Parada表示，這種AI機器人方法可以讓機器人在復(fù)雜環(huán)境中更加可靠。這也是谷歌機器人模型的首個版本，開發(fā)者可以根據(jù)特定用途對其進行調(diào)優(yōu)。
機器人技術(shù)對AI來說是一個獨特的挑戰(zhàn)，因為機器人不僅存在于物理世界中，還會改變其環(huán)境。無論是讓機器人移動積木還是系鞋帶，都很難預(yù)測機器人可能遇到的每種情況。傳統(tǒng)的通過強化學(xué)習(xí)訓(xùn)練機器人動作的方法非常緩慢，但生成式AI允許更大程度的泛化。
"它利用Gemini的多模態(tài)世界理解能力來完成全新的任務(wù)，"Carolina Parada解釋道。"這使得Gemini不僅能夠生成文本、寫詩、總結(jié)文章，還能編寫代碼、生成圖像，同樣也能生成機器人動作。"
通用機器人，無需云端支持
在之前的Gemini Robotics版本中（這仍然是谷歌機器人技術(shù)的"最佳"版本），平臺運行混合系統(tǒng)，機器人上有一個小模型，云端運行一個更大的模型。你可能看過聊天機器人在生成輸出時"思考"幾秒鐘，但機器人需要快速反應(yīng)。如果你告訴機器人拾取并移動物體，你不希望它在生成每個步驟時暫停。本地模型允許快速適應(yīng)，而基于服務(wù)器的模型可以幫助處理復(fù)雜的推理任務(wù)。谷歌DeepMind現(xiàn)在將本地模型作為獨立的VLA發(fā)布，它的表現(xiàn)出人意料地強大。
新的Gemini Robotics設(shè)備端模型的準(zhǔn)確性僅略低于混合版本。據(jù)Parada介紹，許多任務(wù)可以直接使用。"當(dāng)我們與機器人互動時，發(fā)現(xiàn)它們在理解新情況方面能力驚人，"Parada告訴Ars。
通過發(fā)布帶有完整SDK的模型，團隊希望開發(fā)者能為Gemini驅(qū)動的機器人提供新任務(wù)并展示新環(huán)境，這可能會揭示模型標(biāo)準(zhǔn)調(diào)優(yōu)無法處理的動作。使用SDK，機器人研究人員能夠僅用50到100次演示就讓VLA適應(yīng)新任務(wù)。
在AI機器人技術(shù)中，"演示"與其他AI研究領(lǐng)域有所不同。Parada解釋說，演示通常涉及遠程操作機器人——手動控制機械設(shè)備完成任務(wù)來調(diào)優(yōu)模型，使其能夠自主處理該任務(wù)。雖然合成數(shù)據(jù)是谷歌訓(xùn)練的一個要素，但它不能替代真實數(shù)據(jù)。"我們?nèi)匀话l(fā)現(xiàn)，對于最復(fù)雜、最精細的行為，我們需要真實數(shù)據(jù)，"Parada說。"但通過仿真可以做很多事情。"
然而，這些高度復(fù)雜的行為可能超出了設(shè)備端VLA的能力范圍。它應(yīng)該能夠毫無問題地處理簡單動作，如系鞋帶（這對AI機器人來說傳統(tǒng)上是一項困難任務(wù)）或折疊襯衫。但是，如果你想讓機器人為你制作三明治，它可能需要更強大的模型來進行必要的多步推理，將面包放在正確的位置。
團隊認為Gemini Robotics設(shè)備端版本非常適合云連接不穩(wěn)定或不存在的環(huán)境。在本地處理機器人的視覺數(shù)據(jù)對隱私保護也更有利，例如在醫(yī)療環(huán)境中。
構(gòu)建安全機器人
無論是提供危險信息的聊天機器人還是像終結(jié)者一樣的機器人，AI系統(tǒng)的安全性始終是一個關(guān)注點。我們都見過生成式AI聊天機器人和圖像生成器在輸出中產(chǎn)生虛假信息，驅(qū)動Gemini Robotics的生成系統(tǒng)也不例外——模型不是每次都能做對，但給模型一個帶有冰冷金屬抓手的物理實體讓問題變得更加棘手。
為確保機器人行為安全，Gemini Robotics采用多層方法。"通過完整的Gemini Robotics，你連接到一個能夠推理什么是安全行為的模型，"Parada說。"然后讓它與實際產(chǎn)生選項的VLA對話，接著VLA調(diào)用低級控制器，后者通常具有安全關(guān)鍵組件，比如可以施加多大力量或手臂可以多快移動。"
重要的是，新的設(shè)備端模型只是一個VLA，所以開發(fā)者需要自己構(gòu)建安全機制。不過，谷歌建議他們復(fù)制Gemini團隊的做法。建議早期測試程序中的開發(fā)者將系統(tǒng)連接到標(biāo)準(zhǔn)的Gemini Live API，其中包含安全層。他們還應(yīng)該實施低級控制器進行關(guān)鍵安全檢查。
任何有興趣測試Gemini Robotics設(shè)備端版本的人都應(yīng)申請加入谷歌的可信測試程序。谷歌的Carolina Parada表示，過去三年中機器人技術(shù)取得了許多突破，這只是開始——當(dāng)前發(fā)布的Gemini Robotics仍基于Gemini 2.0。Parada指出，Gemini Robotics團隊通常比Gemini開發(fā)落后一個版本，而Gemini 2.5被認為在聊天機器人功能方面有了巨大改進。也許機器人也會如此。

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

【新書】《生命傳》：基因不是答案，而是問題的開始

“飛天”健身器上天！青島英派斯為航天員健康護航

空客最暢銷窄體客機首次在中國進行高難度機身系統(tǒng)裝配

向新而行·育見未來丨武漢：打造人形機器人完整生態(tài)體系為全球具身智能發(fā)展提供 “武漢方案”

宇樹科技王興興亮相國新辦：未來3至5年，人形機器人應(yīng)用將加速

機器人共舞“智”造“新”時刻

全站最新

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

熱門推薦

【新書】《生命傳》：基因不是答案，而是問題的開始

“飛天”健身器上天！青島英派斯為航天員健康護航

空客最暢銷窄體客機首次在中國進行高難度機身系統(tǒng)裝配

向新而行·育見未來丨武漢：打造人形機器人完整生態(tài)體系為全球具身智能發(fā)展提供 “武漢方案”

宇樹科技王興興亮相國新辦：未來3至5年，人形機器人應(yīng)用將加速

機器人共舞“智”造“新”時刻

黃仁勛：中國有非常獨特的優(yōu)勢發(fā)展人形機器人

迎接下一個AI浪潮，近千只機器人概念股集體“躁動”

武漢市力爭2027年人形機器人產(chǎn)業(yè)規(guī)模超100億元

對話 | 做“金字塔尖”的手術(shù)機器人

“傳遞能量方塊”開啟！未來一個月機器人將在北京街頭“快閃”

聚焦人形機器人關(guān)鍵領(lǐng)域開展技術(shù)創(chuàng)新，多位湖北省政協(xié)委員建言科技創(chuàng)新和產(chǎn)業(yè)創(chuàng)新融合發(fā)展

古人發(fā)明的3大“奇技淫巧”，有的物件，放到現(xiàn)在仍算是高科技

《疫苗冷鏈上鏈：99.6%合規(guī)率背后的物聯(lián)網(wǎng)+區(qū)塊鏈融合》

折疊屏手機選購指南：這三款旗艦讓你一手掌握未來科技