
盡管我們有時稱Gemini和 ChatGPT等聊天機器人為"機器人",但生成式 AI正在真正的物理機器人中發(fā)揮越來越重要的作用。繼今年早些時候發(fā)布Gemini Robotics后,谷歌 DeepMind現(xiàn)在推出了一款新的設(shè)備端VLA(視覺語言動作)模型來控制機器人。與之前的版本不同,這個版本不依賴云端組件,讓機器人能夠完全自主運行。
谷歌DeepMind機器人部門負責(zé)人Carolina Parada表示,這種AI機器人方法可以讓機器人在復(fù)雜環(huán)境中更加可靠。這也是谷歌機器人模型的首個版本,開發(fā)者可以根據(jù)特定用途對其進行調(diào)優(yōu)。
機器人技術(shù)對AI來說是一個獨特的挑戰(zhàn),因為機器人不僅存在于物理世界中,還會改變其環(huán)境。無論是讓機器人移動積木還是系鞋帶,都很難預(yù)測機器人可能遇到的每種情況。傳統(tǒng)的通過強化學(xué)習(xí)訓(xùn)練機器人動作的方法非常緩慢,但生成式AI允許更大程度的泛化。
"它利用Gemini的多模態(tài)世界理解能力來完成全新的任務(wù),"Carolina Parada解釋道。"這使得Gemini不僅能夠生成文本、寫詩、總結(jié)文章,還能編寫代碼、生成圖像,同樣也能生成機器人動作。"
通用機器人,無需云端支持
在之前的Gemini Robotics版本中(這仍然是谷歌機器人技術(shù)的"最佳"版本),平臺運行混合系統(tǒng),機器人上有一個小模型,云端運行一個更大的模型。你可能看過聊天機器人在生成輸出時"思考"幾秒鐘,但機器人需要快速反應(yīng)。如果你告訴機器人拾取并移動物體,你不希望它在生成每個步驟時暫停。本地模型允許快速適應(yīng),而基于服務(wù)器的模型可以幫助處理復(fù)雜的推理任務(wù)。谷歌DeepMind現(xiàn)在將本地模型作為獨立的VLA發(fā)布,它的表現(xiàn)出人意料地強大。
新的Gemini Robotics設(shè)備端模型的準(zhǔn)確性僅略低于混合版本。據(jù)Parada介紹,許多任務(wù)可以直接使用。"當(dāng)我們與機器人互動時,發(fā)現(xiàn)它們在理解新情況方面能力驚人,"Parada告訴Ars。
通過發(fā)布帶有完整SDK的模型,團隊希望開發(fā)者能為Gemini驅(qū)動的機器人提供新任務(wù)并展示新環(huán)境,這可能會揭示模型標(biāo)準(zhǔn)調(diào)優(yōu)無法處理的動作。使用SDK,機器人研究人員能夠僅用50到100次演示就讓VLA適應(yīng)新任務(wù)。
在AI機器人技術(shù)中,"演示"與其他AI研究領(lǐng)域有所不同。Parada解釋說,演示通常涉及遠程操作機器人——手動控制機械設(shè)備完成任務(wù)來調(diào)優(yōu)模型,使其能夠自主處理該任務(wù)。雖然合成數(shù)據(jù)是谷歌訓(xùn)練的一個要素,但它不能替代真實數(shù)據(jù)。"我們?nèi)匀话l(fā)現(xiàn),對于最復(fù)雜、最精細的行為,我們需要真實數(shù)據(jù),"Parada說。"但通過仿真可以做很多事情。"
然而,這些高度復(fù)雜的行為可能超出了設(shè)備端VLA的能力范圍。它應(yīng)該能夠毫無問題地處理簡單動作,如系鞋帶(這對AI機器人來說傳統(tǒng)上是一項困難任務(wù))或折疊襯衫。但是,如果你想讓機器人為你制作三明治,它可能需要更強大的模型來進行必要的多步推理,將面包放在正確的位置。
團隊認為Gemini Robotics設(shè)備端版本非常適合云連接不穩(wěn)定或不存在的環(huán)境。在本地處理機器人的視覺數(shù)據(jù)對隱私保護也更有利,例如在醫(yī)療環(huán)境中。
構(gòu)建安全機器人
無論是提供危險信息的聊天機器人還是像終結(jié)者一樣的機器人,AI系統(tǒng)的安全性始終是一個關(guān)注點。我們都見過生成式AI聊天機器人和圖像生成器在輸出中產(chǎn)生虛假信息,驅(qū)動Gemini Robotics的生成系統(tǒng)也不例外——模型不是每次都能做對,但給模型一個帶有冰冷金屬抓手的物理實體讓問題變得更加棘手。
為確保機器人行為安全,Gemini Robotics采用多層方法。"通過完整的Gemini Robotics,你連接到一個能夠推理什么是安全行為的模型,"Parada說。"然后讓它與實際產(chǎn)生選項的VLA對話,接著VLA調(diào)用低級控制器,后者通常具有安全關(guān)鍵組件,比如可以施加多大力量或手臂可以多快移動。"
重要的是,新的設(shè)備端模型只是一個VLA,所以開發(fā)者需要自己構(gòu)建安全機制。不過,谷歌建議他們復(fù)制Gemini團隊的做法。建議早期測試程序中的開發(fā)者將系統(tǒng)連接到標(biāo)準(zhǔn)的Gemini Live API,其中包含安全層。他們還應(yīng)該實施低級控制器進行關(guān)鍵安全檢查。
任何有興趣測試Gemini Robotics設(shè)備端版本的人都應(yīng)申請加入谷歌的可信測試程序。谷歌的Carolina Parada表示,過去三年中機器人技術(shù)取得了許多突破,這只是開始——當(dāng)前發(fā)布的Gemini Robotics仍基于Gemini 2.0。Parada指出,Gemini Robotics團隊通常比Gemini開發(fā)落后一個版本,而Gemini 2.5被認為在聊天機器人功能方面有了巨大改進。也許機器人也會如此。





京公網(wǎng)安備 11011402013531號