機(jī)器之心報(bào)道
機(jī)器之心編輯部
隨著通用型(Generalist)機(jī)器人策略的發(fā)展,機(jī)器人能夠通過自然語言指令在多種環(huán)境中完成各類任務(wù),但這也帶來了顯著的挑戰(zhàn)。
一方面,真實(shí)世界評估成本極高,需要系統(tǒng)性地覆蓋常規(guī)場景、極端情況、分布外(OOD)環(huán)境以及各類安全風(fēng)險,通常需要進(jìn)行成百上千次真實(shí)硬件實(shí)驗(yàn),不僅耗時、昂貴,還可能存在操作風(fēng)險。
另一方面,安全性評估尤為棘手,許多潛在的不安全行為(例如誤夾人手、損壞設(shè)備或引發(fā)環(huán)境危險)本身就不適合在真實(shí)環(huán)境中反復(fù)測試,使得傳統(tǒng)的硬件評估方法在安全場景下往往難以實(shí)施。
傳統(tǒng)的物理仿真器雖然有幫助,但在真實(shí)感、多樣性、搭建成本和視覺一致性方面仍存在明顯瓶頸。
另外,前沿視頻模型為世界仿真提供了一種替代路徑,有望解決前文提到的諸多挑戰(zhàn)。然而,要真正發(fā)揮這一潛力面臨很多困難,主要原因包括:
1)在閉環(huán)、動作條件生成中容易產(chǎn)生偽影;
2)對接觸動力學(xué)(如物體接觸、碰撞)的仿真十分困難;
3)現(xiàn)代策略架構(gòu)對多視角一致性提出了較高要求,而這在視頻生成中并不容易滿足。
![]()
論文地址:https://arxiv.org/pdf/2512.10675項(xiàng)目主頁:https://veo-robotics.github.io/論文標(biāo)題:evaluating Gemini Robotics Policies in a Veo World Simulator
本文,來自 Google DeepMind Gemini Robotics 團(tuán)隊(duì)研究者提出了一種基于視頻建模的機(jī)器人策略評估系統(tǒng),能夠支持機(jī)器人領(lǐng)域中完整范圍的策略評估需求,包括分布內(nèi)評估、分布外泛化評估,以及紅隊(duì)測試。

具體而言,該系統(tǒng)基于最先進(jìn)的視頻生成模型 Veo,實(shí)現(xiàn)了帶動作條件約束、具備多視角一致性的視頻仿真,不僅在視覺上高度真實(shí),還能夠?qū)C(jī)器人細(xì)粒度控制做出合理響應(yīng)。同時,該系統(tǒng)集成了生成式編輯技術(shù),使得無需搭建真實(shí)物理場景,就能生成包含新物體、新視覺背景以及安全關(guān)鍵元素的多樣化、逼真的真實(shí)世界場景變體。
通過 1600 余次真實(shí)世界實(shí)驗(yàn),并在八個通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上驗(yàn)證了視頻模型預(yù)測結(jié)果的有效性。實(shí)驗(yàn)結(jié)果表明,該系統(tǒng)在保持底層視頻基礎(chǔ)模型原有能力的同時,達(dá)到了進(jìn)行嚴(yán)格機(jī)器人評估所需的高保真度。
盡管視頻建模在機(jī)器人領(lǐng)域仍處于早期階段,但本文清晰地展示了一條利用視頻仿真世界,實(shí)現(xiàn)機(jī)器人策略泛化能力與安全性可擴(kuò)展評估的可行路徑。
![]()
視頻鏈接:https://mp.weixin.qq.com/s/qiRQSruwI2ESfQxHsceUpw
方法介紹
在模型架構(gòu)方面,本文采用 Veo 2 作為基礎(chǔ)模型。
在數(shù)據(jù)方面,模型在一個包含大量視頻、圖像及其對應(yīng)標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練。這些文本描述由 Gemini 模型自動生成,并且所有數(shù)據(jù)都經(jīng)過了嚴(yán)格的預(yù)處理與整理。
此外,本文在一個大規(guī)模機(jī)器人數(shù)據(jù)集上對預(yù)訓(xùn)練的 Veo2 模型進(jìn)行了微調(diào)。該數(shù)據(jù)集包含多種任務(wù),覆蓋了在大量不同場景中所需的廣泛操作技能。圖 2(上)展示了一個示例,將渲染后的機(jī)器人位姿疊加在生成的視頻幀之上的效果。
![]()
最后,為減輕部分觀測帶來的影響,本文將系統(tǒng)中的四個相機(jī)視角(包括俯視視角、側(cè)視視角,以及左右腕部視角)拼接成一個整體輸入。然后對 Veo2 進(jìn)行微調(diào),使其能夠在給定初始幀和未來機(jī)器人位姿的條件下,生成這種拼接后的多視角未來幀。圖 2(下)展示了一個由該模型生成的多視角視頻幀示例。

實(shí)驗(yàn)
本文通過 1600 余次真實(shí)世界評估,在八個通用型策略檢查點(diǎn)和五項(xiàng)任務(wù)上進(jìn)行了實(shí)驗(yàn)。
在基于 Gemini Robotics On-Device(GROD)模型訓(xùn)練了端到端的 VLA 策略。隨后,使用經(jīng)過微調(diào)的 Veo(Robotics)視頻模型,在分布內(nèi)場景中對這些策略進(jìn)行評估。
指令:把右上角的紅色葡萄放入灰色盒子的左上角隔間。

指令:把樂高積木放進(jìn)樂高積木袋里。
指令:把棕色的長條物放進(jìn)午餐包的頂部口袋里。
研究中,作者還使用 Veo(Robotics)模型,對 8 個不同版本的 VLA 機(jī)器人策略進(jìn)行性能預(yù)測,然后把這些預(yù)測結(jié)果與機(jī)器人在真實(shí)世界中的實(shí)際測試結(jié)果進(jìn)行對比,以檢驗(yàn)視頻模型預(yù)測是否準(zhǔn)確、可靠。如下 demo 展示了 Veo(Robotics)針對兩種策略的實(shí)際運(yùn)行示例。

下圖比較了視頻模擬預(yù)測結(jié)果與實(shí)際成功率。可以觀察到,Veo(Robotics)能夠根據(jù)性能對不同的策略進(jìn)行排名。本文還發(fā)現(xiàn)預(yù)測成功率與實(shí)際成功率之間存在很強(qiáng)的相關(guān)性。
![]()
接下來作者測試了模型分布外泛化能力。通過改造真實(shí)場景來制造新情況,用視頻模型提前預(yù)測機(jī)器人在陌生環(huán)境中的表現(xiàn),并用真實(shí)實(shí)驗(yàn)驗(yàn)證這些預(yù)測是否靠譜。

最后,本文證明了 Veo(Robotics)世界模型可以用來做安全紅隊(duì)測試。也就是說,不需要先讓機(jī)器人在真實(shí)世界中冒險,就可以在視頻模擬的世界里主動尋找策略可能出現(xiàn)的不安全行為。
例如合上電腦:

快速抓取紅色積木:

了解更多內(nèi)容,請參考原論文。



京公網(wǎng)安備 11011402013531號