
![]()
“具身數(shù)據(jù)是未來(lái)幾年一個(gè)較有確定性的好賽道。”
作者丨高景輝
編輯丨馬曉寧
具身智能作為連接虛擬模型與物理世界的核心賽道,正成為行業(yè)競(jìng)逐的焦點(diǎn)。而第八屆 GAIR 全球人工智能與機(jī)器人大會(huì),便聚焦人工智能與機(jī)器人領(lǐng)域的前沿突破與產(chǎn)業(yè)落地,于日前圓滿落幕。
本次大會(huì)上,深圳極數(shù)迭代科技創(chuàng)始人佟顯喬博士,帶來(lái)了關(guān)于具身智能數(shù)據(jù)領(lǐng)域的深度分享。
在語(yǔ)言大模型憑借海量數(shù)據(jù)實(shí)現(xiàn)爆發(fā)式增長(zhǎng)的背景下,具身智能與機(jī)器人領(lǐng)域卻面臨著數(shù)據(jù)供給的顯著缺口 —— 現(xiàn)有數(shù)據(jù)集規(guī)模僅達(dá)數(shù)千至十幾萬(wàn)小時(shí),與語(yǔ)言模型的海量數(shù)據(jù)儲(chǔ)備相去甚遠(yuǎn)。數(shù)據(jù)作為具身智能發(fā)展的核心基石,其稀缺性、高成本與碎片化問(wèn)題,已成為制約機(jī)器人泛化能力提升的關(guān)鍵瓶頸。
而佟顯喬博士結(jié)合自身深耕行業(yè)的實(shí)踐經(jīng)驗(yàn),從具身智能數(shù)據(jù)的核心價(jià)值、當(dāng)前行業(yè)面臨的三大瓶頸、數(shù)據(jù)工程的系統(tǒng)屬性,到針對(duì)性的產(chǎn)品解決方案展開全面闡述,為行業(yè)破解數(shù)據(jù)難題、推動(dòng)具身智能規(guī)模化發(fā)展提供了極具參考價(jià)值的思路。
以下為佟顯喬博士的演講內(nèi)容,雷峰網(wǎng)做了不改變?cè)獾木庉嫛?/p>
01
具身智能的數(shù)據(jù)價(jià)值
首先,既然大家都來(lái)到GAIR大會(huì)數(shù)據(jù)專場(chǎng),就應(yīng)該知道從上一波語(yǔ)言大模型的發(fā)展來(lái)看,數(shù)據(jù)的需求量是特別大的。而在具身智能、數(shù)據(jù)和機(jī)器人這個(gè)領(lǐng)域,現(xiàn)在的這些數(shù)據(jù)其實(shí)是遠(yuǎn)遠(yuǎn)不夠的。目前普遍的數(shù)據(jù)集,數(shù)據(jù)量才幾千到上萬(wàn)小時(shí),最近美國(guó)的幾家公司也才推進(jìn)到十幾萬(wàn)小時(shí)。相比于語(yǔ)言模型那種動(dòng)輒成千上萬(wàn)的海量互聯(lián)網(wǎng)數(shù)據(jù),差距是很明顯的。
![]()
我覺得具身數(shù)據(jù)是未來(lái)幾年一個(gè)較有確定性的好賽道,雖然它現(xiàn)在的數(shù)據(jù)量非常少,但我們可以預(yù)見,不管未來(lái)具身模型怎么發(fā)展、本體怎么迭代,數(shù)據(jù)始終是基石,所以未來(lái)幾年的數(shù)據(jù)體量會(huì)非常大。因此我們說(shuō),具身數(shù)據(jù)服務(wù)會(huì)是下一個(gè) Scale AI,或者說(shuō)是機(jī)器人領(lǐng)域里一個(gè)比較確定性的數(shù)據(jù)服務(wù)機(jī)會(huì)。
![]()
02
具身智能的數(shù)據(jù)瓶頸
目前具身數(shù)據(jù)的瓶頸有哪些呢?其實(shí)類比 Scaling Law 來(lái)看,現(xiàn)在機(jī)器人的泛化能力還差很多。主要問(wèn)題是模仿學(xué)習(xí)需要適配不同的本體、不同的數(shù)據(jù)、不同的場(chǎng)景,而現(xiàn)在我們的數(shù)據(jù)采集能力、空間泛化能力都是極其不夠的。根據(jù)一些學(xué)術(shù)論文的研究,泛化能力其實(shí)和數(shù)據(jù)數(shù)量呈冪律關(guān)系。根本問(wèn)題在于,現(xiàn)在我們想讓機(jī)器人達(dá)到比較好的任務(wù)成功率,以現(xiàn)有數(shù)據(jù)量來(lái)看遠(yuǎn)遠(yuǎn)不夠。而且最近的一些工作也已經(jīng)證明,在機(jī)器人領(lǐng)域,Scaling Law 其實(shí)仍然是存在的,所以我們追求的還是 “大力出奇跡”——更多的數(shù)據(jù)大概率能帶來(lái)更好的效果,所以一定要解決數(shù)據(jù)需求的瓶頸。
![]()
然后說(shuō)一下具身智能的技術(shù)路線。原本我們說(shuō)的 “小腦加大腦” 路線,對(duì)應(yīng)的就是 system 1 和 system 2,右邊是端到端的數(shù)據(jù)路線。它雖然分成了不同的技術(shù)路線,但中間這塊相當(dāng)于把小腦的部分拆成了一些技能,或者說(shuō)是通用技能。不管是這種分層的路線,還是端到端的路線,對(duì)具身數(shù)據(jù)的需求都是非常大的。
![]()
從這個(gè)角度來(lái)看,我們逐一分析一下:system 2 就是 “大腦”,主要負(fù)責(zé)理解物理世界的常識(shí)、理解人類的指令,把一個(gè)相對(duì)復(fù)雜的任務(wù)拆分成細(xì)節(jié)任務(wù),這些都可以看作是邏輯思考;而像小腦或者說(shuō)技能層面,就包括抓取、按壓這些動(dòng)作,都需要人類給它示教數(shù)據(jù),還有機(jī)器人的感知數(shù)據(jù)。它要泛化到不同的場(chǎng)景,就得多覆蓋各種不同的場(chǎng)景。而且對(duì)于小腦來(lái)說(shuō),很多都需要人類標(biāo)注,就像我們做自動(dòng)駕駛需要標(biāo)框框一樣,做機(jī)器人數(shù)據(jù),你也得標(biāo)關(guān)鍵幀、標(biāo)它的動(dòng)作、標(biāo)它在干什么;端到端訓(xùn)練就是大腦加小腦的整合,不同的流派有不同的方法,但歸根結(jié)底,我們都需要不同的數(shù)據(jù),需要人的參與,需要覆蓋不同的場(chǎng)景、實(shí)現(xiàn)不同任務(wù)的泛化。
![]()
從定性分析來(lái)看,其實(shí)就是需要大腦的數(shù)據(jù)加上小腦的數(shù)據(jù),再乘以不同的機(jī)器人類別——因?yàn)楝F(xiàn)在跨本體的數(shù)據(jù)復(fù)用還是很難的。要滿足這個(gè)需求,有兩種方式:一種是放大人類的標(biāo)注和演示,這就需要巨大的成本,因?yàn)榭赡苄枰嗖煌谋倔w,投入會(huì)非常大;另一種是做更多泛化的任務(wù)和場(chǎng)景,這同樣是一筆很大的成本。
所以這些瓶頸主要集中在三點(diǎn):第一是成本飛漲,現(xiàn)在很難承擔(dān)大規(guī)模高質(zhì)量的數(shù)據(jù)采集成本,不管是用動(dòng)捕還是用真機(jī)采集數(shù)據(jù),都是很大的投入;第二是因?yàn)楝F(xiàn)在模型的跨本體能力弱,所以數(shù)據(jù)形成了很多數(shù)據(jù)孤島,也很難制定統(tǒng)一的標(biāo)準(zhǔn);第三是很難評(píng)估現(xiàn)在這些數(shù)據(jù)的實(shí)際能力,這就是我們面臨的主要數(shù)據(jù)瓶頸。
![]()
03
具身智能數(shù)據(jù)工程
具身智能本身不是簡(jiǎn)單的訓(xùn)模型,具身智能數(shù)據(jù)本身也是一項(xiàng)工程化工作。它從底層的采集設(shè)計(jì),到數(shù)據(jù)標(biāo)準(zhǔn)的確立,再到真實(shí)環(huán)境、仿真環(huán)境下怎么采集、怎么部署,都是一系列的工程工作。
![]()
現(xiàn)在數(shù)據(jù)集的現(xiàn)狀是,有各種不同的數(shù)據(jù)集,包括操作類、移動(dòng)類、邏輯語(yǔ)義類、導(dǎo)航類的數(shù)據(jù),但是大家都是各做各的。以后會(huì)不會(huì)有一個(gè)通用模型,把這些數(shù)據(jù)都聯(lián)系到一起?目前來(lái)看還不知道,或者說(shuō)還做不到。
![]()
再說(shuō)一下現(xiàn)在的真機(jī)采集和仿真采集。真機(jī)采集現(xiàn)在有很多方式,比如遙操、示教,像右邊這種用末端執(zhí)行器動(dòng)捕人類視覺數(shù)據(jù)來(lái)學(xué)習(xí),還有下面這種遙操同構(gòu)的遙操視學(xué)光冠操作,各種不同的數(shù)據(jù)采集方式都有。現(xiàn)在沒法說(shuō)哪個(gè)數(shù)據(jù)好、哪個(gè)數(shù)據(jù)不好,它們?cè)诓煌S度上都有各自的優(yōu)勢(shì)和劣勢(shì),不同的團(tuán)隊(duì)、不同的公司都在不同方向上做探索。
![]()
下一部分是仿真數(shù)據(jù),目前在軌跡合成、姿態(tài)合成、預(yù)測(cè)生成、決策生成這些方面,都有不同的探索。這個(gè)方向上大家也在嘗試不同的東西,因?yàn)橛幸恍﹫F(tuán)隊(duì)認(rèn)為,用仿真數(shù)據(jù)可能比真機(jī)數(shù)據(jù)能達(dá)到更好的效果。這就是真實(shí)數(shù)據(jù)和仿真數(shù)據(jù)的現(xiàn)狀。
![]()
那我們?cè)趺唇鉀Q這些問(wèn)題呢?目前來(lái)看沒有一個(gè)通用的解法。在我們看來(lái),就是針對(duì)不同的場(chǎng)景做不同的系統(tǒng)設(shè)計(jì),在高效性和可靠性上找到最佳平衡。我們希望能確立一些數(shù)據(jù)標(biāo)準(zhǔn),在真機(jī)數(shù)據(jù)、真實(shí)世界數(shù)據(jù)或者仿真數(shù)據(jù)上,都能實(shí)現(xiàn)成本降低和效率提升,最后在部署時(shí),對(duì)接不同的機(jī)器人、不同的場(chǎng)景也能做到一些優(yōu)化。
![]()
那數(shù)據(jù)孤島問(wèn)題怎么解決?從圖表上來(lái)看,縱軸代表數(shù)據(jù)的有效性,或者說(shuō)越符合真機(jī)的數(shù)據(jù),比如遙操的固定真機(jī),質(zhì)量是最高的;橫軸代表數(shù)據(jù)的通用性,比如人類的視頻數(shù)據(jù),數(shù)據(jù)量最大,但目前來(lái)看訓(xùn)練模型的效果可能是最差的。對(duì)于這種一個(gè)個(gè)的數(shù)據(jù)孤島,我們目前的解決方案就是應(yīng)收盡收。
![]()
04
具身智能數(shù)據(jù)平臺(tái)AIRSPEED
下面再說(shuō)說(shuō)我們公司,包括AIRS(深圳市人工智能與機(jī)器人研究院)做的具身智能數(shù)據(jù)平臺(tái) AIRSPEED 的相關(guān)工作。我們希望在我們的平臺(tái)上,能兼容不同的機(jī)器人本體和遙操設(shè)備。通過(guò)不同的機(jī)器人接口、遙操接口、仿真接口,實(shí)現(xiàn)真機(jī)、仿真,以及不同機(jī)器人之間的良好兼容性。我們希望憑借這種高軟硬件兼容性,加上技術(shù)兼容性,實(shí)現(xiàn)生產(chǎn)的柔性化,更高效地生產(chǎn)數(shù)據(jù)。
![]()
在我們的架構(gòu)里,我們盡量減少用戶的編程需求。其實(shí)就是配置好遙操接口、機(jī)器人接口、數(shù)據(jù)集服務(wù),然后通過(guò)我們的一個(gè)接口,實(shí)現(xiàn)全流程順暢的數(shù)據(jù)生產(chǎn)。我們希望做成一個(gè)第三方平臺(tái),減少客戶去適配不同機(jī)器人、不同數(shù)據(jù)的復(fù)雜工作。
![]()
目前來(lái)看,我們不只是一個(gè)技術(shù)解決方案,更是一個(gè)管理解決方案平臺(tái)。當(dāng)你的數(shù)據(jù)達(dá)到一定規(guī)模后,其實(shí)還需要管理大規(guī)模的采集員、標(biāo)注員,還要做任務(wù)調(diào)度、數(shù)據(jù)處理和標(biāo)注,這是一系列系統(tǒng)工程,這些都可以通過(guò)我們的平臺(tái)實(shí)現(xiàn)高效管理。
![]()
再說(shuō)說(shuō)我們平臺(tái)的優(yōu)勢(shì):針對(duì)真機(jī)數(shù)據(jù),我們提出 “萬(wàn)物皆可達(dá)”,就是適配不同的采集方案,從遙操到示教類,包括光冠、視覺位姿、動(dòng)捕,我們分三個(gè)階段都會(huì)做兼容,盡量做到一個(gè)統(tǒng)一接口,讓更多客戶和平臺(tái)來(lái)適配我們的解決方案。
![]()
對(duì)于仿真數(shù)據(jù),我們提出 “萬(wàn)物皆可生”,從軌跡合成、資產(chǎn)合成、決策生成和預(yù)測(cè)生成這四個(gè)維度,對(duì)不同的仿真平臺(tái)、不同的資產(chǎn)做到統(tǒng)一管理。
![]()
我們這個(gè)平臺(tái)主要是希望提高數(shù)據(jù)生產(chǎn)效率,所以也引入了 AI Agent 的概念,減輕任務(wù)管理員、任務(wù)調(diào)度員等群體的工作負(fù)擔(dān)。同時(shí)我們也加入了大模型,用來(lái)做自動(dòng)標(biāo)注、自動(dòng)資源管理,還有一些訓(xùn)練模型的評(píng)測(cè)。其實(shí)我們就是想做具身智能數(shù)據(jù)的一個(gè)工具鏈,讓大家能用這個(gè)工具鏈更高效地訓(xùn)練模型,快速部署,拿到自己想要的效果。
![]()
我們?cè)诠竞?AIRS 也做了一些嘗試,目前不管是真機(jī)還是仿真,都具備了快速迭代模型的能力。在真實(shí)世界數(shù)據(jù)集的構(gòu)建上,我們實(shí)現(xiàn)了30多倍的加速,在仿真方面也有3.5倍的加速。我們希望以這個(gè)速度,用飛輪效應(yīng)的方式,讓模型迭代效率不斷提升。
![]()
這是我們的數(shù)據(jù)管理平臺(tái),我們以數(shù)據(jù)集交付為中心,負(fù)責(zé)發(fā)布任務(wù)、管理設(shè)備、標(biāo)注數(shù)據(jù),并且把任務(wù)、設(shè)備、標(biāo)注、用戶分開管理。不同的客戶都可以在我們的平臺(tái)上直接做任務(wù)管理和生成,不管你是用遙操作、動(dòng)捕,還是 UMI 這種設(shè)備,都可以接入我們平臺(tái),實(shí)現(xiàn)統(tǒng)一的數(shù)據(jù)管理。
![]()
我們現(xiàn)在也有一些合作伙伴,包括遙操設(shè)備的合作伙伴、數(shù)據(jù)采集盒子的供應(yīng)商,還有不同的機(jī)器人廠商,都在和我們開展合作,這也是我們硬件產(chǎn)品的一些相關(guān)說(shuō)明。最后再介紹一下公司:我們叫深圳極數(shù)迭代科技有限公司,是 AIRS 孵化的企業(yè),主要專注于機(jī)器人數(shù)據(jù)、具身數(shù)據(jù)方面的探索。
我們覺得在具身智能這個(gè)大賽道上,目前來(lái)看還有很多不確定性,但具身智能數(shù)據(jù)是這個(gè)不確定性中一個(gè)確定性的方向,所以我們希望從具身智能數(shù)據(jù)入手,做一些嘗試。我們公司主要以具身智能數(shù)據(jù)的 AIRSPEED 平臺(tái)為核心產(chǎn)品,用來(lái)提高數(shù)據(jù)效率。我們也有一些相關(guān)的著作,還有一本相關(guān)的書籍叫《具身智能數(shù)據(jù)工程》。
最后再跟大家大概講一下我們平臺(tái)的處理方式:進(jìn)來(lái)之后可以以數(shù)據(jù)集為中心,建立不同的數(shù)據(jù)集,選擇不同的本體設(shè)備、遙操設(shè)備,做一些描述,然后從這個(gè)角度建立數(shù)據(jù)集,還可以克隆數(shù)據(jù)集。在數(shù)據(jù)集里面,我們可以新建不同的任務(wù),比如在桌子上拿一些玩具這樣的任務(wù)。我們還可以通過(guò)大模型批量建任務(wù),因?yàn)楫?dāng)數(shù)據(jù)量越來(lái)越多的時(shí)候,很難靠人類去想這么多任務(wù)。批量建立任務(wù)之后,就發(fā)給采集員去采集數(shù)據(jù)——這是一個(gè)采集流程,用的是星塵機(jī)器人,做的是簡(jiǎn)單的 pick and place 任務(wù)。
采集完任務(wù)后,就把數(shù)據(jù)上傳到平臺(tái),標(biāo)注員接到指令后就可以進(jìn)行標(biāo)注,這里展示的是關(guān)鍵幀標(biāo)注,就是在機(jī)器人 pick 玩具的時(shí)候,做一些關(guān)鍵幀的標(biāo)注。標(biāo)注完之后,審核員可以通過(guò),也可以駁回,比如覺得標(biāo)注不標(biāo)準(zhǔn)或者有其他問(wèn)題,像這個(gè)案例里,明顯機(jī)器人操作有問(wèn)題,就把它刪掉。完成之后,就可以導(dǎo)出標(biāo)準(zhǔn)的數(shù)據(jù)集,既可以是 JSON,也可以是 lerobot 格式,拿到數(shù)據(jù)集之后就可以直接用來(lái)訓(xùn)練模型。
我們現(xiàn)在支持不同的機(jī)器人,比如星塵的機(jī)器人;還有不同的遙操設(shè)備,比如同構(gòu)的 Open Arm 機(jī)械臂、大象機(jī)器人配套的 VR 控制眼鏡,還有諾亦騰的動(dòng)捕設(shè)備。我們也支持在仿真環(huán)境里做遙操和數(shù)據(jù)采集,比如 ALOHA 的同構(gòu)機(jī)械臂。
以上就是演講的所有內(nèi)容,希望大家一起在具身智能數(shù)據(jù)這個(gè)領(lǐng)域攜手合作。





京公網(wǎng)安備 11011402013531號(hào)