文:富充
編輯:蘇建勛
人頭攢動(dòng)的2025WRC(世界機(jī)器人大會(huì))上,不乏各種酷炫的Demo展示,可在一眾敲鑼打鼓的機(jī)器人表演中,具身智能公司星海圖展位上,機(jī)器人卻在安靜地執(zhí)行鋪床任務(wù)。
一些圍觀(guān)者流露出疑惑的表情。他們難以理解,為何這個(gè)對(duì)人類(lèi)來(lái)說(shuō)極其簡(jiǎn)單的工作,需要大費(fèi)周章地展示。
“鋪床是個(gè)集各種難度于一身的長(zhǎng)程任務(wù)。考驗(yàn)了機(jī)器人柔性物體操作、模型的全身控制等能力,以及在各種雜亂床面上完成整理的泛化性。”星海圖首席科學(xué)家、清華交叉信息學(xué)院助理教授趙行在展會(huì)現(xiàn)場(chǎng)對(duì)《智能涌現(xiàn)》說(shuō)。
這時(shí),工作人員將被子隨機(jī)弄亂,一位觀(guān)眾下達(dá)了鋪床的指令,機(jī)器人隨即開(kāi)始工作。
看似簡(jiǎn)單的工作,機(jī)器人卻調(diào)用了全身23個(gè)自由度,往往要分三步實(shí)現(xiàn):它先通過(guò)底盤(pán)移動(dòng)至最佳作業(yè)位;隨后升降、俯仰軀干,調(diào)整合適的工作角度;最后用機(jī)械臂抓住被子,外拉、展平。
三個(gè)步驟間也相互影響:機(jī)器人如果一開(kāi)始沒(méi)走到位,就會(huì)抓不住被子;即使走到位,如果被子在床很中間的位置,軀干就得特別往前傾去“夠”到;抓取時(shí),由于被子較重,不能僅靠臂拉動(dòng)時(shí),機(jī)器人還要通過(guò)全身位移去拉平。
這場(chǎng)演示的背后,是星海圖新發(fā)布的 VLA(Vision-Language-Action,視覺(jué)-語(yǔ)言-動(dòng)作)端到端基礎(chǔ)模型G0。
談到訓(xùn)練這個(gè)模型的原因,趙行向我們介紹,之前星海圖用的小模型,雖然能做展示,規(guī)模化應(yīng)用的效果卻不好,想獲得真正的泛化能力,還是要做大模型。
![]()
WRC上星海圖展示的機(jī)器人鋪床Demo,圖片:采訪(fǎng)人提供
當(dāng)前,具身智能仍處于“非共識(shí)階段”。大語(yǔ)言模型的 Scaling Law已被驗(yàn)證,說(shuō)明數(shù)據(jù)量變會(huì)引起模型能力的質(zhì)變;但這一規(guī)律能否在機(jī)器人領(lǐng)域復(fù)現(xiàn),尚待答案。
這也是為何趙行將過(guò)去十個(gè)月的主要精力,投入到數(shù)據(jù)工程的原因。
數(shù)據(jù)工程包括采集員的培訓(xùn)與考核,真機(jī)遙操作采集,以及數(shù)據(jù)上傳、清洗、標(biāo)注等等一系列流程,是典型的“臟活累活”。因?yàn)檎麄€(gè)鏈路尚未形成標(biāo)準(zhǔn)化流程,趙行還經(jīng)常處理一線(xiàn)采集員的反饋,過(guò)去十個(gè)月工作強(qiáng)度很大。
一位在星海圖工作的人士告訴我們:“趙老師是我們的加班搭子,經(jīng)常半夜還能看到他。”
在他看來(lái),具備泛化能力的基礎(chǔ)模型離不開(kāi)扎實(shí)的真機(jī)數(shù)據(jù)采集與清洗。與其把時(shí)間精力花在“好看”的展示上,不如直面具身智能的根本問(wèn)題。
隨著G0發(fā)布,星海圖也即將開(kāi)源在開(kāi)放世界、真實(shí)場(chǎng)景中采集的500小時(shí)真機(jī)數(shù)據(jù)集。
趙行希望通過(guò)開(kāi)放數(shù)據(jù)集,為具身智能行業(yè)提供一個(gè)高質(zhì)量基準(zhǔn)數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn),便于不同團(tuán)隊(duì)在相同數(shù)據(jù)上比較算法、驗(yàn)證效果,從而推動(dòng)技術(shù)的開(kāi)發(fā)與積累。
同時(shí),開(kāi)源數(shù)據(jù)集可以大幅縮短從購(gòu)機(jī)到模型部署的開(kāi)發(fā)鏈條,降低重復(fù)采集與標(biāo)注成本,幫助高校、研究所與企業(yè)更快進(jìn)入實(shí)驗(yàn)與迭代階段。
在2025年7月,《智能涌現(xiàn)》就曾獨(dú)家報(bào)道過(guò)星海圖接連完成A4、A5輪戰(zhàn)略融資的消息。自2025年開(kāi)啟A輪系列融資以來(lái),星海圖至今已完成近15億元人民幣融資規(guī)模。
此次WRC期間,我們對(duì)趙行進(jìn)行了專(zhuān)訪(fǎng)。他以學(xué)術(shù)與產(chǎn)業(yè)的雙重視角,分享對(duì)于VLA泛化性、世界模型等熱門(mén)問(wèn)題的看法。以下內(nèi)容來(lái)自對(duì)話(huà),經(jīng)作者編輯整理。
![]()
星海圖首席科學(xué)家、清華交叉信息學(xué)院助理教授趙行,圖片由星海圖提供
大模型是具身智能泛化性的基礎(chǔ),高質(zhì)量數(shù)據(jù)更重要
智能涌現(xiàn):WRC期間星海圖呈現(xiàn)了具身智能鋪床的Demo,比起現(xiàn)場(chǎng)很多敲鑼打鼓的表演,它顯得沒(méi)那么“Fancy”,最初是怎么決定做這個(gè)展示的?
趙行:其實(shí)星海圖不算是一個(gè)很擅長(zhǎng)做Demo的公司。比起酷炫的動(dòng)作,我們更想展示智能的進(jìn)展。
具體而言,星海圖訓(xùn)了VLA的具身大模型G0,同時(shí)我們也在寫(xiě)一些技術(shù)報(bào)告。為此,需要去不同的地方采數(shù)據(jù)、調(diào)模型,這些都是比較扎實(shí)的事情。
所以直到WRC開(kāi)展的前一兩周,我們才決定做鋪床的Demo。因?yàn)殇伌彩且粋€(gè)把各種難度集中于一身的展示。
展示這個(gè)Demo時(shí),用戶(hù)先通過(guò)電視的界面給模型下達(dá)鋪床的指令;模型接收到這個(gè)指令后,就會(huì)觀(guān)察、理解、規(guī)劃它的任務(wù);在語(yǔ)言規(guī)劃時(shí),機(jī)器人也會(huì)同步執(zhí)行。
這時(shí)候,模型會(huì)控制機(jī)器人全身的23個(gè)自由度,這分三步實(shí)現(xiàn)動(dòng)作。
第一步,進(jìn)行底盤(pán)的移動(dòng);然后軀干可以升降、俯仰;最后是用機(jī)械臂操作物體。
這三個(gè)動(dòng)作其實(shí)是相互影響的。如果一開(kāi)始沒(méi)走到位,那就抓不住被子;走到位之后,被子如果在床很中間的位置,機(jī)器人的軀干就要特別往前傾去“夠“到;最后是抓取,往往被子比較重,僅靠臂是拉不動(dòng)的,機(jī)器人還要通過(guò)全身的位移去拉平。
所以這個(gè)Demo并不是我們精心設(shè)計(jì)的,但它是和別的展示相比有差異化的。從技術(shù)上,它的全身控制、柔性物體操作具備難度,展示了我們VLA端到端大模型的能力。
智能涌現(xiàn):G0模型的表現(xiàn)如何?它解決了什么樣的問(wèn)題嗎?
趙行:基于星海圖的開(kāi)放場(chǎng)景數(shù)據(jù)集,加上我們提出的三階段VLA訓(xùn)練框架(跨本體預(yù)訓(xùn)練、單本體預(yù)訓(xùn)練、后訓(xùn)練),G0模型在平均指標(biāo)上超越PI 0約20%。(作者注:PI 0為美國(guó)具身智能公司Phisical Intelligence研發(fā)的機(jī)器人控制VLA模型)
此外,我們發(fā)現(xiàn),基于開(kāi)源數(shù)據(jù)的跨本體預(yù)訓(xùn)練,在基礎(chǔ)桌面任務(wù)上表現(xiàn)尚可,但是在復(fù)雜的全身移動(dòng)控制任務(wù)上表現(xiàn)不佳。
星海圖的開(kāi)放數(shù)據(jù)集填補(bǔ)了上述空缺,使用這一數(shù)據(jù)集后,復(fù)雜的全身移動(dòng)任務(wù)會(huì)有更好表現(xiàn)。這提升了了業(yè)內(nèi)跨本體預(yù)訓(xùn)練的效果。
智能涌現(xiàn):研發(fā)G0模型的背景是怎樣的?
趙行:去年10月,大概是星海圖成立一年的時(shí)候,星海圖開(kāi)始訓(xùn)這個(gè)模型。
從過(guò)去研發(fā)中的體會(huì)而言,小模型能做展示,但是非常難以規(guī)模化應(yīng)用。因此,我們更希望開(kāi)發(fā)出有泛化性的大模型。
智能涌現(xiàn):模型的泛化性具體有哪些難點(diǎn)?
趙行:具體來(lái)說(shuō)有三方面。
一是操作對(duì)象的不同。比如在一個(gè)果盤(pán)里抓取,這里有葡萄、有番茄,從紋理、顏色、軟硬程度方面都有區(qū)別,甚至同一類(lèi)別的也會(huì)出現(xiàn)大小不同的情況。
其次是場(chǎng)景和環(huán)境的差異。即便是同一款奶茶,但在不同的門(mén)店里制作時(shí),因?yàn)橹車(chē)h(huán)境布局的不同,也會(huì)影響泛化性。
此外還在于具體的任務(wù)和動(dòng)作。就像在做抓取動(dòng)作的時(shí)候,如果遇到一張很薄的紙放在桌面上,我們很難一把就抓起來(lái),需要先摳邊再拿取。這個(gè)動(dòng)作很難用語(yǔ)言去定義。
這些問(wèn)題是基于編程的算法還沒(méi)有辦法做好的事情,也是阻礙機(jī)器人進(jìn)入各種場(chǎng)景大規(guī)模應(yīng)用的瓶頸。
但對(duì)于人類(lèi)來(lái)說(shuō),這些動(dòng)作都是下意識(shí)就可以實(shí)現(xiàn)的。所以,相比小模型,只有大模型才能達(dá)到這種泛化性,這也是我們做大模型的原因。
智能涌現(xiàn):大語(yǔ)言模型的Scaling Law,講究數(shù)據(jù)的量變引起模型能力的質(zhì)變,所以你們相信它也可以在具身智能模型上復(fù)現(xiàn)?
趙行:語(yǔ)言模型已經(jīng)證明了大模型、大數(shù)據(jù)是能夠做好泛化性的,我覺(jué)得這是AI的第一性原理。
但在機(jī)器人領(lǐng)域,我們有觀(guān)測(cè)到泛化性的端倪,因此從2024年底決定做具身大模型。
我相信,湊齊了模型結(jié)構(gòu)、算法、數(shù)據(jù)三個(gè)要素之后,具身智能模型也會(huì)有像語(yǔ)言模型一樣的能力。
我們的G0模型使用的是基于Transformer的訓(xùn)練方式。雖然大家現(xiàn)在對(duì)Transformer的框架結(jié)構(gòu)不夠滿(mǎn)意,我也認(rèn)為未來(lái)會(huì)迎來(lái)改變,但短期內(nèi)它的可用性仍然是最強(qiáng)的。
算法是有改變的可能性,這個(gè)主要靠聰明的研究員。我覺(jué)得這個(gè)方面我們團(tuán)隊(duì)沒(méi)有什么問(wèn)題,可以自己研發(fā),也可以跟進(jìn)最新的進(jìn)展。
最后發(fā)現(xiàn),大家都缺失的是數(shù)據(jù)。
就像Sora讓人感到驚艷,但人們發(fā)現(xiàn)Sora所用的Diffusion Transformer算法和模型都是以前就有的,只是數(shù)據(jù)量更大了。這也讓更多人相信原來(lái)數(shù)據(jù)更重要。
高質(zhì)量數(shù)據(jù)重要,現(xiàn)階段會(huì)親力親為數(shù)據(jù)工程
智能涌現(xiàn):所以其實(shí)過(guò)去這十個(gè)月的時(shí)間,你的工作重點(diǎn)是數(shù)據(jù)?
趙行:我覺(jué)得算是,主要在于推動(dòng)高質(zhì)量數(shù)據(jù)的采集。畢竟現(xiàn)在無(wú)法買(mǎi)到現(xiàn)成的機(jī)器人數(shù)據(jù)。
數(shù)據(jù)采集和科研不一樣。科研的話(huà),比如算法的提升,需要的是聰明的大腦,有時(shí)候一周沒(méi)干活但是想到一個(gè)非常好的算法,就可以達(dá)到效果。
但是數(shù)據(jù)采集是一個(gè)非常基礎(chǔ)的工作,需要堅(jiān)持。
具體的工作非常雜。采集員會(huì)帶著機(jī)器人去不同的場(chǎng)景做數(shù)采,但要先對(duì)他們進(jìn)行培訓(xùn)、考試,保證他們能采到高質(zhì)量數(shù)據(jù)。
現(xiàn)場(chǎng)采數(shù)據(jù)的過(guò)程中還要解決大量問(wèn)題,比如機(jī)器、網(wǎng)絡(luò)等突發(fā)情況,我也會(huì)去協(xié)調(diào)。采集數(shù)據(jù)之后還有后續(xù)數(shù)據(jù)的上傳、清洗、標(biāo)注等等。
智能涌現(xiàn):感覺(jué)數(shù)采的工作更多是一些基礎(chǔ)工作,或者可以被稱(chēng)為“臟活累活”,你都要親力親為嗎?
趙行:團(tuán)隊(duì)的同學(xué)很還是很給力的。但是因?yàn)檫@個(gè)具身智能這個(gè)領(lǐng)域太新了,還沒(méi)有形成能直接提交給他們的SOP。
大家知道,過(guò)去的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)還是蠻成熟的,可以把數(shù)據(jù)全部發(fā)給一個(gè)外包公司。規(guī)定好時(shí)間、準(zhǔn)確率等等就可以等驗(yàn)收了。
但是機(jī)器人的數(shù)采和硬件相關(guān),也和場(chǎng)景等等相關(guān),整個(gè)鏈路非常長(zhǎng)。現(xiàn)階段沒(méi)有現(xiàn)成經(jīng)驗(yàn),只能自己親力親為。
智能涌現(xiàn):什么樣的數(shù)據(jù)集才能被稱(chēng)為高質(zhì)量?
趙行:要有真實(shí)性,以及需要多樣化。
比如說(shuō)我們同樣是打亂桌面上的一些物體,要考慮亂的是否真實(shí)。很多團(tuán)隊(duì)和公司都在構(gòu)建數(shù)據(jù)采集廠(chǎng),構(gòu)建的家庭環(huán)境窗明幾凈、一塵不染。但真實(shí)環(huán)境中,東西亂堆亂放,和數(shù)據(jù)采集廠(chǎng)完全不一樣。所以我們決定去真實(shí)環(huán)境做數(shù)據(jù)采集。
其次是否每一次都亂得不一樣,這是“亂的多樣性”。就像訓(xùn)練大語(yǔ)言模型,需要把整個(gè)互聯(lián)網(wǎng)上的語(yǔ)料全都扒下來(lái)。我們?cè)谧鼍呱碇悄苣P陀?xùn)練的時(shí)候也需要這樣,最好是把能考慮到的數(shù)據(jù)全都采集到,而非專(zhuān)注于某一個(gè)任務(wù)。
所以,我們定義了五類(lèi)場(chǎng)景,家庭、酒店、工廠(chǎng)和倉(cāng)庫(kù)、超市、餐廳。我們選擇的是人類(lèi)操作比較多的真實(shí)場(chǎng)景,去這些地方尋找機(jī)器人的用武之地。
當(dāng)然這也是一個(gè)持續(xù)發(fā)展的過(guò)程。目前數(shù)據(jù)有仿真、真機(jī)等不同類(lèi)型,究竟按照怎樣的比例組合是最理想的,我們后續(xù)還會(huì)投入更多的資源和精力去找到好的“數(shù)據(jù)配方”(Data Recipe)。
智能涌現(xiàn):你們從采集的數(shù)據(jù)中開(kāi)源500小時(shí)數(shù)據(jù)集,這件事的意義是什么?
趙行:我覺(jué)得主要有兩個(gè)方面。
一是對(duì)行業(yè)貢獻(xiàn)一個(gè)高標(biāo)準(zhǔn)的數(shù)據(jù)集和數(shù)據(jù)的評(píng)價(jià)標(biāo)準(zhǔn),可能會(huì)幫助這個(gè)領(lǐng)域建立企業(yè)標(biāo)準(zhǔn)。
機(jī)器人領(lǐng)域,每個(gè)研發(fā)團(tuán)隊(duì)的本體品牌、構(gòu)型都不一樣,執(zhí)行的任務(wù)不同、算法不同,相互之間很難比較。
所以一個(gè)開(kāi)源數(shù)據(jù)集可以控制其它變量,方便大家去跑不同的算法。這樣不僅可以給到我們關(guān)于數(shù)據(jù)集的反饋,也能共同促進(jìn)領(lǐng)域的進(jìn)展。
比如,別的團(tuán)隊(duì)有一個(gè)自己的算法,這個(gè)算法在他們采集的數(shù)據(jù)上跑過(guò)后,驗(yàn)證了能力。這個(gè)團(tuán)隊(duì)也可以在我們開(kāi)源的數(shù)據(jù)上跑一跑,通過(guò)結(jié)果看看算法的最佳實(shí)踐。
第二點(diǎn),星海圖希望能構(gòu)建起共同開(kāi)發(fā)者群體。包括高校、研究所、企業(yè)等等在內(nèi),都能用我們的數(shù)據(jù)來(lái)做實(shí)驗(yàn)。
從公司模式上來(lái)說(shuō),我們既做整機(jī)又做智能。所以我們發(fā)現(xiàn)用戶(hù)買(mǎi)到新的機(jī)器人之后,通常會(huì)經(jīng)歷包括各種參數(shù)設(shè)置、采數(shù)據(jù)以及洗數(shù)據(jù)、培訓(xùn)模型等在內(nèi)的一整個(gè)鏈條的工作。
我們希望通過(guò)開(kāi)源數(shù)據(jù),讓大家縮短開(kāi)發(fā)流程,相當(dāng)于給購(gòu)買(mǎi)我們機(jī)器人的使用者也提供了一套相對(duì)應(yīng)的開(kāi)發(fā)工具。就可以縮減前面的工作。
![]()
展臺(tái)上正在了解遙操技術(shù)的觀(guān)眾,圖片:采訪(fǎng)人提供
VLA范式是工業(yè)化路徑,也在探索多種技術(shù)路線(xiàn)
智能涌現(xiàn):盡管VLA是當(dāng)前公認(rèn)的主流范式,但有人認(rèn)為它不是唯一的解決方法。尤其是僅靠視覺(jué)似乎難以在物理世界中實(shí)現(xiàn)非常好的交互,也有觀(guān)點(diǎn)提出要加入觸覺(jué),對(duì)此你怎么看?
趙行:這個(gè)問(wèn)題我們思考過(guò)很多遍。觸覺(jué)和世界模型等技術(shù),都是非常好的前沿方向,我們也會(huì)在實(shí)驗(yàn)室和科研中探索包括它們?cè)趦?nèi)的各種可能性。
但是,星海圖作為公司,還是希望技術(shù)有工業(yè)化路徑可依,在什么時(shí)間點(diǎn),做什么事情,是很重要的判斷。
我們的路徑就是需要先把VLA做好,遙操作可以完成生活中九成的任務(wù)。比如,要收拾桌面,采集員可以帶著遙操機(jī)器人,通過(guò)看著桌面的情況,在沒(méi)有觸覺(jué)的情況下,就能完成90%的工作。
從這個(gè)角度來(lái)看,把VLA先做好是一個(gè)很合理的路徑。未來(lái)是需要觸覺(jué)的,但說(shuō)起現(xiàn)階段不加觸覺(jué)的原因,我認(rèn)為是觸覺(jué)傳感器還不夠標(biāo)準(zhǔn)化。
為什么視覺(jué)打敗了其它所有的傳感器呢?一方面是馬斯克說(shuō)的第一性原理。
另外一個(gè)方面就是要從工業(yè)化角度來(lái)看。相機(jī)、攝像頭是一個(gè)發(fā)展了百年的行業(yè),里面很多的工程化、標(biāo)準(zhǔn)化,拍攝以后的圖像壓縮、存儲(chǔ)、傳輸算法,都是非常成熟的。我們希望用這種標(biāo)準(zhǔn)的傳感器,來(lái)規(guī)模化采集數(shù)據(jù)。
但是觸覺(jué)等其它傳感器,還處于比較早期的階段,大家還有在硬件上的爭(zhēng)議,比如采取電容還是電阻式等等。這都需要這一領(lǐng)域在接下來(lái)的幾年里定義好,到那個(gè)時(shí)候觸覺(jué)就會(huì)被加入到VLA中。
智能涌現(xiàn):目前雖然具身智能的主流技術(shù)收斂到了VLA范式,但是各家公司還是在細(xì)節(jié)上有區(qū)別。比如在工程的動(dòng)作上等等,每家公司的重點(diǎn)和優(yōu)先級(jí)會(huì)有不同,星海圖在這方面的思考是什么?
趙行:在VLA大的框架下,我們走的是快慢雙系統(tǒng)的技術(shù)路線(xiàn),簡(jiǎn)單來(lái)說(shuō)就是從系統(tǒng)層面分為“慢思考”和“快執(zhí)行”。
最早是在做自動(dòng)駕駛的時(shí)候,我們提了這個(gè)方法。之所以覺(jué)得這是一個(gè)比較好的方案,原因在于多方面。
首先,做一個(gè)單系統(tǒng)的模型會(huì)有很多的限制,比如思考速度如果太慢了,它會(huì)限制運(yùn)動(dòng)的速度。我們看到大語(yǔ)言模型的推理過(guò)程有時(shí)篇幅會(huì)很長(zhǎng),但如果推理太長(zhǎng)就會(huì)影響實(shí)時(shí)響應(yīng),運(yùn)動(dòng)的動(dòng)作就會(huì)卡頓。
第二點(diǎn)在于,如果把思考和執(zhí)行都放在一個(gè)模型里,這個(gè)模型的參數(shù)量可能會(huì)變得很大,這就沒(méi)有辦法很好地在機(jī)器人上端側(cè)部署。
從第一性角度來(lái)看,人類(lèi)的各個(gè)系統(tǒng)也是不同頻率在執(zhí)行的。比如條件反射就非常快,而思考就是比較慢的。整體來(lái)說(shuō),這也是一個(gè)更節(jié)省能量,更高效的系統(tǒng)。
智能涌現(xiàn):那可不可以理解成,雖然快慢兩個(gè)系統(tǒng)雖然在數(shù)據(jù)需求和工作形式上有差異,但它們不是兩個(gè)獨(dú)立的系統(tǒng),而是連通的。它們是有互相傳遞轉(zhuǎn)移狀態(tài)的?
趙行:沒(méi)錯(cuò),把這個(gè)信息傳遞給大家是很重要的。
從字面大家容易理解成,這就是兩個(gè)模型,但實(shí)際上不是這樣的,它們其實(shí)是一個(gè)你進(jìn)我退的關(guān)系。比如小腦不夠強(qiáng),大腦就得再大一點(diǎn)。
而且我覺(jué)得隨著技術(shù)的進(jìn)展,這兩者的關(guān)系會(huì)越來(lái)越緊密。
慢慢地,小腦的能力越來(lái)越強(qiáng),會(huì)吸收大腦的一些知識(shí);大腦又從能從外部互聯(lián)網(wǎng)數(shù)據(jù)里,學(xué)到更多的更廣泛的知識(shí)。這就完全實(shí)現(xiàn)了一個(gè)比較非常類(lèi)人的分層架構(gòu),就像人腦雖然分成大腦、小腦、腦干,但它們的生物結(jié)構(gòu)是一模一樣的。
智能涌現(xiàn):你如何看待現(xiàn)在討論比較熱門(mén)的世界模型?
趙行:世界模型是一個(gè)比較面向未來(lái)的、重要的技術(shù),我們會(huì)去較為積極地探索這個(gè)方向。但它還沒(méi)有進(jìn)入到工業(yè)化的技術(shù)階段。
不像VLA是靠數(shù)據(jù)驅(qū)動(dòng)的,我覺(jué)得世界模型是一個(gè)非常典型的、靠聰明頭腦驅(qū)動(dòng)的工作。世界模型需要定義出一個(gè)最合理的算法,建模物理世界的運(yùn)動(dòng)規(guī)律。
如果能把世界的動(dòng)力學(xué)規(guī)律給建模出來(lái),那么我們就不用再靠模仿學(xué)習(xí)的方式去訓(xùn)練機(jī)器人了,機(jī)器人可以直接知道每一個(gè)動(dòng)作的后果。
但是讓機(jī)器人預(yù)知未來(lái),可能比讓機(jī)器人規(guī)劃現(xiàn)在的動(dòng)作更難,這有點(diǎn)像為了解決一個(gè)難題還要?jiǎng)?chuàng)造另一個(gè)難題。所以它非常適合最聰明的、最前沿的實(shí)驗(yàn)室去探索。
![]()
展會(huì)現(xiàn)場(chǎng)講解中的趙行,圖片:采訪(fǎng)人提供
學(xué)術(shù)經(jīng)驗(yàn)長(zhǎng)期受益,產(chǎn)學(xué)協(xié)同是件好事
智能涌現(xiàn):你在麻省理工畢業(yè)后,又在美國(guó)工作。2020年回國(guó)發(fā)展,回到清華任教,隨后又加入星海圖,這是因?yàn)楸粐?guó)內(nèi)學(xué)術(shù)、產(chǎn)業(yè)端的哪些優(yōu)勢(shì)吸引?
趙行:姚期智先生在2018年到美國(guó),去為清華招募年輕學(xué)者,我也是在這一批中回到清華任職的。
目前大家還是有共識(shí),認(rèn)為在國(guó)內(nèi)做學(xué)術(shù)的話(huà),清華叉院(交叉信息研究院)就是最好的地方。
姚先生給予了我們很大的空間和自由度。他不限制大家做什么方向,在行業(yè)上也采取自由發(fā)揮。這很有利于人才儲(chǔ)備,所以當(dāng)一波新的技術(shù)產(chǎn)業(yè)機(jī)會(huì)來(lái)臨時(shí),大家會(huì)看到涌現(xiàn)出了很多的人才。
智能涌現(xiàn):過(guò)去的學(xué)術(shù)經(jīng)歷,給你現(xiàn)在的工作帶來(lái)了哪些啟發(fā)?
趙行:這次開(kāi)源500小時(shí)數(shù)據(jù)集的想法,就來(lái)自于我在做科研時(shí)體會(huì)到的一件重要的事——貢獻(xiàn)的越多,收獲的也越多。
我在讀博期間,和其他同學(xué)花兩年時(shí)間做了一個(gè)數(shù)據(jù)集,叫ADE20K。這在當(dāng)時(shí)是最大的、被使用最多的圖像分割數(shù)據(jù)集,在目前也是被使用最多的評(píng)測(cè)數(shù)據(jù)集。
為了做這個(gè)工作,當(dāng)時(shí)我們給數(shù)據(jù)集找標(biāo)注,還做了清洗,并且訓(xùn)練了模型。
我們還制定了評(píng)價(jià)、測(cè)量的指標(biāo),比如定義圖片有多少個(gè)類(lèi)別,規(guī)定需要像素級(jí)精準(zhǔn),也評(píng)判了不同模型在數(shù)據(jù)集上的表現(xiàn)。
我們當(dāng)時(shí)構(gòu)建的Benchmark到現(xiàn)在都有好多人在用。從論文的引用和關(guān)注度來(lái)說(shuō),這可能是我所有發(fā)表過(guò)的論文里影響力最大的。
這些工作都挺費(fèi)時(shí)費(fèi)力的,但因?yàn)樽龅煤茫矔?huì)有后續(xù)的影響。這也對(duì)我此后工作產(chǎn)生長(zhǎng)遠(yuǎn)啟發(fā)。
智能涌現(xiàn):你目前在清華任助理教授,也在星海圖擔(dān)任首席科學(xué)家。對(duì)你來(lái)說(shuō),“產(chǎn)學(xué)結(jié)合”好的一面是什么?又有什么挑戰(zhàn)?
趙行:當(dāng)前的機(jī)器人領(lǐng)域,產(chǎn)學(xué)是一個(gè)協(xié)同關(guān)系。為什么這一波具身智能浪潮,會(huì)有很多高校老師出來(lái)做公司,因?yàn)橹挥羞@一批老師之前在這個(gè)方向的探索和積累能達(dá)到兩年以上。現(xiàn)在美國(guó)的AI領(lǐng)域,也是很多高校教師出來(lái)創(chuàng)業(yè)。
另一方面,產(chǎn)業(yè)上的發(fā)展,也可以協(xié)同解決之前在學(xué)術(shù)領(lǐng)域里做機(jī)器人學(xué)習(xí)的痛點(diǎn)。
之前在學(xué)術(shù)領(lǐng)域,雖然大家在盡量做標(biāo)準(zhǔn)化,但因?yàn)橐?guī)模還是小一些,所以會(huì)比較難。但是產(chǎn)業(yè)發(fā)展會(huì)帶來(lái)數(shù)據(jù)等方面在量級(jí)上的提升,量變會(huì)促進(jìn)質(zhì)變,也可以使學(xué)術(shù)進(jìn)展有爆發(fā)式的增長(zhǎng)。
封面來(lái)源|采訪(fǎng)人提供





京公網(wǎng)安備 11011402013531號(hào)