8月21日訊(記者 武靜靜)近期,具身智能與人形機(jī)器人領(lǐng)域迎來(lái)多路資本涌入。2025年上半年,中國(guó)人形機(jī)器人行業(yè)融資額和數(shù)量均刷新紀(jì)錄。根據(jù)IT桔子數(shù)據(jù),截至目前,該領(lǐng)域共發(fā)生87起融資事件,已披露融資金額達(dá)109億元,相比去年同期幾乎翻倍增長(zhǎng)。
風(fēng)口之上,資本熱度不減。人形機(jī)器人正在成為一級(jí)市場(chǎng)的新寵,被視為繼AI之后的又一科技投資熱點(diǎn)。在技術(shù)與商業(yè)的雙重推動(dòng)下,一批科研背景濃厚的企業(yè)正加速?gòu)膶?shí)驗(yàn)室走向市場(chǎng)。
成立于2023年8月的星動(dòng)紀(jì)元,是清華大學(xué)唯一持股的具身智能企業(yè),由清華大學(xué)交叉信息研究院助理教授陳建宇創(chuàng)立,并得到上海期智研究院支持。團(tuán)隊(duì)科研背景深厚,80%以上成員來(lái)自清華大學(xué)、北京大學(xué)、加州大學(xué)伯克利分校、新加坡國(guó)立大學(xué)及知名企業(yè)。
今年7月,公司宣布完成近5億元A輪融資,由鼎暉VGC和海爾資本聯(lián)合領(lǐng)投,厚雪資本、華映資本、襄禾資本、豐利智能等跟投,老股東清流資本、清控基金繼續(xù)追加投資。此前,公司已完成三輪融資。
近日,藍(lán)鯨科技采訪了星動(dòng)紀(jì)元?jiǎng)?chuàng)始人陳建宇,他就公司技術(shù)路線(xiàn)、產(chǎn)品落地以及行業(yè)趨勢(shì)進(jìn)行了深入探討。
具身智能技術(shù)路線(xiàn)正經(jīng)歷一次重要的收斂
當(dāng)下,具身智能的技術(shù)討論中,VLA(視覺(jué)、語(yǔ)言、行為)和端到端成為高頻詞。作為一家堅(jiān)持軟硬件全棧自研的人形機(jī)器人公司,陳建宇在接受藍(lán)鯨科技等媒體采訪時(shí)表示,具身智能技術(shù)路線(xiàn)正經(jīng)歷一場(chǎng)重要的收斂,VLA正在成為行業(yè)的主流方向。
陳建宇回憶,早期關(guān)于機(jī)器人控制方式存在過(guò)激烈爭(zhēng)論是堅(jiān)持傳統(tǒng)的控制方法,還是走向基于學(xué)習(xí)(learning-based)的路徑,他認(rèn)為,分層式模型與端到端VLA模型的爭(zhēng)論,也正像早期對(duì)學(xué)習(xí)方法的懷疑一樣,最終會(huì)因?qū)嵺`而收斂。不論是國(guó)內(nèi)還是國(guó)外,包括一些同行在內(nèi),都展現(xiàn)出了不錯(cuò)的VLA能力。這讓大家開(kāi)始逐漸相信,端到端確實(shí)是有效的。
星動(dòng)紀(jì)元從創(chuàng)立的第一天起就押注端到端的VLA范式。我們認(rèn)為這是一個(gè)第一性原理的選擇,是最終的方式。陳建宇說(shuō)。他認(rèn)為,具身智能的技術(shù)收斂并未結(jié)束。我們現(xiàn)在仍在推進(jìn)下一階段的演進(jìn),比如模型架構(gòu)的進(jìn)一步改進(jìn)。雖然這些方向還未完全落地,但我們已經(jīng)開(kāi)始下注。只要我們能夠證明其有效性,就會(huì)帶來(lái)新一輪的技術(shù)收斂。
他進(jìn)一步解釋?zhuān)琕LA涵蓋機(jī)器人智能的核心三環(huán)節(jié):視覺(jué)(Vision)負(fù)責(zé)感知世界,語(yǔ)言(Language)用于理解與對(duì)話(huà),行為(Action)完成輸出與操作。他甚至打趣稱(chēng),人類(lèi)本身就是一個(gè)高效的VLA系統(tǒng),這一理念為人工智能設(shè)計(jì)提供參考。
陳建宇進(jìn)一步指出,世界模型則是在現(xiàn)有VLA模型基礎(chǔ)上進(jìn)行能力升級(jí)的一種方式,它能夠提升機(jī)器人的精細(xì)化操作能力、泛化能力和認(rèn)知能力。換言之,世界模型與VLA不是互斥關(guān)系,而是逐步完善VLA能力的下一個(gè)范式。
關(guān)于為什么當(dāng)前階段還無(wú)法實(shí)現(xiàn)完全的端到端通用智能,陳建宇總結(jié)了兩條關(guān)鍵路徑:
其一,是將世界模型與生成式模型融合。他表示,星動(dòng)紀(jì)元已率先完成全球首個(gè)將世界模型與生成式模型結(jié)合的研究,使模型不僅能對(duì)未來(lái)狀態(tài)進(jìn)行預(yù)測(cè)和認(rèn)知,還能直接生成行為決策。去年我們就陸續(xù)發(fā)表了相關(guān)論文VPP(Video Prediction Policy),引發(fā)業(yè)內(nèi)討論。隨著更多同行的關(guān)注和合作,這一方向有望快速形成共識(shí)。
其二,是VLA層面的強(qiáng)化學(xué)習(xí)。他提到,目前很多運(yùn)動(dòng)控制僅依賴(lài)強(qiáng)化學(xué)習(xí)完成走路或基本運(yùn)動(dòng),但在VLA框架下,強(qiáng)化學(xué)習(xí)的目標(biāo)是提升機(jī)器人的通用能力,讓同一套模型能夠處理各種任務(wù)。星動(dòng)紀(jì)元自去年開(kāi)始在這一方向進(jìn)行探索,并已形成一系列學(xué)術(shù)成果,為通用VLA模型的實(shí)現(xiàn)奠定基礎(chǔ)。
模型決定數(shù)據(jù):架構(gòu)優(yōu)化引導(dǎo)數(shù)據(jù)利用效率
陳建宇指出,人形機(jī)器人關(guān)鍵核心在三個(gè)層面:模型架構(gòu)、數(shù)據(jù)策略和本體設(shè)計(jì)。
模型架構(gòu)最重要,它直接決定了模型的上限。陳建宇說(shuō)。其次是數(shù)據(jù),不僅在于數(shù)量,更關(guān)鍵的是多樣性、來(lái)源豐富度和質(zhì)量。第三是本體能力,例如是否有腿決定上下樓能力,是否有手決定復(fù)雜工具的操作能力,本體的性能和復(fù)雜度會(huì)直接限制機(jī)器人可完成任務(wù)的類(lèi)型和難度。
關(guān)于當(dāng)下具身智能和人形機(jī)器人普遍面臨的數(shù)據(jù)難題,陳建宇坦言,這確實(shí)是具身智能研發(fā)中的難題。不同機(jī)器人的自由度、輸出維度、傳感類(lèi)型可能各不相同,使得數(shù)據(jù)和模型的直接復(fù)用面臨限制。為此,星動(dòng)紀(jì)元采取了數(shù)據(jù)金字塔和兩階段訓(xùn)練策略。
在預(yù)訓(xùn)練階段,公司盡量使用與具體本體無(wú)關(guān)的數(shù)據(jù),例如人的行為視頻,因?yàn)槿祟?lèi)本身是一個(gè)通用的本體,可以為機(jī)器人提供可遷移的學(xué)習(xí)樣本。隨后在真機(jī)微調(diào)階段,如果機(jī)器人的形態(tài)與已有模型相對(duì)接近,遷移效果會(huì)更好。陳建宇指出,即便機(jī)器人迭代了新一代產(chǎn)品,胳膊構(gòu)型、顏色或自由度有所變化,模型在不收集任何新數(shù)據(jù)、不做微調(diào)的情況下,也能完成原有任務(wù),只是成功率略有下降。
他解釋?zhuān)?strong>形態(tài)相似的人形機(jī)器人之間遷移表現(xiàn)良好,但跨形態(tài)遷移則存在局限。例如,從人形遷移到四足機(jī)器人,或從單臂機(jī)器人遷移到雙臂機(jī)器人,效果都不理想。這也顯示出本體設(shè)計(jì)與數(shù)據(jù)復(fù)用的緊密關(guān)聯(lián),為未來(lái)構(gòu)建更通用的VLA模型提供了重要參考。
未來(lái)機(jī)器人模型的發(fā)展,是依賴(lài)更少的數(shù)據(jù),還是數(shù)據(jù)量越大越好?
陳建宇回應(yīng)稱(chēng):絕對(duì)數(shù)量本身還是會(huì)越來(lái)越大,越大越好。他強(qiáng)調(diào)的是在完成同樣任務(wù)的情況下,我們只需要更少的真機(jī)數(shù)據(jù)即可完成任務(wù),也就是數(shù)據(jù)利用效率更高。但即便如此,數(shù)據(jù)總量仍然需要增加,因?yàn)槟壳暗臄?shù)據(jù)量仍然不夠。
模型決定數(shù)據(jù)。模型決定數(shù)據(jù)如何被高效利用,包括能使用多少類(lèi)型、來(lái)源、數(shù)量和質(zhì)量的數(shù)據(jù)。模型是核心。
當(dāng)被問(wèn)及在當(dāng)前階段,行業(yè)應(yīng)重點(diǎn)關(guān)注模型還是數(shù)據(jù)時(shí),陳建宇表示:現(xiàn)階段應(yīng)該關(guān)注模型。當(dāng)然,數(shù)據(jù)也非常重要。有時(shí)我們需要從數(shù)據(jù)量和質(zhì)量反推模型的性能要求。最終系統(tǒng)一定是data-driven,模型需要能夠消化足夠量的數(shù)據(jù),這也就要求不斷優(yōu)化模型架構(gòu)以適應(yīng)數(shù)據(jù)增長(zhǎng)。
未來(lái)五年展望:爆發(fā)式增長(zhǎng)與關(guān)鍵技術(shù)突破
關(guān)于人形機(jī)器人的落地與商業(yè)化,陳建宇持樂(lè)觀態(tài)度。他表示:在一些真實(shí)的工業(yè)場(chǎng)景中,我們已經(jīng)達(dá)到了人的70%以上的效率,明年有望提升到90%。他分析,這與端到端模型的優(yōu)勢(shì)密切相關(guān):端到端能夠?qū)崿F(xiàn)實(shí)時(shí)反饋和控制,不像傳統(tǒng)方法需要分階段識(shí)別、規(guī)劃和執(zhí)行。人類(lèi)操作是即時(shí)反饋的,看到就能動(dòng),端到端讓機(jī)器人也能做到類(lèi)似的實(shí)時(shí)調(diào)整。在硬件層面,只要性能和速度足夠,結(jié)合軟件持續(xù)優(yōu)化,機(jī)器人未來(lái)有望接近甚至超越人類(lèi)水平。
星動(dòng)L7物流場(chǎng)景智能掃碼、分揀多機(jī)協(xié)作
談及殺手級(jí)應(yīng)用的路徑,陳建宇認(rèn)為短期與長(zhǎng)期存在差異:短期一定是在B端工業(yè)場(chǎng)景落地,一方面為企業(yè)提供解決方案,另一方面也是技術(shù)和數(shù)據(jù)積累的階段,幫助建立飛輪效應(yīng)。但從長(zhǎng)期來(lái)看,他堅(jiān)信最終的殺手級(jí)應(yīng)用仍將在家庭場(chǎng)景,機(jī)器人將逐步成為日常生活的一部分。
在技術(shù)突破方面,陳建宇透露,公司去年自研的靈巧手已完成樣機(jī)驗(yàn)證,今年可穩(wěn)定量產(chǎn),成本下降,穩(wěn)定性大幅提升。如今已有眾多客戶(hù)在使用,這也是我們量產(chǎn)化的重要突破。他提到,靈巧手已與VLA模型深度融合,實(shí)現(xiàn)端到端直接控制每個(gè)手指關(guān)節(jié)的高頻動(dòng)作。這意味著機(jī)器人能夠在操作中實(shí)時(shí)生成行為,完成更復(fù)雜、更精細(xì)的任務(wù),技術(shù)成熟度顯著提升。
針對(duì)家庭場(chǎng)景的落地時(shí)間表,陳建宇指出,機(jī)器人進(jìn)入家庭的趨勢(shì)已經(jīng)顯現(xiàn),實(shí)際上,掃地機(jī)器人就是最早的例子。他判斷,未來(lái)幾年會(huì)出現(xiàn)相對(duì)簡(jiǎn)單形態(tài)的家用機(jī)器人,而部分高凈值家庭也可能?chē)L試功能更通用的人形機(jī)器人。盡管此階段功能尚不十分強(qiáng)大,但足以吸引早期用戶(hù)嘗鮮體驗(yàn)。
他進(jìn)一步預(yù)測(cè),以未來(lái)五年為時(shí)間節(jié)點(diǎn),家用機(jī)器人有望迎來(lái)爆發(fā)式增長(zhǎng)。在此過(guò)程中,機(jī)器人將逐步解決復(fù)雜操作、通用智能和高效交互等關(guān)鍵技術(shù)問(wèn)題,為更廣泛的家庭場(chǎng)景落地奠定基礎(chǔ)。





京公網(wǎng)安備 11011402013531號(hào)