文|富充
編輯|蘇建勛
“95后”朱慶旭是前騰訊Robotics X實驗室研究員,2025年6月,他從Robotics X離開并創(chuàng)立了具身智能算法公司靈啟萬物。
《智能涌現(xiàn)》獨家獲悉,靈啟萬物成立4個月,已完成3輪融資,總?cè)谫Y額近億元。第一輪由元禾原點獨投;第二輪由和玉資本領(lǐng)投,英諾天使,元生創(chuàng)投,錦秋基金跟投,老股東元禾原點超額跟投;第三輪由錦秋基金領(lǐng)投,梅花創(chuàng)投,卓源亞洲跟投,老股東英諾天使超額跟投,和玉資本跟投。
近日,靈啟萬物采用自己的算法結(jié)合宇樹機器人本體,推出一組Demo。
從趴在床上除螨,到踩著板凳給花棚架高處的植物澆水等,在未經(jīng)加速的視頻中,機器人以接近真人的流暢度執(zhí)行一系列家務(wù)。
任務(wù)靈感來自朱慶旭看到的小紅書主題:“獨自帶娃媽媽的一天”。他從中選擇了人完成起來最麻煩的幾個任務(wù),因為這些動作幾乎都需要“手腳并用”,所以十分考驗具身智能算法對機器人的控制能力。
視頻發(fā)出后,轉(zhuǎn)發(fā)量就破了4000,有留言稱“硅基保姆具象化了”。
![]()
△視頻demo,圖片:采訪人提供
訪談中,朱慶旭提出了不少“反共識”的觀點。
“我認為真正勝任家務(wù)場景的機器人構(gòu)型,還是雙足人形,而且應(yīng)該在3-5年之內(nèi)就可以達到,”朱慶旭說。
家庭場景以多樣的非標任務(wù)、環(huán)境構(gòu)成,這增加了具身智能在學(xué)習(xí)和泛化上的難度。加之雙足構(gòu)型本身在運動控制、平衡性和工程復(fù)雜度上存在挑戰(zhàn),因此業(yè)內(nèi)更傾向認為,雙足人形機器人進家干活是5至10年后才會實現(xiàn)的“終極場景”。
朱慶旭堅信,雙足人形機器人能更好完成家庭任務(wù)。原因是人類世界是為人體結(jié)構(gòu)設(shè)計的,人形才能最好地復(fù)用人類數(shù)據(jù)并適應(yīng)復(fù)雜家庭環(huán)境,尤其是登高、跨越、俯身等動作,輪式很難覆蓋這些姿態(tài)組合。
關(guān)于為何在“機器人做家務(wù)”的時間預(yù)測上明顯早于業(yè)界,朱慶旭也給出了直接的理由。
“為什么現(xiàn)在人形機器人訓(xùn)練的進展那么慢,很多Demo視頻里的動作完成速度也那么慢,基于遙操作數(shù)據(jù)訓(xùn)練的主流方案,有著原理性缺陷。”他說。
在他看來,遙操時,操作人員需要手持遙控裝置操作機器人完成任務(wù)。人邊思考邊控制,導(dǎo)致本應(yīng)依賴本能完成的動作變得緩慢、卡頓,用這樣的數(shù)據(jù)訓(xùn)練機器人,結(jié)果必然是不流暢的。
這些觀點的提出,來源于朱慶旭過往在學(xué)術(shù)和工作中的積累。
朱慶旭擁有機器人控制與研究的專業(yè)背景,2021年畢業(yè)自瑞士蘇黎世聯(lián)邦理工學(xué)院和德國亞琛工業(yè)大學(xué)的聯(lián)合培養(yǎng)項目。
2021年,他進入騰訊Robotics X。在隨后的四年中,他與團隊通過多種途徑采集數(shù)據(jù),對具身智能模型進行系統(tǒng)訓(xùn)練,并發(fā)現(xiàn)基于遙操作數(shù)據(jù)訓(xùn)練的模型在執(zhí)行效率方面表現(xiàn)相對較低。
今年5月,美國機器人公司波士頓動力也提出對遙操的質(zhì)疑,認為遙操是在用人的“System 2”(慢系統(tǒng))采數(shù)據(jù),所以會導(dǎo)致行為低效,缺乏動態(tài)性,有非常不必要的動作。這對朱慶旭的技術(shù)路線形成啟發(fā)。
在靈啟萬物的算法中,朱慶旭采取“小腦”+“大腦”的架構(gòu),前者實現(xiàn)運動控制,后者實現(xiàn)規(guī)劃和泛化能力。
其中,靈啟萬物目前重點突破業(yè)內(nèi)聚焦較少的小腦部分,通過構(gòu)建完整的“人類動作庫”,快速采集動作數(shù)據(jù),并讓機器人高效學(xué)會多數(shù)基礎(chǔ)動作(元動作)。
在真機數(shù)據(jù)采集上,靈啟萬物放棄業(yè)內(nèi)普遍使用的“遙操作”,改為采取“光學(xué)動捕+UMI”方案。
該方案首先通過光學(xué)動捕技術(shù),由操作員穿戴設(shè)備在采集空間中真實做出動作,并使用多機位攝像頭同步記錄。此舉不僅能更精準地復(fù)現(xiàn)人類流暢、本能的行為模式,還極大提升了實驗室環(huán)境下的數(shù)據(jù)采集效率。
隨后,在真實環(huán)境中由操作員手持UMI夾爪直接操作物體,可大規(guī)模獲取手與物體的真實交互數(shù)據(jù)。與前一步的動捕數(shù)據(jù)結(jié)合后,形成既高質(zhì)量又可規(guī)模化的訓(xùn)練數(shù)據(jù)底座。
![]()
△操作人員身穿的動作捕捉會記錄下其身體姿態(tài),圖源:采訪人提供
談及融資關(guān)鍵,靈啟萬物朱慶旭指出,其公司與當前主流方案的技術(shù)差異化,是能快速獲得主流機構(gòu)投資的主要原因。他表示,這些投資人廣泛布局具身智能領(lǐng)域卻仍選擇靈啟萬物,是看重其技術(shù)與其它被投企業(yè)的協(xié)同價值。
朱慶旭進一步推測,該技術(shù)提升效率后,雙足人形機器人進入家庭的時間將縮短至3-5年。
而更近的未來中,雙足人形可能先在1-2年內(nèi)進入零售、快餐等無人商店。因為此類場景任務(wù)固定、環(huán)境可控,能快速驗證并產(chǎn)生商業(yè)價值。
提及靈啟萬物的壁壘,朱慶旭總結(jié)道:“在大家都看好遙操作的時候,我們能判斷出它有原理性缺陷并找到新思路;我們能堅守家庭、服務(wù)的終局,把一個不成熟的想法一步步做成現(xiàn)實的能力,才是真正的壁壘。”
這也是朱慶旭創(chuàng)業(yè)后的首次對外公開發(fā)聲。以下對話來自專訪,內(nèi)容經(jīng)作者整理:
![]()
△圖源:采訪人提供
“遙操作”有原理性缺陷
智能涌現(xiàn):為什么您認為“遙操作”存在原理性缺陷?
朱慶旭: 核心在于,遙操作是人使用大腦的“慢系統(tǒng)”在控制機器人。操作者需要觀察、思考、然后執(zhí)行,這個過程本質(zhì)上是緩慢、卡頓、充滿不必要停頓的。
用這種“慢系統(tǒng)”數(shù)據(jù)去訓(xùn)練機器人,等于讓機器人模仿一個動作本來就不流暢的老師,其性能上限被鎖死了。你看到的所有需要加速播放的機器人視頻,根源都在于此。
而且,對于需要觸覺反饋的靈巧操作,比如擰瓶蓋,遙操作因為沒有真實的力反饋,操作員可能不知道機器人的手有沒有擰到瓶蓋最合適的位置,也會降低動作效率。
智能涌現(xiàn):既然遙操作存在你說的問題,那它當初為什么會成為現(xiàn)階段普及較高的一種方案?
朱慶旭: 我想大家最開始的想法,是讓機器人直接操作物體,并獲得機器人真機數(shù)據(jù)。遙操是第一個實現(xiàn)這個目標的方案。
智能涌現(xiàn):你們的替代方案“動捕+UMI”具體是如何工作的?優(yōu)勢在哪?朱慶旭: 這是一個追求數(shù)據(jù)質(zhì)量和規(guī)模平衡的方案。
光學(xué)動捕:在實驗室里,人穿上動捕服,自然地(使用“快系統(tǒng)”)完成各種動作。它能高精度、高保真地記錄下人類全身協(xié)調(diào)的、流暢的運動軌跡。
UMI:可以理解為一種手持的夾爪設(shè)備,操作員用UMI設(shè)備實際操作物體。這可以大規(guī)模采集到手與物體的交互數(shù)據(jù)。
將兩者結(jié)合,我們得到的數(shù)據(jù)集,既具備了動捕的高質(zhì)量,又擁有了UMI的大規(guī)模。它記錄的是人類的下意識動作,是機器人真正應(yīng)該學(xué)習(xí)的“本能”。
在數(shù)據(jù)的金字塔中,頂層的數(shù)據(jù)是遙操,雖然真機采集,但數(shù)量稀少。底層是視頻數(shù)據(jù),雖然量大,但是視角、視頻質(zhì)量等問題,未必能高效用于訓(xùn)練。我們的方案恰好是提供金字塔中間層的數(shù)據(jù)——比視頻質(zhì)量好,比遙操又在量上多很多。
智能涌現(xiàn):數(shù)據(jù)采集來以后,你的算法中,“小腦”和“大腦”具體是如何分工與協(xié)作的?
朱慶旭: 我們采用分層的架構(gòu),這更符合智能形成的邏輯。
小腦(元動作庫):它的目標是掌握所有人類的基礎(chǔ)動作,比如走、跑、蹲、抓、拉。我們通過動捕數(shù)據(jù),在仿真環(huán)境中對它進行無實物訓(xùn)練。一旦這個“元動作庫”構(gòu)建完成,它就是通用的,可以跨所有場景調(diào)用。
大腦(任務(wù)規(guī)劃與泛化):它負責(zé)通過攝像頭感知環(huán)境,理解語言指令,進行任務(wù)規(guī)劃,并精準地調(diào)用“小腦”技能庫中的動作來完成任務(wù)。
它們不是先后關(guān)系,而是耦合迭代的。小腦的技能越豐富,大腦能調(diào)用的工具就越多;大腦越聰明,調(diào)用技能就越精準。
![]()
△Demo中機器人趴在床上除螨,圖源:采訪人提供
3-5年間,從無人店到進家庭
智能涌現(xiàn):您提到1-2年內(nèi),人形機器人先落地?zé)o人店,具體如何實現(xiàn)?學(xué)習(xí)速度能有多快?
朱慶旭: 像無人肯德基或無人超市這樣的場景,任務(wù)和動作是有限的、可窮舉的。
我們可以在動捕實驗室里,把所有炸薯條、包漢堡、上貨的動作都表演和采集一遍。因為我們的數(shù)據(jù)質(zhì)量高,機器人學(xué)習(xí)這些原子動作的效率非常高。以肯德基場景為例,學(xué)會所有崗位的動作只需要2到3天。
之后,再到實地采數(shù)據(jù),來幫助大腦訓(xùn)練泛化能力即可。這種效率是遙操作無法比擬的。
智能涌現(xiàn):動捕需要搭建一個類似“影棚“的布滿攝像頭的環(huán)境,如果我要完成特定場景的工作,比如教會機器人在肯德基炸薯條,應(yīng)該不會真的到肯德基廚房里搭攝像頭架子。所以要如何實現(xiàn)?
朱慶旭: 確實不需要。
動作可以在實驗室里采全。人類動作是“有限集”,比如炸薯條,分解下來就是手持、放置、提起、把油抖掉這樣的動作集,可以在動捕設(shè)備中采集即可。
然后,到實際場景中只需補UMI動作(手持夾爪與物體交互),以及環(huán)境數(shù)據(jù)即可。
智能涌現(xiàn):從封閉場景到形成泛化,最大的挑戰(zhàn)是什么?
朱慶旭: 最大的挑戰(zhàn)是泛化能力。家庭環(huán)境是千差萬別的。我們需要攻克三類泛化:
1、物體泛化:面對不同形狀、材質(zhì)、大小的物體都能正確操作。
2、位置泛化:物體在任何角落、任何高度都能找到并處理。
3、場景泛化:適應(yīng)不同家庭的布局、光照、家具風(fēng)格。
這需要我們?yōu)椤按竽X”模型采集大量、多樣化的場景數(shù)據(jù)。我們相信Scaling Law,但前提是數(shù)據(jù)質(zhì)量必須足夠高,數(shù)量也要夠大。
![]()
△Demo中機器人與小朋友玩飛盤,圖源:采訪人提供
批判、壁壘與未來
智能涌現(xiàn):你為什么覺得未來真正走入家庭并實現(xiàn)干活的具身智能,會是雙足人形?
朱慶旭: 雙足也確實存在問題和難點,比如重心較高穩(wěn)定性不如輪式,控制更難等,這也是人形和非人形的主要爭議點。但總體而言我認為是優(yōu)點大于缺點的。
我們希望機器人能夠在不改造家庭生活環(huán)境的情況下為人服務(wù),從這個最終的目標逆推,人形是最容易適應(yīng)人類生活環(huán)境的。
家里面有一些地形,可能并不是很適合輪式,比如陽臺或者廚房有個小臺階,或者家里有錯層、樓梯。從軟裝的層面,如果地面鋪了厚一些的地毯,也不適合輪子來行進。
而且像有一些需要高度變化的任務(wù),比如踩著梯子去拿東西、給花架上的植物澆水,或者俯下身子找東西、撿垃圾等等,這些輪足會比較難做到,都還是人形更合適,而且,如果提出非人形的構(gòu)型,又要不斷窮舉非人形的問題并解決。
比如從當下來看,訓(xùn)練機器人需要動作數(shù)據(jù),但沒有機器人在家里做家務(wù)的數(shù)據(jù)可以被采集,所以還是采集的人類動作數(shù)據(jù),用大量人類的數(shù)據(jù)來教機器人來學(xué)習(xí)。但如果是非人形的方案,我們沒有一個這樣的數(shù)據(jù)集了。
智能涌現(xiàn):機器人進入家庭后,用戶如何教它新任務(wù)?
朱慶旭: 在終極狀態(tài)下,我們希望機器人出廠時就具備完成大部分常見家務(wù)的能力,不需要用戶再訓(xùn)練。
對于全新的任務(wù),我們遠期會考慮開發(fā)一套簡易的示教設(shè)備,讓用戶可以“手把手”教機器人一次,它就能通過觀察和少量練習(xí)學(xué)會。
智能涌現(xiàn):有一種說法是,算法本身產(chǎn)品性較弱,如果硬件公司開始做算法,那將取代算法公司。你怎么看這么觀點,靈啟萬物的壁壘在哪里?
朱慶旭: 其實技術(shù)沒有壁壘,只有領(lǐng)先。我們真正的壁壘不是“動捕+UMI”這個方案本身,這個想法可以被復(fù)制。我們的核心壁壘是團隊的技術(shù)判斷力與持續(xù)迭代能力。
在所有人都看好遙操作的時候,我們能判斷出它有原理性缺陷并找到新路,我們能堅守家庭服務(wù)的終局。這種在混沌中看清方向、并把一個不成熟的想法一步步做成現(xiàn)實的能力,才是真正的壁壘。
這就像OpenAI早期堅信GPT道路一樣,“Talk is cheap”,執(zhí)行與迭代才是關(guān)鍵。其實從現(xiàn)在來看,ChatGPT的原理其實很簡單,但在幾年前,在只有一些苗頭的時候,他們依然可以堅持這個方向。而且OpenAI也把工程和細節(jié)做到了極致,這才是他們的核心壁壘。
智能涌現(xiàn):您對行業(yè)的未來有何判斷?
朱慶旭: 行業(yè)會經(jīng)歷一個大浪淘沙的過程。最終能留下來的,一定是那些在“健身”而不是“化妝”的公司。
我們自身而言,更希望公司在技術(shù)上不斷深耕、有深度、有探索,而不是追逐短期的噪音與表面的繁華。我們希望公司能夠持續(xù)構(gòu)建真正屬于自己的底層能力,不斷累積長期競爭力,在行業(yè)真正成熟到來的那一天依然屹立不倒。





京公網(wǎng)安備 11011402013531號