
![]()
“既要又要的結果就是勺叉,咱不當勺叉,咱們當一個好用的叉子就行。”
作者丨劉欣
編輯丨高景輝
在機器人產業蓬勃發展的浪潮下,具身智能已然成為驅動產業變革的核心賽道,而高質量數據的缺失與不足,正是制約其發展的關鍵瓶頸。
在此背景下,諾亦騰機器人(Noitom Robotics)作為目前中國唯一一家明確以“數據”為交付界面的公司,憑借著其在動作捕捉技術上的積累為機器人數據提供關鍵支撐。
作為諾亦騰機器人(Noitom Robotics)創始人的戴若犁博士在2025年12月13日雷峰網舉辦的第八屆GAIR全球人工智能與機器人大會現場上,做了題為《用動作捕捉技術構建具身智能數據工廠》的分享。
他指出,人形機器人所代表的具身智能,正在成為一個天花板足夠高、且對高質量數據有強烈需求的新賽道。由于遙操作的一些現實痛點,行業開始將視角逐步拓展至以人為中心(human-centric)的數據路徑,嘗試構建不與單一機器人本體強綁定的數據體系。
以下為他的演講內容,雷峰網做了不改變原意的編輯:
大家好,今天早晨我是從北京坐飛機趕過來,早晨出門的時候是北京今年的第一場雪,大概零下七八度,而深圳非常溫暖,也讓我非常開心。今天我想跟大家來聊一聊,具身智能數據的一些認知。
我的公司叫諾亦騰機器人(Noitom Robotics),可能是服務全球具身智能公司,本體公司、大廠最多的一家數據公司。我們服務了六七十家不同的機器人公司、模型公司,并且關于具身智能數據的全鏈路Pipeline都做過,包括遙操作、Human-centric數據采集、數據標注、預訓練、后處理。所以在這個行業里,我們有第一手的經驗或教訓,今天可以跟大家來分享一下。
![]()
首先我先介紹一下,我12年創辦的第一家公司叫諾亦騰(Noitom Ltd.),諾亦騰是做動作捕捉和動作追蹤技術的,甚至Noitom的名字由來都是把動作Motion這個詞反過來拼寫,所以我們一直在研究人和空間物體的Motion。但在過去的十年里,我們一直都在尋找一個天花板足夠高、且對人的數字化行為、高精度的物體位姿和高質量的數據是有剛需的領域。
我們服務了好萊塢影視、體育運動分析、醫療健康等各種不同的行業,這些行業大概都是幾千萬一年的收入,比較小但都很穩定。所以諾亦騰的市占率做到了全球第一名,每年小幾個億的營收。
但在23年底,諾亦騰24年全年機器人的營收相比過去任何一年漲了5、6倍。今年還沒有過完,所以還沒統計第四季度的收入,但比去年已經又漲了6倍,所以兩年加一塊已經有將近四十倍的增長了。
我們看到了一個機會,雖然這個機會我們是被動進入的。其實我的博士學位就是Robotics,準確來說我是第一批做控制算法、非線性控制下的抓取振動抑制(grasping vibration damping)這方面科研的,但后面一直都在做感知,直到機器人把我又拖回了原來熟悉的科研。
最后復盤時發現,從23年的9月底開始,這個密集的需求,其實是建立在兩件事情被驗證的基礎上。第一件事情是大家信了一件事情:如果只做單一構型,那么人形是一個最好的Solution。
![]()
第二是,不管是VLA還是其他架構的模型里面,都有人階段性地驗證了具身智能的Scaling Law。這說明把數據量提高,或者按模型的規模體量所需要的算力投進去,是能得到一些泛化的能力和靈巧性的。
![]()
這兩件事情都被證明之后,出現了一個很有意思的事情。上圖藍色和橙色區域的企業(人形機器人本體和模型)都開始問我們要三種東西:設備、項目和數據,他們會直接問我們能不能賣數據,各種數據都可以,無論是單模態、低精度還是高質量的數據都要的。而且他們對于數采的設備、服務和對數據的渴求,在過去的兩年中完全沒有看到任何減速的跡象,不停地往上走。
幾周之前,美國有幾個工作,告訴了大家用多大體量的數據。比如說Generalist的GEN-0用了27萬小時的真實世界操作軌跡,這個數字給了整個行業巨大的信心。
Scaling Law不需要自己驗證,有人驗證就行。大家原本不知道:數據堆到什么體量ROI不會掉下來;或者堆到什么體量能有顯著的泛化能力提升。但現在有人告訴你,你可以放心大膽堆到30萬小時,這就像有一條路擺在前面一樣。
于是,來找我們詢價和問26年的產能的客戶,一下子從原先討論的千小時、萬小時到了十萬小時為單位起。其實我們沒有人能接得住,在座的所有人都接不住,但是大家需求的胃口已經被打到那個數量級了。
很多人包括投資人跟我聊,你們是不是對標的Scale AI?其實不是的。Scale AI誕生于多模態模型和自動駕駛這兩個行業,跟機器人行業的數據需求是有著本質的區別的。其中最大的區別就在于,這兩個行業所服務的甲方獲取數據的能力比乙方強,比如自動駕駛的甲方可以用自己的車隊獲取數據。
如果當甲方獲取生數據的能力強于或平權于乙方時,那么數據生意的毛利天花板就不夠可觀。這件事可以在美國做,因為美國可以全球眾包,這樣就可以在美國40%或50%毛利的天花板下面努力的卷,但很難突破50%。但和美國用本地勞動力置換海外的勞動力不同,中國是本地置換本地的勞動力。所以中國的天花板是20%,苦一點的10%以下的生意也有人做。
美國有三家數據生意做得比較好的公司,分別是Scale AI、Mercor和Surge AI。我認為做得最好的一家不是Scale AI,而是Surge AI。因為它的毛利很多時候能做到60%,這是非常杰出的一個能力。Surge AI的主要能力是AI Infra(基礎設施),把工具鏈做得特別好。Scale AI最厲害的能力是對benchmark和data validation數據的利用,以及它的訓練模型的優化能力其實強于他的甲方,somehow強于Anthropic。而Mercor其實是一家AI人力招聘公司,所以它最厲害的是篩人、找人、卷人,把人激勵好,把人的數據給回流,最后快速的輪轉,全球都可以合規。
所以這三家其實是天縱英才,甲方拿著數據來找你拉框框,還可以做到40%或50%的毛利,每年做幾十億美金的生意,這是很杰出的。中國做得比較好的有曼孚和海天瑞聲。
整體來說,當乙方沒有顯著優于甲方的數據獲取能力的時候,這個數據生意其實就是一個勞動力置換和外包,在中國卷的天花板就是15%到20%的毛利。
硬件銷售也是一個苦生意。我做了十幾年to B的硬件銷售,綜合毛利能做到45%、50%,人均產能的效能做到90萬,已經很厲害了,但是很難再突破。所以在這個行業里,我覺得知道該怎么做機器人數據這個生意遠重要于其他,就是你的business model應該是什么,這件事情非常非常的重要。
很多人來找我們,買我們的設備,做遙操作,請我們做retargeting,然后去采集數據。也有人做whole body的teleoperation,包括工具的使用、雙手的協同。更加復雜的可能是做雙向的數據互傳,比如人到機器人的motion的互傳,機器人到人的視覺的互傳,甚至一些感官的替代,比如力反饋。
但這個世界上沒有真正力反饋的Solution,我從大概14、15年開始做XR領域的力反饋,應該是中國第一批,但后來在這個領域中的玩家通通放棄了。這是一個比人形機器人還難的賽道,為了解決一個A命題而去挑戰一個更難的B命題這是不對的。所以行業內普遍的做法都會做感官轉移,比如把力和觸覺轉換成視覺和聽覺,或者其他更加易得的感官,然后再去完成復雜的任務。
![]()
這是西湖機器人的全身遙操作(whole-body teleoperation),做得特別好,強于很多公司和高校所做的全身遙操作,穿的是我們的設備,我們也貢獻了一些力量。
![]()
這是宇樹的全身控制(whole-body control),也做的很不錯,是遙操作里面比較杰出的工作。
遙操作絕對是非常好的獲取數據的方式,因為獲取的數據是真機數據,里面包含著寶貴的真機特性。但是遙操作有三大結構性挑戰(“原罪”):
成本效率:昂貴而緩慢,成功率很低。
能力局限性:比如靈巧性高的手內的操作(in-hand manipulation)、高精度依賴力觸覺的雙手協同、非視覺引導操作(vision non-guided manipulation)無法執行,只有pick and place最成熟。
以及跨本體泛化能力等問題。
![]()
大家可以看這張流程圖,這是我們典型的服務遙操作的客戶,就是典型的工作流,也是我們賺錢的流程。這里有一個特別重要的步驟叫retargeting mapping,這是指把一個人的數字化形象和行為翻譯成一個機器人的數字化形象和行為,然后讓機器人的運維系統去跟。
但是mapping同時也使得模態丟失、損失,維度降低。所以retargeting mapping結束之后,你從機器人身上采到的數據已經極大的降維了,已經極大的comply到機器人的構型和它的傳感器上了。所以它有極差的跨本體能力,從宇樹的G1上采的數據到同家公司另一個型號上就學不了。
這件事情讓很多的客戶以及我自己都很恐慌,24年7月份,全球包括我的團隊在內的五個組都開始探索“如何讓數據能夠跨本體”。到了24年年底,很多個組跳出了遙操作的工作,追尋新的方向。
但這并不是說遙操作的數據不重要,這是我必須要強調的。遙操作的數據很重要,它的第一性是真機特性,可以去表征。但是需要的體量不高,因為它不能跨本體,沒有靈巧性,很昂貴。所以如果獲得足夠去表征真機特性的數據,就應該停。
![]()
于是行業開始將視角逐步拓展至以人為中心(Human-centric)的數據路徑 ,跳出遙操作的范疇,不再和本體綁定,直接進行操作。把機器人身上可能有的全量甚至是Over kill的Sensor 穿在你身上,視覺傳感器力觸覺傳感器,甚至于連溫度感知、聲音感知、深度視覺、旁觀視覺、旁觀的深度視覺都集合在某一個形態的設備里頭,來嘗試捕捉一個人直接在打螺絲時候的全量的模態維度,以超高的精度,遠超于機器人感知的精度去獲取信息。
剛才說的有五個組,其中有兩個組用的就是這個流程:先把數據從人身上捕捉,然后做一個粗的Retargeting,這個數據就變得跟機器人很像了,然后再做一個很細的Retargeting,但是是在仿真環境里的強化學習,這個強化學習可以保證任務真的能完成。這個流程其實在24年12月份的時候已經被好幾個組所驗證走通了。
但是這種超高精度的數據獲取非常昂貴,諾亦騰機器人(Noitom Robotics)在國內的一個城市和海外的一個城市各建設了一個數據工廠,我的數據工廠是不采集遙操作數據的,因為遙操作數據不值得大體量累積。它應該是一個甲方行為,不應該是個乙方行為。在數據工廠我們采了大量的數據,服務業內很多的伙伴。
![]()
![]()
以人為中心的數據采集,我們分成了工廠采(In-the-factory)和野采(In-the-wild)。上面這兩張圖是我們用過的一些采集方案,但目前已經有了更新迭代的版本,這些圖里的方案已經被放棄了。無論是ITF還是ITW,數據獲取的方式有很多,但你需要不斷驗證。
![]()
我是怎么判斷這么多不同的數據獲取的方式的?非常重要的一件事情就是:要知道每一層數據的第一性是什么?真機遙操數據的第一性,在于真,這是其他三層都沒有的。所以,你可以通過遙操作的數據學習pick and place,這其實同時是在學它的真機特性,而真機特性更重要,因為pick and place的技能策略、泛化性其它數據里面有。
Human-centric是中間的這兩層,第二層是超高精度,超全模態,從工廠里采集的數據。第三層是野采(In-the-wild)的數據,這兩層的第一性也是不同的:第二層的第一性是多維度或者全維度,多模態、高精度,要做到的是跨本體。所以我們希望在模態、維度、精度等所有方面要能比機器人的維度和模態都全,都強,都高,這樣的話將來你映射的時候就是一個降采樣,不需要做一個升采樣。
比如機器人的視覺傳感器,是720P、雙目、50赫茲、卷簾快門,那你就要達到雙目、8K、120赫茲、全局快門。這樣將來降采樣還有的做,但要比他低的話,那就只能忍了,就得忍維度的損失,有模態的損失,everything。
第三層野采(In-the-wild)的第一性是視覺泛化性,要走到真實的環境中去追求視覺的泛化性。不要嘗試在任何數采工廠里面做遙操作,也不要嘗試去在工廠中搭建真實環境——你可以搭一個廁所,但主要的目的是為了避免數采員無實物表演,但你完全沒有必要去搭100個或更多的廁所,而是應該in the wild。所以這一層的精度和維度就不太重要了,要舍棄一些東西。
通過這幾層數據,我們可以真正把生意做起來,給行業帶來價值。不要去訪談客戶——客戶都是既要又要的;也不要做市場調研,但要想清楚每一層該做啥,不應該做啥,要學會舍棄。不然就像Sergey Levine的那篇文章里所諷刺的:“如果你是麥當勞里的勺叉,不僅在喝湯的時候會漏,還叉不起來雞塊。”既要又要的結果就是個勺叉,咱不當勺叉,咱們當一個好用的叉子就行。
今天跟大家匯報了我們做的生意,也講了我們對于數據的一些觀點,我最后跟大家總結一下,諾亦騰機器人(Noitom Robotics)不是一家設備公司。我們賣設備,就是交個朋友,毛利不重要,價格不重要。大家需要的話就來找我們買設備,還可以給你們做系統集成,主要是大家開心就好。
諾亦騰機器人也不是一家項目公司,因為我們是一個數據公司,有自己的數據集,但我們有設備,也能做項目,如果你的項目足夠大的話,也歡迎大家跟我們聯系,我姓戴,戴若犁,謝謝大家。





京公網安備 11011402013531號