人形機器人與具身智能的構(gòu)型可能還需要不短的時間來確定,在這之前,能夠先行且基本確定的兩個方向,一個是具身大模型,另一個則是具身智能數(shù)據(jù)。前者就像是汽車的智能駕駛系統(tǒng),后者就像是自動駕駛數(shù)據(jù),但自動駕駛數(shù)據(jù)僅局限和道路相關(guān),具身智能卻是需要和世間萬物交互,難度無疑更高。
目前具身智能雖從實驗室走向量產(chǎn)階段,但整體仍處于“幼兒園孩子水平”,人形機器人基本都是初級大腦”,僅能完成抓取、走跑跳等簡單動作,復(fù)雜長程任務(wù)能力薄弱,缺乏流暢性與協(xié)調(diào)性:交互往往生硬、不自然,缺乏人類對話中微妙的節(jié)奏、輪替和預(yù)期,難以完成需要高度協(xié)同的復(fù)雜任務(wù),想要真正落地面臨硬件長期穩(wěn)定性與一致性不足、軟件泛化能力弱、數(shù)據(jù)匱乏無標(biāo)準(zhǔn)三重困境。
想要以“通用智能體”為目標(biāo),開啟從0到1的智能進化,就需要搭建感知—推理—執(zhí)行的完整鏈路,并通過數(shù)據(jù)飛輪實現(xiàn)模型能力與產(chǎn)品性能的持續(xù)提升。這必須依托大量數(shù)據(jù),才能配合大模型支撐的多模態(tài)理解與泛化能力,適應(yīng)復(fù)雜任務(wù)與動態(tài)環(huán)境。
目前已確認(rèn)在具身智能大模型領(lǐng)域,模型的性能同樣遵循Scaling Law。根據(jù)Scaling Law,當(dāng)模型的參數(shù)或計算量按比例擴大時,模型性能也隨之成比例提升。但只有當(dāng)參數(shù)規(guī)模突破了某個閾值,大模型才會“涌現(xiàn)”出上下文學(xué)習(xí)、復(fù)雜推理等能力。而隨著參數(shù)規(guī)模的增加,需要更多數(shù)據(jù)來訓(xùn)練模型,即模型參數(shù)與訓(xùn)練數(shù)據(jù)量之間也存在類似的比例關(guān)系。因此,無論是真實的環(huán)境交互產(chǎn)生的操作數(shù)據(jù),還是通過遠程操縱或人類示范來獲取的學(xué)習(xí)數(shù)據(jù),都是機器人學(xué)習(xí)和進步的基礎(chǔ)。而在一個優(yōu)秀的模型架構(gòu)基礎(chǔ)上,大量高質(zhì)量的數(shù)據(jù)是邁向更高智能性的關(guān)鍵。
東吳證券等部分研究機構(gòu)認(rèn)為,依據(jù)Scaling Law的經(jīng)驗推演,1億條高質(zhì)量行為軌跡數(shù)據(jù)是支撐具身智能大模型能力躍遷的關(guān)鍵門檻。為此,北京和上海等地的創(chuàng)新中心以及智元等頭部企業(yè),目前都開始加速搭建“仿真-真機融合”的數(shù)據(jù)訓(xùn)練場,通過并行機器人、遠程操控、仿真回放等機制,高效采集覆蓋不同場景、任務(wù)和交互模式的大規(guī)模數(shù)據(jù),嘗試打通數(shù)據(jù)采集-處理-訓(xùn)練-仿真-部署的全棧式解決方案,構(gòu)建高標(biāo)準(zhǔn)、可擴展的訓(xùn)練場,試圖開啟數(shù)據(jù)飛輪與產(chǎn)品迭代循環(huán)。
那么人形機器人與具身智能落地的下一步,到底怎么打通數(shù)據(jù)鏈路?機器人大講堂獨家采訪到了業(yè)界知名專家——全球動作捕捉技術(shù)領(lǐng)軍企業(yè)CTO陳溥,聊了聊當(dāng)前構(gòu)建人形機器人與具身智能的數(shù)據(jù)飛輪可能性與路徑。
以下是采訪實錄,部分表述有刪減優(yōu)化:
▍具身智能落地的難點與解法?
機器人大講堂:人形與具身智能正從實驗室開始走向落地,來到量產(chǎn)時間段,您覺得具身智能想真正進入到工廠等具體場景實際運用,還面臨哪些問題?
元客視界CTO陳溥:現(xiàn)階段人形機器人與具身智能處于“幼兒園孩子的階段”,來自公開的一些數(shù)據(jù)集就能夠完成大部分的任務(wù),例如抓拿放、走跑跳等簡單的基本原子級動作,以及在“干凈”和交互較少的環(huán)境中展示舞蹈或者格斗等普通技能。對于復(fù)雜交互性強的工作仍然處于探索延伸期。三大核心問題:
硬件:“用久了容不容易壞?能不能穩(wěn)定干活?”
智能/數(shù)據(jù):“缺好‘教材’高質(zhì)量數(shù)據(jù)集”、“換地方(場景)就懵”、“成功率難保證”。
效率:“干活太磨嘰”、“效率比不上人”、“搞不好拖后腿”。
最終導(dǎo)致機器人執(zhí)行任務(wù)成功率效率低下,泛化性差。最關(guān)鍵的一個環(huán)節(jié)是如何采集,達到一個什么樣的數(shù)據(jù)標(biāo)準(zhǔn)。
機器人大講堂:機器人大模型的訓(xùn)練數(shù)據(jù)主要分三種,一種真實數(shù)據(jù),一種仿真數(shù)據(jù),還有互聯(lián)網(wǎng)數(shù)據(jù),三種數(shù)據(jù)應(yīng)用到實際場景中,哪一類對于任務(wù)泛化成功率的影響更大?對于數(shù)據(jù)的應(yīng)用呈現(xiàn)怎樣的趨勢?
元客視界CTO陳溥:行業(yè)目前主要按照“仿真+真機”比例混合訓(xùn)練模型,理想模型是基于10%的真機數(shù)據(jù)生成80%的仿真數(shù)據(jù),再使用10%的真機數(shù)據(jù)驗證Sim 2 Real效果,這是提升模型泛化性與智能性的必然選擇。純真實數(shù)據(jù)訓(xùn)練雖然更貼近實際,但采集效率低、成本高,同時由于大多為“成功范式”,模型難以從失敗中學(xué)習(xí),缺乏負(fù)樣本經(jīng)驗。而單靠互聯(lián)網(wǎng)與仿真數(shù)據(jù),雖然建設(shè)通用性的場景感知和指令理解能力速度快,卻存在明顯的Sim2Real Gap,仿真環(huán)境難以完全還原現(xiàn)實世界中的感知噪聲、物理擾動(摩擦系數(shù)、彈性形變、溫度等)與交互復(fù)雜性,真機實際落地的泛化有效性、安全性存疑。因此,真實數(shù)據(jù)用于糾偏與對齊,仿真數(shù)據(jù)用于規(guī)模擴展和多樣性覆蓋,二者融合訓(xùn)練可有效兼顧效率與表現(xiàn),是行業(yè)公認(rèn)的發(fā)展方向。在此基礎(chǔ)上,我們采取了降低真機采集數(shù)據(jù)的成本,擴大真機數(shù)據(jù)采集的效率,另一方面與仿真平臺公司合作,化完善物理仿真引擎,彌補仿真環(huán)境訓(xùn)練數(shù)據(jù)遷移的泛化性不足、成功率較低的缺陷。
機器人大講堂:真機數(shù)據(jù)的采集主要依賴動捕設(shè)備完成,目前主要分兩個流派,一個是光學(xué)捕捉,另一個是慣性捕捉,哪個方式采集的數(shù)據(jù)對訓(xùn)練和遷移幫助更大?
元客視界CTO陳溥:高精度+抗遮擋,動捕行業(yè)技術(shù)融合也是主要趨勢,最早動捕應(yīng)用在影視動畫領(lǐng)域,分為聲學(xué)、電磁、慣性、光學(xué)等多個技術(shù)路徑,經(jīng)過四五十年的市場驗證,目前主流方向逐漸收斂于光學(xué)和慣性兩大方向。光學(xué)動捕精度極高,可達0.1毫米級,能夠?qū)崟r捕捉人或物體的運動軌跡,還原度、細膩度、自然度非常高,尤其適用于手指靈巧作業(yè)等接觸面作業(yè)精度要求高的情況。慣性動補的數(shù)據(jù)連續(xù)性更好,不怕遮擋,得應(yīng)急救援等應(yīng)用領(lǐng)域青睞。元客視界的FZMotion運動捕捉系統(tǒng)采用了光學(xué)與慣性融合的技術(shù)路線,這種方式實現(xiàn)了集成化、智能化的高質(zhì)量數(shù)據(jù)采集,既能保證獲取高精度數(shù)據(jù)還能解決被遮擋的困擾,顯著提升了數(shù)據(jù)采集的連續(xù)性,充分體現(xiàn)出光慣融合技術(shù)方案可以更好保障數(shù)據(jù)質(zhì)量。
機器人大講堂:人體動作向機器人高效轉(zhuǎn)化長期存在映射失真、效率低下問題,這種光慣融合方案采集效率如何?
元客視界CTO陳溥:我們建立了一個高質(zhì)量機器人訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn),包括精度0.1毫米,采集效率上則引入了生產(chǎn)線上常用的“稼動率”概念,稼動率(Utilization Rate)指設(shè)備在所能提供的時間內(nèi)為創(chuàng)造價值而占用的時間比重,反映設(shè)備或生產(chǎn)線的實際運行效率。其核心是衡量實際生產(chǎn)時間與理論可用時間的比率,常用于制造業(yè)優(yōu)化生產(chǎn)流程。數(shù)據(jù)采集的稼動率指的是單位時間內(nèi)為采集有效數(shù)據(jù)而占用的時間比重。
目前,元客視界在單次采集任務(wù)中可實現(xiàn)83%的稼動率,即在60秒的任務(wù)時長中,能夠高效采集50秒的有效數(shù)據(jù)。如一人工作時長為8小時,高稼動率可以減少因頻繁調(diào)整動作所造成的時間損耗,大幅提升有效工作時長。在當(dāng)前運行模式下,我們將人機工效比從1:10優(yōu)化到1:2,效率提升5倍,這意味著同一任務(wù),由機器人完成所需時長僅是人工耗時的一倍。
▍數(shù)據(jù)融合訓(xùn)練的行業(yè)共識
機器人大講堂:您剛才提到Sim2Real Gap的問題,采集的數(shù)據(jù)遷移到具身智能真機,能解決多模態(tài)異構(gòu)適配這類問題嗎?
元客視界CTO陳溥:數(shù)據(jù)映射到真機主要涉及人體數(shù)據(jù)重定向的問題,因為目前具身智能形態(tài)多樣,但人形機器人、仿人機械臂無論外觀姿態(tài)多么擬人,最終和人體依然有著不小大的差異,人形機器人的關(guān)節(jié)自由度很難像人一樣,將骨骼分成幾截,每一節(jié)長度能做到等比例,這導(dǎo)致動捕設(shè)備采集的人類數(shù)據(jù),如果不進行轉(zhuǎn)化處理,動作映射到機器人受限于關(guān)節(jié)自由度就很難復(fù)現(xiàn)。
為此,元客視界目前嘗試開發(fā)了一套人體Human to Robot的映射重定向算法,實時能將人體25個關(guān)節(jié)30個手指關(guān)節(jié)的物理量以及空間坐標(biāo)、姿態(tài)、歐拉角、軸角等參數(shù),全部轉(zhuǎn)化成為機器人運動控制肘關(guān)節(jié)、肩關(guān)節(jié)、踝關(guān)節(jié)、膝關(guān)節(jié)等的目標(biāo)位置、速度、力矩、剛度系數(shù)、阻力系數(shù)等,從而讓機器人能在自由度限制內(nèi)更絲滑完成動作,并保證機器人數(shù)據(jù)采集的效率。由于以時間軸對齊了多模態(tài)結(jié)構(gòu)化數(shù)據(jù),這類數(shù)據(jù)既可以整合應(yīng)用,也可以拆分成不同維度的數(shù)據(jù),適配不同模塊從而實現(xiàn)針對性模型訓(xùn)練。
機器人大講堂:這相當(dāng)于打破了單模態(tài)的局限,實際泛化成功率有測過具體的數(shù)據(jù)嗎?
元客視界CTO陳溥:雖然我們還沒有得到大規(guī)模的驗證,但我們目前已經(jīng)與幾個TOP客戶進行了大型數(shù)據(jù)采集到具體場景訓(xùn)練應(yīng)用的項目,預(yù)計在Q3Q4就能獲得相對定量的泛化成功率結(jié)果。
機器人大講堂:虛擬仿真數(shù)據(jù)在實際訓(xùn)練中的權(quán)重日益增加,如果采取真機和仿真數(shù)據(jù)混合訓(xùn)練的長序列動作,仿真與實物的有效性對齊你們怎么做的?映射到真機后的可靠性和泛化性怎么樣?
元客視界CTO陳溥:仿真環(huán)境的動作序列以及模型映射到機器人實體,與真機數(shù)據(jù)采集的邏輯類似,我們一方面通過給URDF模型設(shè)定足夠多的物理參數(shù)維度,例如碰撞干涉檢測、重心質(zhì)心、摩擦阻尼系數(shù),就能讓仿真環(huán)境訓(xùn)練的動作序列在遷移真機過程中保證物理量的一致性。另一方面,嘗試構(gòu)建更趨于真實的模型環(huán)境,保證主要操作物體模型建模的物理真實特性,以及組合部件的相關(guān)性、摩擦系數(shù)、限制約束,例如涉及開關(guān)門的家具、冰箱。同時我們考慮到仿真環(huán)境的真實性,構(gòu)建了與真實世界更加相似的訓(xùn)練環(huán)境,從而保證了訓(xùn)練環(huán)境的可復(fù)用性。
機器人大講堂:那么是否可以理解為元客其實從數(shù)據(jù)采集到標(biāo)注清洗、訓(xùn)練、仿真再到真機部署的全棧流程基本都打通,而不再單純是一個動捕系統(tǒng)平臺?
元客視界CTO陳溥:對,我們早期也聚焦在動捕設(shè)備數(shù)據(jù)采集端,但大多開發(fā)者反饋,無論是后端缺乏處理流程,導(dǎo)致各環(huán)節(jié)Gap明顯,我們之前的客戶中,有些同時購買了海外以及國內(nèi)廠商的設(shè)備,但采購后,發(fā)現(xiàn)后續(xù)需要投入大量額外工作。為此,我們考慮推動整個行業(yè)的快速發(fā)展,倡導(dǎo)大家各自專注擅長的專業(yè)領(lǐng)域,于是,我們嘗試向下延伸,從數(shù)據(jù)采集延展到多模態(tài)數(shù)據(jù)整合,以及更后端的結(jié)構(gòu)化處理、存儲,標(biāo)注、仿真等,并通過與不同機器人本體適配,最終形成一套全棧數(shù)據(jù)解決方案。這套完整的工具鏈能夠讓高校、企業(yè)還是個人開發(fā)者,都能快速完成機器人應(yīng)用開發(fā),滿足不同應(yīng)用場景對數(shù)據(jù)的多樣化要求,從而達到提質(zhì)增效降本。
機器人大講堂:多本體硬件平臺的兼容性會成為這套數(shù)據(jù)體系的阻礙嗎?
元客視界CTO陳溥:本體硬件平臺我們已經(jīng)和主流廠家進行了一些打通,包括宇樹、智元、傅利葉、睿爾曼、傲意、因時、強腦等市占率較高的頭部企業(yè)都能適配和軟件重定向,全新款機型的適配也能在兩三周就能完成。
機器人大講堂:標(biāo)注這塊是全自動的還是半自動的大模型預(yù)標(biāo)?
元客視界CTO陳溥:標(biāo)注可以自動識別框選,也支持人工標(biāo)注框選。框選主要借鑒了自動駕駛的矩形框選、圓形框選模式,也支持復(fù)雜形狀的視覺識別框選標(biāo)注。
▍數(shù)據(jù)采集到應(yīng)用的量化評估體系
機器人大講堂:這套完善體系對不同的人形機器人本體,是否也可以反推出一套從數(shù)據(jù)采集到應(yīng)用的量化評價指標(biāo)?
元客視界CTO陳溥:因為整個行業(yè)還在快速發(fā)展期,缺乏統(tǒng)一標(biāo)準(zhǔn),我們現(xiàn)在其實也在摸索,一方面和頭部企業(yè)合作基于實際應(yīng)用去定義一些標(biāo)準(zhǔn),同時也正嘗試把這些標(biāo)準(zhǔn)和國內(nèi)的一些標(biāo)準(zhǔn)機構(gòu)包括信通院、賽迪研究院等對接,推動國標(biāo)行標(biāo)的制定,協(xié)同建立評估標(biāo)準(zhǔn)和方案,這與目前自動駕駛行業(yè)做的事情非常類似,主要評估能夠量產(chǎn)企業(yè)的產(chǎn)品商業(yè)化落地能力,以及關(guān)鍵零部件和整機性能。現(xiàn)階段人形機器人受限于價格,距量產(chǎn)應(yīng)用還有距離,但預(yù)計馬上會有第三方評測機構(gòu),綜合評估測試機器人產(chǎn)品包括技術(shù)性能、安全性、可靠性、經(jīng)濟性及場景適配性等在內(nèi)的多項指標(biāo)。如機器人想要進入工廠和家庭,可能就需要基于運動學(xué)和動力學(xué)體檢,確保機器人的步態(tài)的對稱性和一致性,而三維動作捕捉系統(tǒng)則可以通過量化機器人的步態(tài)周期參數(shù)、支撐相和擺動相占比,并結(jié)合力傳感器、IMU等綜合分析評估機器人行走的穩(wěn)定性、能量效率、整機步態(tài)周期狀態(tài)等,判斷機器人的動態(tài)平衡能力以及重復(fù)定位精度等相關(guān)性指標(biāo)。
我們目前FZMotion Transformer評測軟件就能在15分鐘完成160+項測試,有兩個關(guān)鍵點:第一,對于不同本體構(gòu)型,我們通過重定向工具能實現(xiàn)快速適配,一個新型號通常只需兩到三周就能完成適配;第二,我們解決了兩個核心問題:首先是實現(xiàn)動作的自動語義分割。為了提高效率,機器人性能評估時是執(zhí)行預(yù)設(shè)的控制程序,像做廣播體操一樣連續(xù)完成所有動作,再自動分解為一個個測試項。而不是做一個動作測一個結(jié)果。
我們對運動捕捉到的整個數(shù)據(jù)動作進行分割,將其拆解為用戶自定義的多個測試項,定義了停頓動作,例如機器人靜止或特定動作保持兩到三秒,從而實現(xiàn)語義的自動分割。其次,性能評估需要識別是否存在問題,包括異常的抖動或振動。這需要將異常振動與機器人本身的正常振動區(qū)分開來。機器人本體帶有電機及風(fēng)扇等散熱設(shè)備,會產(chǎn)生一些固有低頻振動。我們通過濾波技術(shù)濾除這些低頻振動,從而將其與異常振動區(qū)分開。正是通過解決這兩個問題,我們實現(xiàn)了更高效的整體性能評估。
機器人大講堂:能耗是機器人商業(yè)化的關(guān)鍵瓶頸,你們這套量化評估方案能否為能源系統(tǒng)優(yōu)化提供數(shù)據(jù)支撐?
元客視界CTO陳溥:當(dāng)前人形機器人的功耗問題非常突出。以行走為例,人形機器人功耗約為1000瓦,而人類行走僅需70瓦左右,可見機器人的能效遠低于人類。若要解決類似新能源汽車的續(xù)航焦慮問題,目前部分廠商采用的解決方案是機器人自動換電,但這種方式既需配備多塊電池增加成本,又因換電過程耽誤作業(yè)效率。因此,降低機器人能耗、解決續(xù)航焦慮仍是核心課題。那么如何評估其下降潛力?這需要結(jié)合運動學(xué)與動力學(xué)進行系統(tǒng)分析,當(dāng)前多數(shù)電機驅(qū)動機器人雖能提供充足動力,卻較少關(guān)注驅(qū)動效率是否最優(yōu)。我們建議可以嘗試通過運動學(xué)與動力學(xué)分析,分析機器人執(zhí)行行走、搬運或抓取等動作時,優(yōu)化關(guān)節(jié)運動軌跡使其更短更合理,并依據(jù)各關(guān)節(jié)電機的力矩、角加速度等參數(shù)精準(zhǔn)計算功耗。基于此,我們能系統(tǒng)優(yōu)化機器人功耗模型,長遠而言將功耗降至可接受范圍。
機器人大講堂:那么如今做機器人數(shù)據(jù)訓(xùn)練場,您覺得需要采多少條的高質(zhì)量的行為軌跡數(shù)據(jù),才能支撐大模型去實現(xiàn)落地,或者是達到具身智能能力遷移的門檻?
元客視界CTO陳溥:具體需看場景任務(wù)復(fù)雜度。以商業(yè)服務(wù)場景為例,比如咖啡連鎖店,環(huán)境相對固定,設(shè)備操作、物品位置均可固化,再加上與人的互動環(huán)節(jié),如收銀、制作、攬客介紹等,整個工藝流程涉及100到200個任務(wù)動作。此類場景,我們認(rèn)為十萬條到五十萬條數(shù)據(jù),最多不超過一百萬條,即可實現(xiàn)99%的成功率。而對于環(huán)境變化較大的場景,比如便利店,其理貨與分揀任務(wù)的泛化程度更高,可能需要百萬條以上的數(shù)據(jù)。至于工業(yè)場景,如工廠中的分揀、碼垛、搬運及組裝環(huán)節(jié),尤其在最后一公里的柔性總裝制造環(huán)節(jié),這類環(huán)節(jié)往往標(biāo)準(zhǔn)化程度較低,且要求成功率極高,例如工業(yè)場景可能需達到99.99%的成功率,我們目前評估,這需要千萬條級別的數(shù)據(jù)規(guī)模。
機器人大講堂:有觀點認(rèn)為,目前人形機器人與具身智能訓(xùn)練大多偏向于動作數(shù)據(jù)跟小模型數(shù)據(jù),那么進行一些長任務(wù)的數(shù)據(jù)采集和訓(xùn)練瓶頸在什么地方?
元客視界CTO陳溥:現(xiàn)階段,我們在長期動作規(guī)劃方面尚未成熟,核心挑戰(zhàn)在于當(dāng)前的集成智能模型缺乏長時間記憶能力,無法持續(xù)拆解和記憶復(fù)雜任務(wù)。目前多數(shù)模型僅支持一對一的即時響應(yīng)(例如VLA),而長期規(guī)劃能力受限于模型本身及機器人的算力瓶頸。正如業(yè)內(nèi)專家王興興所分享的,受限于機器人本體的尺寸和功耗,其本地算力配置通常不高,約在100瓦范圍內(nèi)。因此,未來必須結(jié)合邊緣算力或云端算力構(gòu)建解決方案。
目前,我們主要應(yīng)用快慢腦技術(shù)嘗試解決這種問題。該技術(shù)對應(yīng)機器人的大小腦響應(yīng)機制,類似于人的下意識動作,能夠?qū)崿F(xiàn)快速反應(yīng)。然而,面對復(fù)雜任務(wù),例如“收拾房間”這類模糊指令,機器人需依賴智能大模型進行任務(wù)規(guī)劃與拆解,它會分析房間內(nèi)需要處理的對象特征、關(guān)聯(lián),從而形成系統(tǒng)性的任務(wù)規(guī)劃,但這一過程高度依賴視覺與行動間的交互規(guī)劃。目前已有部分實踐在工廠或小范圍固定場域展開,通過在場內(nèi)部署邊緣算力節(jié)點,供該區(qū)域內(nèi)多臺機器人共享使用,并將專業(yè)場景模型部署于邊緣端而非本地,這種方式就可以讓機器人直接從此邊緣節(jié)點獲取任務(wù)規(guī)劃指令,實現(xiàn)高效協(xié)同運作。
▍結(jié)語與未來
機器人大講堂:相比國內(nèi)外動捕廠商來說,元客視界的優(yōu)勢在哪?
元客視界CTO陳溥:早在2010年,母公司凌云光便前瞻性布局空間視覺領(lǐng)域,成為國內(nèi)運動捕捉技術(shù)的早期參與者和重要推動者。依托集團在光學(xué)技術(shù)領(lǐng)域29年的深厚積累與持續(xù)創(chuàng)新的技術(shù)成果,元客視界構(gòu)建了從底層算法研發(fā)、硬件設(shè)計制造到系統(tǒng)集成的全鏈路能力。其旗下運動捕捉品牌FZMotion成功入選2024年北京市首臺(套)重大技術(shù)裝備目錄。近年來,憑借國家對民營企業(yè)及自主創(chuàng)新產(chǎn)品的大力支持,F(xiàn)ZMotion已穩(wěn)居國內(nèi)外動捕廠商頭部陣營,發(fā)展成為業(yè)內(nèi)最具影響力的標(biāo)桿產(chǎn)品。
尤其是當(dāng)前研究的在具身智能數(shù)據(jù)采集領(lǐng)域,核心優(yōu)勢主要體現(xiàn)在幾個方面。首先,在數(shù)據(jù)采集端,我們著力解決了精度問題以及防遮擋情況下的數(shù)據(jù)連續(xù)性難題,顯著提升了數(shù)據(jù)的精度。其次,憑借數(shù)據(jù)采集的高準(zhǔn)確率,有效減少了后期數(shù)據(jù)出錯和重復(fù)采集,從而提高了整體采集效率。第三,得益于我們多年來在人體動作捕捉領(lǐng)域積累的深厚經(jīng)驗,特別是在重定向算法方面擁有較強能力,這與我們團隊之前深耕影視動畫領(lǐng)域有一定關(guān)聯(lián)——核心技術(shù)之一就是將真實人體數(shù)據(jù)重定向到數(shù)字模型上,例如電影《哪吒》中就需要將演員動作數(shù)據(jù)重定向到哪吒模型上。我們在處理真人到虛擬角色的關(guān)節(jié)映射方面擁有豐富的算法經(jīng)驗。而真人動作重定向到機器人與其有相通之處,將這項技術(shù)應(yīng)用于機器人領(lǐng)域時,我們具備獨特優(yōu)勢,能夠顯著提升機器人動作重建的流暢度與靈活性,并進一步提高數(shù)據(jù)采集效率。
此外,我們還向產(chǎn)業(yè)鏈后端延伸,構(gòu)建了完整的“Real- to- Sim- to-Real”數(shù)據(jù)應(yīng)用閉環(huán):從數(shù)據(jù)采集開始,經(jīng)過整合、清洗、標(biāo)注,再到仿真環(huán)節(jié),最終落地到實際執(zhí)行,打通了整個數(shù)據(jù)流轉(zhuǎn)與應(yīng)用的通路。這些就是我們現(xiàn)階段重點推進的工作。同時我們的單條數(shù)據(jù)采集價格現(xiàn)在已經(jīng)基本是國外同行的1/10。
機器人大講堂:是否考慮會做一些技能的原子化封裝?
元客視界CTO陳溥:目前我們在考慮把人體標(biāo)準(zhǔn)動作集重定向到不同的機器人上實現(xiàn)長序列標(biāo)準(zhǔn)化動作的封裝。
機器人大講堂:未來咱們這套系統(tǒng)還會持續(xù)做哪些優(yōu)化迭代嗎?
元客視界CTO陳溥:未來我們將持續(xù)深耕光學(xué)與慣性融合方案,進一步提升采集端精度與效率。第二,我們正積極聯(lián)合大模型技術(shù)公司,提供結(jié)構(gòu)化數(shù)據(jù)以優(yōu)化其訓(xùn)練效率,同時致力于增強模型泛化能力并與仿真平臺實現(xiàn)協(xié)同。因此,采集端、仿真端、訓(xùn)練端這三個方向都將是我們持續(xù)發(fā)力的重點。鑒于構(gòu)建全棧能力需要協(xié)同行業(yè)力量,我們將攜手領(lǐng)域內(nèi)合作伙伴共同推進。





京公網(wǎng)安備 11011402013531號