從“看著酷”到“真能干”,如今人形機器人正在加速“進場打工”。從2025年上半年開始,它們陸續(xù)經(jīng)歷了馬拉松比賽、格斗擂臺賽等運動賽事。如今,隨著具身智能技術(shù)的蓬勃發(fā)展,機器人已經(jīng)開始走向真實的工廠流水線。在本次2025世界人工智能大會(WAIC)期間,澎湃科技與螞蟻靈波科技技術(shù)副總裁、資深技術(shù)專家王志勇、智元機器人通用業(yè)務(wù)部副總裁王闖、上汽通用動力科技有限公司智能設(shè)備高級技術(shù)經(jīng)理徐嘯順,深入探討具身智能機器人如何實現(xiàn)從表演到落地的跨越。
以下是對談實錄:
整體技術(shù)水平提升,尤其遙操作和運動能力
澎湃科技:和去年相比,大家覺得今年大會有哪些亮點?
徐嘯順:去年大會人形機器人品牌眾多,但不像今年蓬勃發(fā)展,特別令我驚訝和欣喜。今年整體展廳非常充實,比如智元把整個工廠產(chǎn)線搬到現(xiàn)場。以前這些機器人可能只會走路、揮揮手,但現(xiàn)在搭載上好的大模型和視覺能力,不僅會走路,還會做一些復(fù)雜動作。
王志勇:今年有一個特別明顯的感受,去年的人形機器人只有18家左右,而今年整個H3展館幾乎被人形機器人“占領(lǐng)”,產(chǎn)業(yè)的發(fā)展速度確實讓人非常驚喜。另外,作為人形機器人行業(yè)多年的觀察者,可以明顯感覺到技術(shù)水平整體提升,尤其在遙操作相關(guān)技術(shù)和運動能力。去年不少機器人還需要外部支架輔助,現(xiàn)在大部分已經(jīng)可以自主行走了。
澎湃科技:回顧上半年人形機器人的表現(xiàn),你們給它的表現(xiàn)打多少分?
徐嘯順:要分不同應(yīng)用場景,在娛樂和運動場景,人形機器人的表現(xiàn)8到9分(滿分10分)。像馬拉松項目,已經(jīng)創(chuàng)下了世界紀錄,基本只需要一兩次充電或更換電池,就能跑完整個全程,這在以前是難以想象的。整體來看,進步非常顯著。在工業(yè)物流等其他應(yīng)用場景,我給到7分甚至以上。
王志勇:從提供情緒價值視角來看,從宇樹機器人上春晚開始到現(xiàn)在,進步非常明顯。但從另外一個角度,進場打工或執(zhí)行具體任務(wù)角度來講,可能打7分有點樂觀,整體還比較早期。
王闖:我認為站在未來看,可能是60分。但在今天看,首次工廠常態(tài)化作業(yè)直播,我可以打100分。
這次在人工智能大會上的直播,我們有兩個關(guān)鍵詞,一是具身智能,二是常態(tài)化。為什么兩者同時達到會這么難?人形機器人廠商做了這么多年,從來沒有具身智能進入工廠常態(tài)化作業(yè)。
以前我們看到很多機器人進廠打工演示,周圍都貼滿了二維碼,而且是改造的環(huán)境,并不是真正意義上的工廠,機器人其實并不具備真正進入工廠生產(chǎn)線的能力。越復(fù)雜的系統(tǒng)出錯的可能性就越多,要實現(xiàn)長時間穩(wěn)定運行的。難度也就越大。
澎湃科技:機器人在車間工作時具體會面臨哪些實際挑戰(zhàn)?
徐嘯順:我們車間主要從事新能源汽車的生產(chǎn)。整體來看,工廠布局非常工整、產(chǎn)線和工藝流程都經(jīng)過明確的規(guī)劃,這其實為機器人提供了比較理想的工作環(huán)境。但即使這樣,還是會有一些挑戰(zhàn)和變化點。
像智元這類機器人產(chǎn)品已經(jīng)具備了一定程度的適應(yīng)能力,例如能處理箱子擺放位置和規(guī)格的變化,這些都已經(jīng)在它們的程序中被考慮進去。
我們認為近期應(yīng)該會出現(xiàn)一些試運行成功的案例,未來人形機器人實現(xiàn)更大規(guī)模落地推廣,是可預(yù)見的趨勢。據(jù)我了解,今年年底或明年初,就會有一批不同場景的試用項目陸續(xù)落地,包括在車企和物流企業(yè)的多個工位中正式運行。
“具身智能行業(yè)還處于早期階段”
澎湃科技:今年螞蟻集團開始官宣入局布局聚生智能,請王總來透露一下目前的進展。
王志勇:簡單說一下我們的進展,我們計劃在今年9月會有機器人產(chǎn)品面世,我們研發(fā)節(jié)奏比較快,整個行業(yè)大勢也在這里,我們不能等。
澎湃科技:我也很想問問智元的王總,您感覺到現(xiàn)在具身智能的競爭已經(jīng)開始進入白熱化的階段了嗎?
王闖:現(xiàn)在還不到白熱化的階段,現(xiàn)在是萬物生長的階段。所有的從業(yè)者我都不想稱為競爭對手,現(xiàn)在是一起去探索航道的時期。如果這個航道已經(jīng)完全被挖掘出來了,只有存量競爭的時候,那時可能才是白熱化。
現(xiàn)在還處于非常早期的階段,還沒有哪個公司敢說我的技術(shù)范式是以后永遠不變的,我們只是稍微在量產(chǎn)和商業(yè)化的地方走得靠前,但我不認為現(xiàn)在到了競爭白熱化的程度。
澎湃科技:你接下來會期待看到哪些應(yīng)用場景的出現(xiàn)?
王闖:從我內(nèi)心深處,包括身邊很多親朋好友問得最多的是養(yǎng)老。養(yǎng)老產(chǎn)品是大家最值得期待的。但我們也同時在思考,機器人真正走進家庭,對機器人的泛化性技術(shù)、執(zhí)行任務(wù)的成功率、 安全性、成本要求都特別高。
我們希望機器人能先在有限場景里把任務(wù)“做好做透”。我們的目標是把機器人執(zhí)行任務(wù)的成功率提升至99.9%。我們設(shè)想的技術(shù)路線是先易后難,把機器人本體規(guī)模化和成本優(yōu)化好,為機器人進入家庭做準備,這一定是一個巨大的市場。
重點突破兩個方向:交互智能和作業(yè)智能
澎湃科技:各位認為,對于人形機器人行業(yè)內(nèi)是看熱鬧更多,還是應(yīng)用更多一些?
徐嘯順:專業(yè)用戶還是在意人形機器人的應(yīng)用落地。大家可能會掐著時間節(jié)點,比如今年年底或者到明年年初先把一些應(yīng)用試運行跑起來,總結(jié)問題去更好地實現(xiàn)技術(shù)迭代。
看熱鬧的話,可能會把注意力都放在大型活動上,人形機器人去表演、互動,這也有好處,可以增加產(chǎn)品硬件打磨。畢竟只有人形機器人出貨量大了,才有可能實現(xiàn)降本和產(chǎn)業(yè)鏈的優(yōu)化發(fā)展。
王志勇:首先,人形機器人“表演秀”為觀眾提供情緒價值,肯定有價值。但在我們研發(fā)路徑上,還是會更關(guān)注具體落地。我們現(xiàn)在大部分的精力也集中在把機器人的本體技術(shù)打磨好、做扎實,然后在一些特定的場景下讓它跑起來,之后在逐步泛化。這個市場很熱鬧,我認為行業(yè)內(nèi)的人要冷靜。
王闖:情緒價值和注意力經(jīng)濟也有價值,機器人有一部分場景是為情緒價值服務(wù)的。現(xiàn)在機器人的能力是在持續(xù)增長的。我們把它定義為一個本體加三個智能。
本體的成熟度現(xiàn)在進步非常快,運動智能也取得不錯的進展。在展臺上,機器人可以在現(xiàn)場巡館巡展、跳舞等互動,這些都說明它的運動智能逐步完善。
但要真正讓產(chǎn)品開發(fā)出用戶價值,還需要重點突破兩個方向:交互智能和作業(yè)智能。
作業(yè)智能即讓機器人“干活”的能力,這是一條更長的路,而交互智能相對見效更快,能更快地讓大家感受到人形機器人的價值,這只是第一步;在我看來,在機器人發(fā)展初期階段,只要是客戶愿意買單,有實際價值的功能,都值得去做。
機器人遙控操作可做業(yè)務(wù)兜底
澎湃科技:徐總你們作為應(yīng)用方,你們會比較看重機器人哪方面的作業(yè)智能?
徐嘯順:對應(yīng)到機器人,一方面是穩(wěn)定性,不能突然有意想不到的動作和程序有突發(fā)狀況;另一方面是機器人對整體的場景適配程度。
現(xiàn)在我們很多工作集中在消除用戶或使用人員對機器人產(chǎn)品的理解差距。這個過程可能還有點困難。
從效率來看,現(xiàn)在人形機器人的效率可能會比人稍微弱也很合理。隨著后續(xù)產(chǎn)品持續(xù)優(yōu)化,機器人最終是可以達到甚至超越人工效率的。在一些高風(fēng)險工位,機器人已經(jīng)體現(xiàn)出明顯優(yōu)勢。比如一些涉及帶電作業(yè)的零部件,人形機器人上崗后,可以有效消除操作人員觸電的風(fēng)險。
王志勇:機器人參與表演秀提供情緒價值和機器人具體干活,這兩者可以對應(yīng)到人有兩種激素,內(nèi)啡肽和荷爾蒙。情緒價值像荷爾蒙,比較短暫。對人來講,產(chǎn)生長久的價值還是內(nèi)啡肽的價值,即能真正幫助人去解決具體問題,提供生產(chǎn)力。
傳統(tǒng)的工業(yè)機器人在特定場景下做一個高精度的工作,已經(jīng)比人都高效,具身智能的重點還是在于多任務(wù)、多場景的泛化能力。這點來講,行業(yè)內(nèi)還有很多挑戰(zhàn)。
看落地,我反而認為遙操作的技術(shù),可以做業(yè)務(wù)兜底,另外從獲取數(shù)據(jù)的角度來看,遙操作也非常有用。短期來看,遙操作技術(shù)可能是對獲取數(shù)據(jù)和在真實場景落地都非常重要的一個技術(shù)。長期來看,還是把智能的能力提高。 澎湃科技:其實包括現(xiàn)在其他品牌的機器人在展示具體操作能力時,往往仍離不開人工遙操作。很多網(wǎng)友也會質(zhì)疑,既然還要人來操作,那這算什么智能?什么時候才能真正擺脫遙操作?王闖:我們的機器人在工廠三小時的直播,全程都是機器人自主完成,后臺沒有任何人工干預(yù)。當然,我們也設(shè)計了兜底措施以應(yīng)對極端情況。但兜底的措施并不完全依賴遙控操作。
遙控操作有兩點價值:一是訓(xùn)練階段對真實場景數(shù)據(jù)的要求。我們在訓(xùn)練環(huán)節(jié),是需要操作數(shù)據(jù),有一些場景需要數(shù)據(jù)驅(qū)動,需要人類教機器人怎么做,這個過程包括模仿學(xué)習(xí)和強化學(xué)習(xí)。越是精細復(fù)雜的任務(wù),越需要更多的數(shù)據(jù)去訓(xùn)練。如組裝類作業(yè),仍需要真實場景中的操作數(shù)據(jù),包括模仿學(xué)習(xí)和強化學(xué)習(xí)的過程。傳感器數(shù)據(jù)的豐富度也會影響模型學(xué)習(xí)效果。
二是保障任務(wù)的穩(wěn)定性。哪怕機器出錯的概率只有萬分之一,也不能讓整條產(chǎn)線停擺,這個時候需要人遠程遙控操作恢復(fù)。我們也想過,在某些商業(yè)場景里,遙控操作本身也有實際價值,比如在較為荒涼的地方開小賣部,以坐在辦公室遠程操控賣產(chǎn)品。
具身智能數(shù)據(jù)極度缺乏,包括觸覺、深度識別
澎湃科技:經(jīng)過半年的發(fā)展,機器人現(xiàn)在大腦和小腦成熟度分別怎么樣?
王闖:我們小腦并沒有用到大模型。現(xiàn)在我們機器人的小腦例如下肢的控制,我們用的強化學(xué)習(xí)都直接是端側(cè)部署,并不依賴于云端的大模型。
另外,我們上肢系統(tǒng)也不依賴云端大模型。上肢“小腦”的運動規(guī)劃也都在端側(cè)完成。我認為目前大模型對機器人產(chǎn)業(yè)最大的賦能,主要體現(xiàn)在對環(huán)境的理解能力上。
讓我驚艷的是多模態(tài)大模型的出現(xiàn),它對現(xiàn)實世界中各種物體具備一定的理解能力,甚至有些它沒見過的,也能分析。但現(xiàn)在大模型技術(shù)還不夠成熟,機器人還做不到“看一眼就知道干什么”,也難以通過簡單語言指令高效完成復(fù)雜任務(wù)。目前,帶動作執(zhí)行的大模型還沒有出現(xiàn),還沒有形成既具泛化性又高成功率的通用方案。
王志勇:我認為一是模態(tài),二是模型。
所謂模態(tài)即大模型就像人一樣,有視覺、聽覺、觸覺、嗅覺等不同的感知能力。讓具身智能有感知,傳感器一定要足夠多,盡可能多獲取有3D深度的視覺、觸覺、電子皮膚。
更關(guān)鍵的問題是,當模型拿到這些信息后,是否真的能駕馭好,做出好決策。有些國產(chǎn)車因為接收了更多模態(tài)的信息,導(dǎo)致內(nèi)部的兩套決策系統(tǒng)可能“打架”。比如拿到雷達信號,但沒有實現(xiàn)有效融合,反而影響了最終判斷。換句話說,模態(tài)信息越多,不一定是好事,關(guān)鍵是決策系統(tǒng)能否協(xié)同處理。
目前,從模型角度看,獲得具身智能相關(guān)數(shù)據(jù)仍有很大挑戰(zhàn)。這不像自動駕駛那樣相對成熟。現(xiàn)在連視覺都還只是初步應(yīng)用,更別說觸覺和其他感知,這些數(shù)據(jù)極度缺乏。
從算法技術(shù)路線來講,其實也沒有收斂。現(xiàn)在VLA(視覺語言動作)這條路上有好幾家在探索,但不像大模型已形成共識。所以有很多難點,路還比較長。
澎湃科技:好像多家都開始探索VLA模型路徑,您能否給大家科普一下VLA模型到底是什么?
王志勇:VLA其實強調(diào)像人一樣,從感知環(huán)境到自主決策并采取一定的行動。在自動駕駛領(lǐng)域已發(fā)展得相當不錯,機器人本身VLA的模型能力還處于早期階段。
王闖:VLA模型關(guān)鍵在于泛化性要求非常強。即使從未見過的場景,也能迅速做出正確的反應(yīng)。它依賴大量數(shù)據(jù)構(gòu)建基座能力,確保在千差萬別的任務(wù)中也有成功率。
目前VLA模型的難點在于,行業(yè)內(nèi)現(xiàn)在到底需要什么樣的數(shù)據(jù)并沒有形成共識,導(dǎo)致大家采集數(shù)據(jù)不一,此外數(shù)據(jù)量是否足夠現(xiàn)在未有定論。這些新的數(shù)據(jù)會對VLA模型有什么影響,也暫時未知。另外從VLA模型效果來看,它與人類的泛化能力仍然有顯著的差距,要實現(xiàn)強泛化、高成功率,這非常不容易。
還有一點必須考慮的是部署問題,模型不能無限大。真正落地時,也必須注重端側(cè)運行能力,不能完全依賴云端。最好模型大小也是可控的,在端測功耗算力都可負擔(dān)時,它最終價值才會非常大。
徐嘯順:在我們工廠環(huán)境中,質(zhì)量和安全是首要考慮因素。但非專業(yè)用戶很難理解模型的決策機制。這個行業(yè)里也一直在強調(diào)模型的可解釋可信任可負責(zé),包括自動駕駛也是要讓模型達到可負責(zé)的程度才能完全交付。目前多模態(tài)VLA模型(視覺、語言、動作)技術(shù)尚未完全收斂,在現(xiàn)場部署中仍然存在一定風(fēng)險。在現(xiàn)階段,“能跑起來”已經(jīng)很不錯了,但要做到可信任可負責(zé),可能還需要一段時間。
所以我個人認為,工業(yè)場景中更適合采用小模型或傳統(tǒng)神經(jīng)網(wǎng)絡(luò)小模型去處理動作任務(wù)。而大模型要經(jīng)歷驗證和完善,行業(yè)也需建立一整套評估和管理機制。
希望明年真正能做到客戶直接簽單
澎湃科技:這幾天我注意到特斯拉在美國洛杉磯已經(jīng)落地了一個無人化的服務(wù)場景,展望未來,如果我們以半年為單位來看,這類的場景會有在國內(nèi)落地的可能性嗎?半年之后又會有哪些變化或發(fā)展趨勢?
徐嘯順:前不久,我們也和智元機器人合作,做了一些機器人的場景測試,比如用戶抽盲盒、機器人遞交盲盒。這個動作本身并不復(fù)雜,但如果每臺機器人都能穩(wěn)定地重復(fù)執(zhí)行,就具備構(gòu)建“汽車餐廳”這類場景的基礎(chǔ)。這樣的流程可以被拆解為一系列可控的步驟。只要產(chǎn)業(yè)各方共同推進,我相信在中國類似場景很快就會實現(xiàn)落地。
王志勇:我不太好預(yù)測明年的進展,從更長遠的角度來看問題,我們在場景上希望未來機器人能夠走進家庭。
王闖:特斯拉一直擅長向公眾傳遞信息,善于制造能抓住大家眼球的內(nèi)容。我們看到它宣傳最多的其實是機器人倒爆米花的場景,咖啡反而較少。而在今年WAIC智元機器人的展臺上,我們也展示了多臺機器人為觀眾遞送可樂、飲料等互動體驗。
我們希望明年,機器人能在服務(wù)場景、作業(yè)場景中展現(xiàn)給大家更多價值,比如提供一些吃的,或具備更復(fù)雜的作業(yè)能力。我們把2025年定義為商業(yè)化元年,很重要的任務(wù)是跟客戶一起去思考哪些場景真正有價值,而不是只放演示,我希望明年客戶看上了可以直接簽單。





京公網(wǎng)安備 11011402013531號