智能汽車作為機器人的第一個大終端。在大模型技術快速發展的當下,源自智能汽車的算法、算力技術正在被加速復用,催生出從單一任務到通用智能、從交通工具到機器人的宏大圖景,推動著一場從「車」到「人」的智能化躍遷。
然而,具身智能的發展還面臨多重現實挑戰。從數據采集到模型訓練,從硬件本體到場景落地,產業鏈各環節都存在大量技術和工程問題。僅僅依靠單一機構難以全鏈條突破,必需要構建多方共建的產業協作生態。
地平線作為機器人時代的智能計算平臺,既是這場進化的見證者,更是深度參與者與賦能者。當前,地平線已成為中國最大的消費類機器人計算平臺,旗下地瓜機器人上市產品超過 100 款,連接著超 100 家上下游合作伙伴與 10 萬余名開發者。
在 12 月 9 日舉行的 2025 地平線技術生態大會上,極客公園創始人張鵬與本末科技創始人兼 CEO 張笛、極佳視界創始人兼 CEO 黃冠、優必選研究院 A1 大模型與交互部負責人石海林、香港大學數據科學研究院助理教授李弘揚、地瓜機器人 CEO 王叢等嘉賓,進行了一場「名」人不說暗話的硬核圓桌,全景呈現了從芯片、算法、開發平臺到機器人本體的全產業鏈創新,深度探討具身智能的技術發展、商業落地,聚焦技術跨域賦能的生態潛力。
在這場對話中,你既能看到具身智能當下直面的痛點與挑戰,也能捕捉到切實可行的落地場景;既有對前沿技術路線與商業邏輯的深度剖析,也有這一賽道未來的無限可能。
以下為圓桌對話實錄,由極客公園整理。
![]()
01
形態之爭:類人形態 VS 功能形態
張鵬:在產品形態上,具身智能應當追求「類人形態」的極致擬人,還是「功能形態」的極致效率?
張笛:首先是本末我們自己一方面有一個直驅型的機器人關節的特色技術平臺,另外一塊是以輪足為特色的具身智能的機器人技術平臺。
我們選擇這個方向出發點跟剛才張鵬老師講到的,我們作為技術型的創業者,對樂觀和悲觀我們到底應該怎么看,怎么樣去建模?因為我個人包括我們整個團隊其實一直是對未來持有無限樂觀,但是對中短期的界限,會盡可能保持悲觀的狀態。硬科技有一個特點,別到最后創業未半中道崩卒,還沒等實現自己的技術愿景,反而最后導致自己的經營上出現問題,所以我們本質上建模可能會傾向于用這種方式,去做公司未來技術路線的選擇。
在這個路線下面,我們去看人形機器人和輪足這樣的形貌,其實核心的差異點是在于我們對移動和操作這兩個大問題上,我們到底選擇什么樣的解題思路,一種解題思路是純仿生,另外一種是不單純的仿生,不只仿生,我們傾向于第二個。從人形的角度來看,當然可能有很多人會說人形會有很多落地的場景,我們也從來不排斥這樣的觀點和看法,但是我覺得今天的主題也比較好,名人不說暗話,還是虛火過剩的,我還是覺得這個行業是很強的。
張鵬:既然說是「虛火」,那一定是當下存在某些難以解決的問題。你覺得核心瓶頸主要卡在哪里?
張笛:我覺得問題是現在其實大家對這個行業的關注是夠的,這是非常好的一件事兒。因為任何一個行業都需要有一定的 show off 的能力,讓大家有足夠的傳播點,但是問題在大家只關注到了其中的一方面,大家只關注機器人這個大品類當中類人形的一方面,這件事情是不夠健康的。
其實機器人這個品類有非常多可以選擇的余地,甚至說仿生、擬人都只是一個可以選擇的方向,這個行業有無限的可能,這就是為什么我們說對未來無限樂觀,但是對現在卻保持相對審慎的態度,我們覺得機器人這個賽道可以走伴生的模式非常多,但是現在似乎有太多狹隘,把所有的精力和資源投在一個角度上,這就是我們傾向于未來在雙足和輪足上面,我們會朝著非擬人、非仿生這個方向探索的一個主要原因。
張鵬:所以你認為超人的場景比擬人的場景會更多,或者說在有些場景超人是比擬人有更好的解法的,可以這么理解嗎?
張笛:可以這么理解,而且我覺得最主要的是,擬人作為一個大行業的入場券,沒有任何的設計參照,開始想盡辦法去開啟一個行業,這個起始點非常好。
但是隨著一個行業的向下發展,總會發現,其實墊腳石下一步踩在哪?英雄老路未必是最優解,我們有非常多的思路告訴你,機器人是新物種,可以完全設計一個新的產品,這個對整個行業來講是最健康,最有誘惑力,對我們年輕的人來講也是最有挑戰的方向。
張鵬:優必選堅定走人形機器人方向,背后有怎樣的判斷和考量?在你們看來,哪些場景是只有人形才能滿足的不可替代需求?
石海林:這個問題,我們優必選作為人形機器人的先行者以及行業龍頭,我們會很務實去看人形機器人,包括雙足輪式,都是屬于人形機器人,回到這個問題,我覺得可以從兩方面去看。第一個我們追根溯源,去看人類為什么是人形的。從大自然還有生物進化千百年來看,人之所以成為人形,我們的四肢,我們的手有五個手指頭,我們的五官在頭上,我們大部分人的眼睛的距離平均在 6 厘米,為什么大家都是這樣的,其實背后是因為適應了自然環境和我們人類社會環境的結果。
今天我們來看人形機器人,它去做到人形,其實更多的不是說我們一定要做到怎么樣,而是說從自然最優化的結果拿到了一些結論,用在我們人形機器人的產品和形態上,這是第一點。
第二點,我覺得更多也是可以從產業的應用場景去看,就以優必選我們現在聚焦的工業場景(來說),人形機器人現在主要有三大應用場景,工業場景、商業場景以及家用陪伴場景。后兩個商用場景和家用場景,因為還有一些交互和情感陪伴的需求,這些需求會更直接的去對人形外觀、ID 設計甚至仿生人形有更高的要求,這些還是比較直接能得出的結論。從工業場景來看的話,為什么我們也要去看人形在這個場景里的優化,因為在工業場景,通過長期以來的應用,我們可以看到有大量的結構化任務,也有更大量的非結構化任務,這些非結構化的任務從需求出發,去要求產品和功能要具備更強的泛化能力。在我們在工廠看到,各類形形色色的機械臂各種捶打,但是只能做一些特定的死的任務,而且形態各異,動不動 4、5 米高,特別大。
但我們看到更多的任務,是比如說物流轉運,里面包含了搬運、分揀的任務,還有上下料、精密裝配,他們的場景很多是一些狹窄的通道,一些靈巧的柔性的操作,這些對機器人的操作更高,泛化能力也更強。比如這些操作、搬運、上下料,所以在這些場景需求的催生下,我們會往人形這個方向去看。
![]()
張鵬:還有一種觀點認為,選擇人形形態是因為它更利于數據遷移。例如,通過人類進行遙操作或動作捕捉來采集數據,能讓算法在數據閉環中迭代得更高效。
你們在實際研發中,感知到了這種數據層面帶來的效率優勢了嗎?
石海林:對的,人形數據相對其他形態的數據更容易采集獲取、標注清洗。以遙操作采集為例,如果設備與人形,比如手部、雙臂,是同樣的甚至同構的,那么操作員操作起來會更高效便捷,同時培訓一個數量的操作員也更簡單容易。
張鵬:目前有兩種產品形態的發展路徑,一種「通用底盤+功能模塊」;另一種是直接開發一個全能一體化機器人。你們認為哪種技術路徑更有可能實現大規模普及?
張笛:其實本末科技在觀察行業生態時有很多發現,因為我提到,我們公司是平臺化的機器人供應商,我們是有關鍵技術去服務客戶。在這個過程中我們發現整個具身智能大的方向可以分兩類,按照張總講的分類方法,但我們的叫法會叫成學院派和產業派,其實相差最主要的點,學院派是自上而下,以通用為大旗,去把所有的相關的技術去做推廣和積累,但產業派就是循序漸進去做通用,本質上就是一個基座上面疊加模組。這兩個一個是自下而上,一個是自上而下,但是我們從統計上來看,產業派的速度和市場化的速度確實沒那么快,假如大家認可,以底層的通用化平臺加各種各樣的功能模組逐漸去做通用這件事,是一條通向具身智能的道路的話,現在從商業化的角度,還是產業化會推動得更快一點。
![]()
石海林:我完全認同張笛總的觀點,在產業派這一塊,我們自下而上從場景任務出發,構建海量的數據,以及基于算力的一些資源和優勢,去快速把學術界從上而下的基座模型應用在具體各類場景中。而且這個周期我們認為是一個絕對的加速化的過程,因為我們看到,比如十幾年前我們說做智能化,那個時候是做感知智能,如果我們比如以 AlexNe t 作為標志物,作為開端,到 2022 年,比如說那會兒 ViT 作為一個成熟標志的話,從發展到成熟感知智能花了十年時間。但是在感知智能的下一階段,交互智能如果我們以 17 年 transformer 出現為開端,到它成熟期,比如說正好三年前 ChatGPT 發布作為一個成熟標志的話,這個過程從十年加速到了五年。那我們今天來看具身智能這一塊,如果我們以 ALOHA 為代表,他打通了 Neural Network 在具身智能這一塊的技術方案。所以我們可以把 2023 年作為起始點的話,假設我們也是以最保守 5 年來估計,從 23 年到 28 年,今天來算的話可能就三年,或者 18 個月,就已經進入到成熟期,這個周期是大大加快。
02
技術路線之爭:
「先驗模型」(Model-based)
VS「數據規模」(Data-driven)
張鵬:極佳科技從自動駕駛世界模型切入具身智能,目前世界模型在具身智能領域已經解決了什么問題?還有什么問題有待解決?
黃冠:覺得這個問題提得特別好,像「世界模型」「空間智能」這些概念都備受關注。大家探討其在內容創作、自動駕駛以及具身智能等領域的應用時,我想先講講我個人對世界模型對具身智能領域價值的一些看法。
我認為世界模型是物理 AGI 最后的瓶頸,并且它不是要 5 年、10 年被攻克掉,實際上我們已經看到了它被解決的曙光,得益于整個生成式 AI 的發展,這是我對整個世界模型大的看法。
更具體,世界模型對具身智能的價值是全方位的。其實我們講一個具身模型,無非就是講數據來源、學習范式,以及模型架構。世界模型在這三方面都有非常高的價值,首先數據來源,如果具身智能僅僅依賴真實機器和傳統仿真這兩種方式,可能會存在比較大的瓶頸。真機要采集到足夠的數據極其困難,基于規則構建的傳統仿真上限也比較受限。而世界模型提供了一種非常高效生成世界的方式,雖然它目前并不完美,但已經展現出巨大的價值,它是一個數據引擎,能夠為具身智能提供無限的所需的數據。
第二個是在學習范式上,模仿學習很有價值但是遠遠不夠,強化學習如果只是依賴真實環境去做,也是很低效的,包括大家現在看到 Pi0.6 star,雖然已經進步很大了,但仍然高度依賴真實環境;而世界模型實際上為強化學習提供了一個非常好的閉環環境,它是能夠被 action 驅動的,來預測未來環境變化的模型。
對,所以我們叫它是可以 Scale 的強化學習,這是它作為模擬器的第二點價值。第三點就是更本質了,叫做世界行動模型,可以替代 VLA,L 為什么會對 action 一定必須呢?我們過去做自動駕駛也沒有語言,所以 VLA 依賴這個 L 問題是很大的,要真正實現智能,就得邁向世界行動模型,所以我認為這三個點的價值都會非常大。
目前行業進展上,在上面三個方面,無論是我們的一些工作,還是全球的包括像 Cosmos 很多一些工作,世界模型都已經開始大規模的產生價值了。這是我對世界模型和具身智能關系的理解。
張鵬:世界模型能夠解決具身智能領域數據匱乏的問題,但世界模型也是模型,所需要的數據同樣匱乏,極佳是如何解決這個死循環的?
黃冠:這兩個問題都問得非常好,我還是思考一下,我可能這樣回答。我跟大家介紹一下,第一個是各個模型的關系,我們講三個模型,語言模型、世界模型、行動模型。語言模型輸出的是語言,世界模型輸出的是對未來世界的預測,未來的世界可以用 video 去表示,可以用 3D 去表示,當然也可以把 physics 表示進去。第三個行動模型輸出的是 action。所以這是三個非常不同的模型。
第二個,為什么語言模型跟世界模型其實可能相比行動模型會好解決呢?就是因為數據多,大家都知道,語言模型有互聯網上的海量文字數據作為支撐。而世界模型所依賴的數據中,互聯網的視頻數據是最重要和基礎的部分,這些視頻數據看似沒有直接呈現三維(3D)和 physics,但實際上 3D 和 physics 都隱含在視頻的隱空間里了。大家看互聯網上的視頻,比如一個水杯被扔出去,這其中就蘊含了非常豐富的物理規律。所以視頻數據其實是一個非常好的構建世界基礎模型(world foundation model)的素材來源,雖然它并不完備,但是一個非常好的基礎。而我們最不缺的就是互聯網上記錄的海量的視頻數據。所以,語言模型和世界模型能夠更高效地利用豐富的語言和視頻數據,進而作為行動模型的基礎。
第三點,我最近也思考很多,為什么智駕和具身可能不太一樣,在智駕里面,大家之前沒有所謂的 VLA,沒有世界模型,但也干得還不錯。包括中午體驗的地平線的一段式端到端,真的非常絲滑,為什么?因為智駕有大量數據,只要數據足夠多,可以不依賴語言模型和世界模型,只需要場景的端到端駕駛數據就好。當然,最后加上 VLA 和世界模型,會讓系統的推理能力更強,迭代更高效。但是具身模型你會發現,如果從頭做一個 VA 的端到端模型,是基本不可能的,核心是因為具身領域太缺數據了,這會導致駕駛模型和具身模型非常不一樣的發展路徑。
![]()
張鵬:具身智能領域的模型訓練會遵循 Scaling Law 嗎?跟大語言模型的 Scaling Law 會有什么不一樣?
李弘揚:這個我嘗試回答一下這個問題,這個問題還是問得非常前沿的,首先有個結論,具身智能領域一定會有 Scaling Law,到目前為止真正能算得上,做過 Scaling Law 實驗的,這個世界上只有一家公司,就是 Generalist AI,前一陣的 Gen-0。其余包括 Physical intelligence(Pi),都沒有很大規模的用 Scaling Law 的實驗,都還談不上 Scaling Law。所以你問的下一個問題,如果真有規模法則 (Scaling Law),它會和大語言模型的規模法則呈現怎樣的情況呢?
其實大概率還是沿著一種冪律分布的,或者說是線性的,無論是指數級還是線性的增長的趨勢,這里面我想說一下,因為 Gen-0 這個工作一周積累 30 個小時,300 萬條數據(有效的軌跡),我們大概也換算了一條,如果兩班倒的話,采集這個不同的 manipulation task,一班 8 個小時,16 個小時,其實有效的轉化率是 4、5 個小時,因為還要涉及到數據質檢、熟悉的過程等。這樣的話需要 Aloha 或者說主從臂這樣的一套設備需要 500 套,很顯然它不可能部署 500 套,所以肯定要走 UMI 等等這種低成本的路線。在具身領域大家都在談論數據金字塔、真機數據等概念,我覺得從算法、數據、硬件以及法律這幾個維度來看,如何構建一套高效的數據采集系統,在具身智能領域是非常關鍵,然后我們再來說 Scaling Law 這個事。
03
數據策略之爭:
仿真/合成數據 VS 真機數據
張鵬:具身智能領域會有 ImageNet 時刻嗎?什么時候收集真機數據的速度可以快速成長?
黃冠:我覺得很可能不會有 ImageNet 時刻,因為圖像分類任務很標準化,給一張圖片給了一個標簽就行;但是具身機器人,所有的傳感器、執行器、環境、物體都不一樣,本體也不一樣,具身不是打造一個數據集的問題。所以我認為具身領域可能不會存在 ImageNet 的時刻,而是會直接到 chatgpt 時刻。
并且我們其實覺得沒那么遙遠,最近硅谷密集的出來一波公司,已經積累了 10 萬小時以上的真機數據。所以可能明年很關鍵,明年全球可能會有 5-10 家公司,會把數據的量至少做到百萬小時的級別(當然這里面大家數據來源的分布可能會不一樣),可能會有公司接近 GPT-3 時刻。所以其實我們對 ChatGPT 時刻也不用那么悲觀,就像凱哥開場的時候講的,可能具身三五年時間就進入家庭場景了。我們其實更樂觀,因為這個行業很卷,只要大家意識到可以做,只要資源投入到位,就沒有那么大瓶頸,無論是數據獲取、模型架構,還是具身本體研發,只需要時間,需要投入。明年可能會接近 GPT-3 的時刻,兩三年之內有機會到 ChatGPT 時刻。
李弘揚:我沒有那么樂觀,跟黃總差不多,所以還是要遵循這個數據金字塔或者說 pyramid 的這種形式。互聯網數據,即 ego-centric data,加上 simulation,加上遙操等等這些,互為補充吧。
![]()
04
場景之爭:工業場景 VS 家庭場景
張鵬:機器人觸達 C 端用戶的路徑應該是怎樣的,要讓機器人真正走進千家萬戶需要突破哪些關鍵節點?
張笛:剛才大家提到兩個觀點,一個是學院派,一個是產業派,一個是一口吃成個胖子,把通用實現,另外一個是循序漸進做通用。我們自己的觀察,現在走進千家萬戶的具身機器人已經非常多了,甚至是在幾百萬到上千萬以上這個數量級。
我們可以舉一些例子,什么叫循序漸進的走向通用。當某一天我們在家里面看到自己的掃地機器人除了掃地以外,突然之間有了安防巡檢的功能的時候,它就向通用邁出一步。當它有了安防巡檢之后,又有一定的家居物品要維護的時候,它又向前走了一小步,但有一天總會有一個時刻,大家會忽然驚訝的發現,原來我家里的小機器人能干的事情竟然越來越多,竟然變成這個樣子,竟然解決的問題已經不再是我當時一開始覺得它的這個樣子了,這是一個產品系列,這是它在怎么樣去逐漸走向通用的過程。
而且同時,我們家用的小型清潔機器人廠商,一開始瞄準的是室內的場景,后續就會逐漸的希望我的機器人從室內走出去,可以從室內走上電梯里,可以走向自己家的草坪,可以走向街區。對于企業而言,要實現產品這樣循序漸進地走向通用化,究竟該如何推進呢?這兩個力量都可以讓一個行業從一開始對一個功能性的產品,從一個簡單的功能性的產品的期待,到逐步轉變為對能帶來更優質體驗產品的期待。這樣的循序漸進過程我覺得已經正在發生,而且如火如荼,甚至正在加速發生。
張鵬:聽起來你的思路是先聚焦于單一場景下的有效履約,就像掃地機器人也做出了千萬臺的市場一樣。基于一次次成功的服務履約,逐步疊加任務能力、演進產品形態,最終實現通用化。而不是希望一下出現一個「iPhone 時刻」。
張笛:也不完全是這樣,一定是量變帶來質變,在逐漸的履約的過程,現在的量變還不能引起質變,還沒到那個關鍵節點,沒到那個 turning point,就像傳統的功能機時代,先有 BP 機,再有大哥大,最后能發短信,有彩鈴,同時有 PDA,最后有一個大屏做整體的匯總,同時又能上網,又能聽音樂。現在我們處在前夜的狀態。
張鵬:C 端最有可能跑出來并且有商業價值的場景會是什么?
王叢:如果我們現在說具身能做很多東西的肯定是在家庭用戶場景,但問題是都做不出來。張笛哥說的我很認同,真的做消費電子的這幫人都很務實,都一定是價格成本對應 PMF(市場匹配度)的價值,一定是找到它的一個很匹配的點,這個東西才有可能在 C 端跑出來。C 端跑出來的東西絕對不是一個價格偏高,PMF(市場匹配度)沒有的東西,所以 C 端消費電子產品的功能一定是一點點積累的,其實 Iphone 也是功能積累起來的。
iPhone 如果大家看喬布斯的發布會,其實就是通訊、MP3 加上一個電話,三個已有功能整合到了一個產品上,然后慢慢構建起一個生態系統,從而有了所謂的智能手機。但是其實在 Iphone 之前的諾基亞也有不同的軟件,也叫智能機,其實我覺得消費電子一定還是回歸到最本身的產品需求,一點點疊功能發展出來,所以包括我們國內很多客戶,就像掃地機最初只是負責平面的清潔,這件事情它的價格空間就已經被定死了,因為它就是地面的清潔,就算把掃地機器人掃到 90 分、95 分、100 分,它的價格永遠是那樣,除非它變成一個空間清潔,但即便如此價格空間也有限,因為請個阿姨也就 40、50 塊錢一小時,家庭清潔就三個小時家里都打掃一遍,其實它的價格也定死了,一定要找到那個關鍵增長點才能爆發。
![]()
張鵬:從情緒價值這個角度來看,具身智能有機會進入家庭嗎?
王叢:情緒機器人這個事情我是很看好,但是它并不是嚴格意義上的價值,因為每個人,男人、女人、小孩、老人,每個人定義陪伴、定義情緒的概念太非標了,所以你很難定義出來一個所謂的陪伴機器人。陪伴什么?我覺得這不是一個以場景定義產品的思路,真正好的產品定義,應該是當我想到某一個特定場景時,就能立刻聯想到對應的產品;同時,當我看到某個產品時,也能馬上明確它要解決的是哪個具體場景的問題。所以大家看很多產品不能推廣,或者做的 idea 很好,但是賣不出去,雖然我覺得情緒機器人是個好東西,但是它一定要對應到不同細分的場景當中,大家才能進一步去談這個問題。
05
生態模式之爭:生態開放 VS 全棧自研
張鵬:目前的頭部玩家很多都選擇全棧自研,地瓜機器人為什么選擇了「生態開放」路線?
王叢:我覺得這個選擇既有感性的一面,也有理性的一面。先說說感性的:任何一家公司做事情,創始人、CEO 都會有對未來的畫面感——地瓜機器人的畫面感是什么?或者說,什么事能讓我們這幫人發自內心地開心?不是我們自己做出一個多智能、多厲害的機器人,而是看到各行各業的消費電子、智能硬件,都能通過我們的技術賦能實現智能化,這才是我幻想中的畫面,也是能讓我們真正開心的事——這是感性層面的原因。
我覺得機器人行業就算發展十年,也依然會是非標市場——各行各業的機器人本體形態,大概率都會不一樣。哪怕幾年以后人形機器人變得非常泛化、智能,我也無法理解「用幾十萬的人形機器人來掃地」這件事——大家看的科幻電影里,未來是各種各樣的機器人各司其職,我覺得現實的未來也會是這樣。機器人這件事情就是它很非標,它的場景很碎,它并不是一個寡頭壟斷的市場,那我覺得這個時代是需要有一家公司去把底層的一些東西給做好,才能真的加速這個時代的到來。雖然說這是我們的立場,但我覺得未來機器人公司有很多自研的,有很多會選擇擁抱像地瓜這樣的供應商,有很多公司會自研,這個太正常了。歷史這么多年,每個行業都會有這樣的分化:全棧自研的公司,比如蘋果,是非常偉大的公司;擁抱生態開放的公司,比如英偉達,也是非常偉大的公司。所以世界是多元的,兩種路線都對,只是我們感性上的追求,讓我們選擇了生態開放這一端。
![]()
張鵬:李老師前一陣聯合智元開源了全球首個基于全域真實場景的百萬真機數據集 AgiBot World,開源數據集會給行業帶來哪些價值?
李弘揚:感謝,首先要嚴謹說明,「全球首個」是智元的宣傳表述,學術上還是要謹慎,畢竟說「the very first」很容易被人攻擊。其實最開始 2023 年我就和姚卯青合計這個事,2024 年的時候智元還處在比較早期的階段,但他能有這樣的雄心壯志——在上海張江有 2000 平的數采場,而不是在大學實驗室的簡單的 pick-and-place,這一點才是最打動我的。后來才有了現在這樣的體量,包括我前兩天去那個數采廠,都已經需要訪客門禁了,能看出來規模確實起來了。
這個百萬真機數據集,至少現在回過頭來看,可以用于預訓練、世界模型的訓練,能給那些沒有海量數據的高校實驗室提供一個很好的平臺。但其實我們最近也在復盤,這樣的模式能不能復制?畢竟像 agibot world 這樣的數據集,買過來成本也不低,還需要一套完整的生態,上到云服務的支撐等等,都得配套。所以在這之后,開源開放的數據集其實挑戰還是蠻多的,可能最后還是需要一個行業和眾力共建的平臺來牽引,搭建一個統一的真機測試場,而不是單純靠一家的數據集獨大,這樣的生態會更合適一些。
06
人際關系之爭:親密共生 VS 警惕控制
張鵬:不同人群對人機親密程度的需求差異顯著,是否會催生功能型機器人與陪伴型機器人的細分賽道?「情緒價值」是否可以如何翻譯成可落地的產品定義語言?
張笛:其實我覺得我的綜合判斷跟王叢哥講得比較類似,情緒價值這個事情怎么定義產品,其實是非常非常需要去仔細斟酌的一個方向,純粹的情緒需求把它翻譯成商業需求的語言,肯定是能夠去做的。不管你是孤獨也好,甚至孤獨也可以分成若干種,解決不同的孤獨,可能會有不同的產品形式可以去做,這個時候你發現情緒需求并不依賴于一個全能的機器人,只要針對那樣專門的情緒需求定向去設計產品,這是我覺得最合理,也是最容易去取得一些市場進展的方式和方法。
這幾年我們在觀察整個市場,包括我們也服務了非常多的客戶,這個過程當中我們也看到,確實還是有一些情緒需求,可以靠這些能移動的機器人,或者不能移動的對話終端,來去解決,進而形成一個比較穩定的市場,也能形成一個未來有機會逐漸走向通用的這樣的 minimal available product(英),這些市場包括我們現在能看到方興未艾的一些小型的、甚至不能移動的對話終端——如果我們把具身智能列一個九宮格,橫軸看是否與物理世界產生接觸,縱軸是它到底要不要使用非常非常 fancy 的機器人算法,那這類對話終端其實就屬于「不接觸物理世界、僅依賴 NLP 算法」的類別,它確實也已經在具身這個賽道下面,扎扎實實定義出了一個 minimal availbable product,這是一個方向。
另外,在能運動的機器人品類里面,我們也發現現在非常多小型的桌搭產品,開始逐漸疊加越來越多的新功能和新范式,而且這些桌搭產品里,情緒價值往往高過實用功能。那這樣的桌搭產品,甚至是純玩具類型的產品里面,其實也有機會跑出商業化路徑。既然已經它是有 MVP 的這樣的一個 minimal available 的這樣的一個小市場了,那其實依然有機會在通用化的道路上越走越遠。
![]()
張鵬:機器人越來越像人,是提升用戶體驗的必要設計,還是會模糊人機邊界?如何定義「適度親密」的交互閾值?
石海林:其實在這個層面我們確實做過深入的思考,關于這個問題我們有一個比較適合的思考切入角度——從技術發展的速度來看,面向情感價值、情感陪護這個方向的機器人也好,具身智能產品也好,技術迭代真的非常快。從硬件上來說,不管是續航能力、結構復雜度,還是散熱效果、運行噪音,甚至是外觀設計,這些其實都還有很大的進步空間,但整體的發展速度非常快。從我們行業內的觀察、實踐以及整個產業的推進節奏來看,這些技術的收斂速度會高過我們以前對它的預期。
相對硬件來說,軟件這兩年其實是走在前面的,甚至如果我們今天把「情感陪伴」收窄到僅僅是「交互對話」這個范圍的話,它其實已經是一個成熟的技術了。所以這個東西怎么說呢?軟件相對來說是一個更成熟的板塊,當然我們今天說的交互,可能不僅僅是語言上的交互——它給人提供情緒價值,可能是因為顏值足夠討喜;比如我今天回家很累了,我的機器人幫我打掃完房間、收拾好碗筷,這個過程本身也能給我提供情緒價值;再比如它能跟我順暢互動、回應我的需求,同樣能提供情緒價值。
我們回頭看,面向情感陪伴的具身智能技術發展這么快,它勢必會推動產品和功能的成熟化,也會推動整個市場化的成熟,這個趨勢其實不太以人的意志為轉移,它是一個技術驅動的必然結果。那我們今天來看,我本人屬于那種技術狂熱者,我會主動去買悟空機器人這種陪伴型產品。其實不只是我,陪伴型機器人的目標人群會從現在的技術狂熱者,逐步滲透到普通大眾接受者,這個過程同樣不受人的意志為轉移。
所以從今天的技術勢頭來看,我們更應該思考的是怎么擁抱它、去接受它,怎么樣更好地使用它,而不是抗拒這個趨勢。
*頭圖地平線
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO





京公網安備 11011402013531號