
出品 |
作者 | 梁昌均
編輯 | 楊錦
作為中國最早布局大模型研發的科研機構,6月6日,北京智源研究院發布“悟界”系列大模型。
這包括原生多模態世界模型Emu3、跨本體具身大小腦協作框架RoboOS 2.0與具身大腦RoboBrain 2.0、全球首個腦科學多模態通用基礎模型見微Brainμ以及全原子微觀生命模型OpenComplex2。
“大模型技術還遠沒有到發展的盡頭,提升瓶頸的解法有很多,包括強化學習,利用合成數據和多模態數據等。”在會前兩小時的溝通會中,王仲遠對等媒體表示。
從“悟道”到“悟界”,在王仲遠看來是水到渠成的一件事,AI正加速從數字世界進入物理世界,“這一切構成的世界模型,是實現物理AGI的重要發展路徑”。
“物理世界的多模態大模型,技術路線還沒有收斂。”他表示,最合適多模態模型的技術線還沒有真正找到,而智源也在做新的架構探索。
王仲遠強調,智源會堅定去做高校做不到、企業不愿做的事情,尤其是全新的技術路線、技術方法和科學原理的探索。“當成功之后,我們會通過開源,或孵化的方式交給企業來做。”
作為AI走向物理世界的重要方面,如何提升機器人智能水平已成業界焦點。此次智源就推出了跨本體具身大小腦協作框架RoboOS2.0,以及具身大腦RoboBrain 2.0。
“現在的具身智能大模型,還處在很早期的GPT-1、GPT-2的階段,技術路線還沒有達成共識,離真正的產業大規模落地也還有很長距離。”
對于具身智能大模型的發展趨勢,王仲遠認為,未來5到10年,大小腦融合模型可能會成熟,但絕不是今天,主要原因在于數據受限。
目前,業內不同團隊采取不同方式解決數據短缺問題,包括采集真實世界數據,或生成仿真數據進行模型訓練。
“真實數據肯定很重要,但是不是足以訓練出有價值的模型,現在有爭議。”他提到,有企業是依靠仿真數據,而智源則采用了和大模型吻合的技術路線。
不過,他也坦誠地說,無法判斷哪種路線會跑通,智源的探索也只是對技術路線的一種判斷。
面對人形機器人熱潮,王仲遠認為,現在它的硬件也不成熟,模型也不成熟。“所以一方面有買家秀,買了機器人之后發現啥也干不了;一方面有賣家秀,感覺機器人無所不能。”
不過,他堅定長期看好雙足人形機器人的發展方向。談及車企對人形機器人的布局,王仲遠表示,不同產業方參與是好事,但現在還處在早期,“具身智能的小組賽還沒結束,遠沒到淘汰賽”。
對于具身智能機器人的應用前景,王仲遠認為,首先會在特定場景,尤其是相對封閉的場景落地,如在工廠完成相對固定、重復、枯燥甚至危險的的任務,這會是具身智能第一波真正的紅利。
以下是此次對話精編:
一、AI應該走向物理世界,多模態技術路線還沒有收斂
媒體:從悟道到悟界,是否意味著大模型已經進入新的發展階段?
王仲遠:我們推出悟界大模型,是水到渠成。過往大模型發展,基本還處在數字世界,還有很多發展空間。這塊交給產業界做就行,o4、o5,還是R1、R2,會繼續發展,并能構建出更多應用。
我們堅定認為,一方面要不斷通過強化學習去提升推理能力,更重要的是AI應該走向物理世界。
媒體:智源提出原生多模態大模型,原生怎么理解?跟已有多模態大模型區別是什么?
王仲遠:原生是指從一開始就把各種多模態的數據,包括文字、圖像、聲音,乃至腦信號等各種都放進去訓練。各種模態數據越來越多,怎么從中找到最有用的,需要探索清楚這樣的技術路線。
現在多模態太過寬泛,造成很大困惑,多模態好像很強了,怎么你們還在做?此多模態非彼多模態。我們的多模態大模型是為了推動AI從數字世界走向物理世界,物理世界的多模態現在還沒完全解決,我們會堅定去做。
媒體:智源做多模態還是Transformer 架構嗎,還是有更多創新?
王仲遠:我們往世界模型發展的時候,在做統一架構的模型,它不僅僅能理解靜態的多模態數據,甚至還能夠對時空進行理解,這是我們所追求的世界模型和多模態的能力。
Transformer依然是一個非常好的架構,能夠去兼容不同模態,并能比較容易去scale up訓練多的數據。我們也在探索不同架構,對基礎架構做更新,但還處在非常早期的前沿探索。
媒體:您認為多模態大模型處于什么階段,能大規模落地嗎?
王仲遠:現在多模態技術路線還沒有收斂,文生圖、文生視頻走的是Transformer+Diffusion的技術路線,比較確定,能力不斷提升,在某些特定場景已落地。能否非常普世和廣泛落地,需要一段時間。
媒體:AI從數字世界走向物理世界最大的技術壁壘是什么?智源在這方面的考慮是什么?
王仲遠:物理世界的多模態大模型,技術壁壘在多模態模型本身,因為技術路線還沒有收斂。我們的理念是堅定去做高校做不到、企業不愿做的事情,尤其是全新的技術路線、技術方法和科學原理的探索。當成功之后,我們會通過開源,或孵化的方式交給企業來做,去做出產品。
二、具身智能還未迎來GPT-3時刻,技術路線或與大模型類似
媒體:現在具身大模型,如果類比AI大模型,處于哪個發展階段?
王仲遠:現在的具身智能大模型,還處在很早期的GPT-1、GPT-2的階段。GPT-3之前,業內對大模型也沒有共識。現在具身智能,是用仿真數據,還是真實數據,是大小腦融合,還是協作,都沒有共識,離真正的產業大規模落地也還有很長距離。
媒體:智源所做的跨本體的具身大腦難度在哪?現在行業有哪些探索?
王仲遠:大腦跨本體相對容易,其最重要的是感知理解世界,跟世界交互,然后去做規劃,指令拆解。跨本體的小腦,坦白來講我們還沒有完全將技術路徑跑通。
有些創業公司,把不同硬件采集下來的數據應用在模型的訓練上,希望能夠去學到更加泛化的能力,目前看起來有一定效果,但還沒有成為行業廣泛共識。
媒體:現在很多人認為機器人大小腦會融合,但也有很多人說不應該融合,您怎么看?
王仲遠:融合的統一模型是我們所追求的,可能5到10年,大小腦融合模型有可能成熟,但絕不是今天。原因就是數據受限,現在具身智能的數據量不足以支持大小腦模型的訓練。
我們認為具身智能或機器人2.0時代,最重要的就是突破專有任務,達到一定的泛化性,具備跨領域的能力,這跟AI第三次浪潮中深度學習的發展路徑相似。現在很多所謂的VLA模型,不具備泛化性,這需要時間的沉淀。
媒體:您提到泛化能力,但現在數據非常稀缺,這個問題怎么解決?
王仲遠:硬件公司最好還要降低成本。如果機器人是幾百塊錢,買的可能性就大,數據采集量,包括模型提升速度也會大幅提升。
真實世界的數據肯定很重要,但是不是足以訓練出一個有價值的模型,現在有爭議。我們孵化的銀河通用,王鶴老師的理念是用仿真數據。
智源認為,從已有的海量數據學習,再通過少量的真實世界數據去強化學習,有可能突破具身智能。這跟大模型發展的技術路線吻合,即具身智能或物理世界的AGI可能會是類似的技術路線。
媒體:仿真數據和真實數據,有無優劣之分?采集真實數據成本高,費時費力,有意義嗎?
王仲遠:這沒有明確說法,現階段沒有收斂或沒有共識,智源所走的技術路線也只是我們對技術路線的一種可能判斷。
我們認為采集真實數據有價值,更多做強化學習的使用,數據量不需要那么多。智源做跨本體的具身大腦,將來可能是融合模型,希望能夠突破硬件構型,包括數據類型,使得這些數據真正有效集成起來,這樣采集的數據才不會被浪費。
媒體:具身智能可以復制自動駕駛的數據積累模式或經驗嗎?
王仲遠:具身智能在數據采集路徑上,很難簡單復制自動駕駛,而且相比自動駕駛,具身智能機器人的操作空間、涵蓋范圍和復雜性更大。
三、人形機器人成熟周期會更慢,行業小組賽還沒結束
媒體:張鈸院士說人形機器人走的是錯誤的道路,您看好人形機器人嗎?
王仲遠:長期來看,人形機器人是一個很好的發展方向,機器人會成為人類社會的一個基礎設施,雙足人形機器人,長遠看會更容易融入。
這不代表其它構型就沒有用武之地,各種構型機器人,未來都會共存。但人形機器人成熟周期會比其它構型機器人慢。現在人形機器人才剛剛會走會跑,能不能走得穩、跑得穩,還在努力中。
媒體:此前王興興說現在人形機器人缺少的不是控制運動能力,而是智力,您怎么看?
王仲遠:我們認為(人形機器人)硬件也不成熟,模型也不成熟。所以大家會看到,一方面有買家秀,買了機器人之后發現啥也干不了;一方面有賣家秀,感覺機器人無所不能。
在具身智能發展過程中,我們期待探索出一條獨特的路徑。這有兩種可能性,一種是將數字世界的智能能力帶出數字世界,邁向物理世界;另一種就是讓機器人做得足夠便宜,這樣很多小型機器人就會能走進千家萬戶,但大型的人形機器人,周期一定要更長。
媒體:很多車企也在進軍人形機器人,車企在未來的競爭格局里面會占據什么位置?
王仲遠:車企有很強的制造能力和供應鏈優勢,也有很好的落地場景。但這種優勢能不能變成最終的競爭優勢,能否幫他們在競爭中取得成功,不一定。具身智能和自動駕駛還是有很大區別,同時,現在還處在早期,具身智能的小組賽還沒結束,遠沒到淘汰賽。
媒體:未來三年,具身智能機器人最可能在哪個領域規模化落地?
王仲遠:首先會在特定場景里落地,尤其是相對封閉的場景,比如工廠環境,完成相對固定、重復、枯燥甚至危險的的任務,這會是最快的落地場景。
這些場景只需滿足幾個條件,第一硬件成本能夠支撐在它的生命周期里ROI大于1,并且這種場景是人類不愿意干的,不用擔心會替代掉人類工作,這會是具身智能第一波真正的紅利。





京公網安備 11011402013531號