
![]()
“構建世界模型,為什么不能只靠「煉丹」?”
作者丨吳彤
編輯丨林覺民
在香港中文大學(深圳),助理教授韓曉光的實驗室名為GAP,意為“像素、點與多邊形的生成與分析”。現在看來,這個名字,也隱喻著他希望彌合真實世界和虛擬世界之間的“鴻溝”的意思。
2018年,韓曉光加入這所大學時,是當時唯一專注于計算機圖形學研究的教師。2024年,他嘗試從三維重建拓展至具身智能與世界模型,又一次如入無人之境。
在小紅書上,他的賬號@韓曉光,簡介僅有兩行:港中深理工學院助理教授、圖形學與三維視覺。他將小紅書視為傳播平臺,也視為個人思考的整理場所,會公開討論“顯式3D是否還有必要”、“世界模型為何需要可解釋性”等專業問題,也會記錄與學生討論時獲得的啟發。
這種直接、平實的分享,吸引了一批對技術本質感興趣的讀者,也代表了韓曉光這類青年教師群體打破學術邊界的自覺實踐。從某一種角度看,構建世界模型需要理解真實世界的運行邏輯,而他的線上互動,本身就是一場持續進行的、小規模的“世界模擬”。
在韓曉光的敘述中,他研究演進是自然發生的。從三維重建到動態生成,再到服務于機器人的虛擬環境構建,核心始終是“三維內容的生成與理解”。
前段時間,他曾在2025年10月的國際計算機視覺大會(ICCV),他與三十多位來自學術界與工業界的研究者見了面。他們聊了很多,包括:視覺內容生成需要3D嗎?視覺內容生成如何做到物理真實?學術界還應該做視頻生成嗎?三維數字人還有必要做嗎?具身智能數據應該走哪條路線?具身觸覺感知的必要性和現狀?學術界怎么做具身智能?三維生成的架構用AR還是Diffusion?
但其實,這些小問題都指向一個大問題:我們離一個真正理解世界運行規律的 AI 還有多遠?
過去一年,整個行業在“世界模型”熱潮中的集體探索與路徑分歧。有人相信數據與算力終將煉出無所不能的模型,也有人堅持必須為 AI 注入人類可理解的結構與邏輯。
韓曉光說,他要做后者。
近日,在雷峰網舉辦的第八屆GAIR全球人工智能與機器人大會現場,韓曉光教授做了題為《3DGen:人類安全感之戰》的分享,以下為他的演講內容,雷峰網做了不改變原意的編輯。
01
三維生成發展歷程
我今天想講的是三維生成。剛才幾位嘉賓有提到數字人、視頻生成和具身智能。現在當我們談論三維生成時,大家能聯想到什么?如果是這個領域的研究者,可能會想到騰訊混元3D生成。
首先,我想梳理一下三維生成的發展歷程。
實際上,在深度學習興起之前,三維生成的概念已經存在。當時就有許多研究者思考:深度學習既然能很好地生成圖像,那能否生成3D內容?
![]()
因此,最初的方向就是嘗試從單張圖像生成三維模型,準確說三維生成在早期階段主要聚焦于“類別限定”。這是什么意思呢?就是針對椅子、車輛、角色、頭發、人臉、人體等不同類別,分別訓練一個模型。那時候還沒有“大模型”的概念,但深度學習模型已經廣泛應用。
![]()
而“開放世界”的三維生成,大約從兩、三年前(2023年左右)的Dreamfusion工作開始興起。當時我們可以通過優化的方式生成3D模型,但速度較慢,通常需要一兩個小時。在這個階段,隨著Stable Diffusion等文本到圖像模型的成熟,研究者開始探索能否用文本直接生成3D模型,這就是“文生3D”,我們稱之為開放世界生成,因為它不再受類別限制,任何文本都可以生成對應的3D模型。
![]()
隨后的一段時間里,出現了許多以“Dreamer”為后綴的研究工作,這些都是Dreamfusion之后的一系列進展。這些工作都致力于提升文本到3D的生成效果,但基本都基于優化方法,生成速度較慢,通常需要半小時到一小時才能產出一個模型。
![]()
而現在,我們進入了大模型時代。
首先,Adobe推出了一個名為Large Reconstruction Model的模型,它利用海量數據訓練,能夠從單張圖像重建三維模型。隨后,最早是由上海科大在Clay這項工作里,率先提出了“原生模型”的概念。發展到現在,我們已經看到了像“混元3D”等許多商業公司和軟件,這類應用已經非常多。現在,例如混元3D的3.0版本,你隨便輸入一張圖片,它真的能生成一個在普通人看來幾乎沒什么瑕疵的三維模型。
![]()
02
三維生成發展趨勢
接下來,我想分享當前業界關注的三維生成的前沿方向與發展趨勢。
首先是更精細。這意味著我們需要在幾何層面實現極致的細節表現,讓生成物體表面的幾何信息無比豐富。例如數美萬物的Spark 3D。
另一個重要趨勢是更結構化。在游戲等行業,一個三維模型通常需要被拆解成不同部件,比如衣服、身體、頭發需要分開,以便設計師進行獨立編輯。如果生成模型是為了3D打印或制造,那這種結構化的分解就更為必要,因為真實世界的物體本身就是由多個部件組裝而成的。混元3D的“X-Part”工作就是一個例子,它能夠生成游戲角色并將其部件合理地拆分開。
第三個方向是更對齊。現在的商業軟件可以從一張圖重建3D模型,但如果你仔細觀察,生成結果與輸入圖像往往存在細節不對應的問題。比如,一張圖里的柵欄有5條橫杠,生成模型里可能變成了6條。這是當前生成模型固有的難題。我們組的一項工作就致力于解決這個“對齊”問題,力求讓生成的三維模型在結構上與輸入的二維圖像嚴格對應。
![]()
03
三維生成的尷尬
以上我簡單梳理了三維生成至今的發展脈絡,然而,三維生成一直面臨一個尷尬,尤其是在視頻生成技術出現之后。
這個尷尬是什么呢?
我相信大家可能都玩過游戲或看過CG動畫電影。在傳統游戲或動畫制作中,創建一個角色需要非常繁瑣的流程。這里我展示幾個例子:首先需要概念設計和草圖,然后基于草圖進行3D建模——這又涉及低模/高模制作、拓撲優化,之后還要進行紋理貼圖、骨骼綁定、制作動畫,最后再進行渲染。但你會發現,盡管中間過程極其復雜,包含了大量三維工作,最終的產出形式依然是視頻。
這就是尷尬所在。
![]()
當視頻生成(如Sora)出現后,一個文本指令就能直接輸出視頻,中間完全跳過了所有復雜的三維流程。這對于我們圖形學、游戲和三維生成領域的人來說,無疑是一個沖擊。
很多同行,包括我自己在內,都曾一度懷疑:在視頻生成如此強大的時代,3D內容創作還有存在的必要嗎?
這確實是近期行業內許多人關注和討論的問題。但三維生成自有其“求生欲”,我們不會輕易被取代。這種“求生欲”源于我們發現視頻生成技術當前存在的一些核心局限。
首先是物理不夠真實,視頻生成在模擬復雜物理交互和長期一致性上仍有困難。
其次是3D空間不一致,物體在運動中的形態和透視可能發生不合理變化。
最重要的是內容可控性不足。比如,我想把生成視頻中的一個玻璃杯換成特定形狀或顏色,在傳統三維流程中這是輕而易舉的編輯,但在純文本驅動的視頻生成中,目前還難以實現這種精細、可控的修改。
這些發現讓我們重拾了信心。視頻生成還做不到這些,這說明基于三維的、結構化、可編輯的內容創作流程,依然擁有不可替代的價值。
![]()
然而,真正的危機依然存在。我們不是說視頻生成“不可控”嗎?但今年,Sora2 和谷歌的 Veo3 相繼推出,它們已經展示出了初步的“可控”能力。至少,可控的雛形已經顯現。這種可控性體現在哪里?比如,我可以控制視角的變化。生成的不僅是一個固定視角的視頻,而是可以進行交互,就像玩游戲一樣切換畫面,實現場景漫游。雖然這還只是粗糙的可控,但真正的危機感已然來臨。
![]()
于是,一系列根本性問題擺在我們面前:視頻生成模型真的不需要3D嗎?
就此,我問過許多業內人士。許多從事3D工作的人認為,視頻模型可能還是需要3D的;而許多做視頻模型的人則覺得不需要。那么,究竟需不需要呢?
我可能給不出確定的答案,但可以梳理一下思路。在我看來,當前視頻模型面臨兩個似乎尚未找到完美解決方案的核心難題:
細節可控:正如我之前提到的,你生成了一段視頻,但能否精細修改視頻中人物的臉型、衣著、發型,這種對細節的精準控制目前依然非常困難。
長程記憶:目前生成的視頻長度有限,比如一兩分鐘。但想象一下,如果生成一個室內漫游視頻,當你走進一個房間又離開,再回到這個房間時,模型很可能“忘記”了房間原來的樣子,生成的內容與之前不一致。這說明模型缺乏對已生成內容的持久記憶。
![]()
那么,視頻模型到底需不需要3D?要解決上述的“細節可控”和“長程記憶”問題,3D或許能提供一種思路。利用3D的方式,大概可以分為四種路徑:
第一種,完全不用3D。這是目前主流的端到端范式:輸入一個條件(如文本),通過一個龐大的神經網絡,直接輸出視頻。整個過程是純2D的,依賴海量視頻數據訓練。這也是現有視頻模型的基本邏輯。
第二種,利用3D仿真作為“世界模擬器”。我們知道,3D仿真本身就在嘗試構建一個世界模型,只是目前仿真結果還不夠真實。那么,是否可以將其作為第一步:先根據用戶輸入的條件(如文本),通過3D仿真引擎生成一個CG視頻(如游戲畫面或動畫)。這個視頻是高度可控的,但問題在于它不真實,有明顯的CG感。于是,可以在其后接入一個神經網絡,專門負責將CG視頻“轉化”為看起來真實的視頻。
第三種,將3D信息作為控制信號輸入。既然純視頻生成不可控,那能否將3D信息作為額外的控制條件,注入到生成網絡中?其框架是:在輸入生成條件的同時,也輸入3D信息。例如,要生成一個室內漫游視頻,可以先對室內場景進行三維重建。這個重建的三維模型,本身就充當了一種“記憶”,記錄了場景的空間結構。基于這個三維記憶,再去生成漫游視頻,就有可能實現更長的、空間一致的視頻內容。
第四種,用3D合成數據來輔助訓練。第一種2D“端到端”范式最大的瓶頸是缺乏高質量、可控的訓練數據。網上的視頻數據雖然多,但不可控。那么,能不能利用3D仿真技術,批量生成大量可控的、帶標注的視頻數據?然后用這些合成數據,作為訓練信號或損失函數的一部分,來引導和增強純端到端的視頻生成模型。
04
世界模型需要3D嗎?
回到我們今天的主題“世界模型”。現在一提到世界模型,很多人會直接聯想到視頻模型。
這里有一個根本性問題:我們為什么要做世界模型?因為我們需要“還原”或“數字化”一個虛擬世界。視頻是對世界的一種數字化記錄,3D則是另一種形式的數字化。那么,世界模型究竟需不需要3D?
要回答這個問題,首先要厘清“世界模型”是什么。
我認為,世界模型的核心出發點,是對我們所生活的真實世界進行數字化,用計算的方式理解和表達其中蘊含的規律。有了這個模型,我們才能進行預測——這是世界模型一個極其關鍵的功能。
![]()
在我看來,世界模型大概可以分為三類:
第一類,是服務于“人類共同體”的宏觀世界模型。這其實是我們人類一直在做的事:試圖“窺探天機”。從古代的司天監觀測天象,到現在的天氣預報、全球氣候模擬,再到生命科學探索自然規律,甚至從某種“造物主”視角去推演文明、社會的興衰與可能的災禍。我們在嘗試理解并預測這個物理世界和社會系統運行的根本規律。不過,這或許不是當前AI語境下“世界模型”討論的重點。
第二類,是服務于“個人”的體驗與探索模型。我們每個人與生俱來有一種最深層的需求:探索未知。但人類個體是渺小的,我們無法親身抵達世界的每一個角落,更無法觸及想象的邊界。因此,我們需要一個虛擬世界。想象一下,如果能像《頭號玩家》那樣,戴上VR設備,就能坐在家中沉浸式地游歷世界任何地方——無論是真實世界的數字復刻,還是人類純粹創造的幻想之境。這種深度、個性化的體驗,是驅動我們創造虛擬世界的核心動力之一。
在這個虛擬世界里,我們需要什么樣的規律呢?可交互性是核心。你不僅需要看、需要聽,還需要能夠操作、漫游,甚至能感受到觸覺反饋。要建立這樣一個可交互的虛擬世界,我們就必須研究和數字化其中大量的物理與交互規律。
這引出了世界模型的第三類,也是當前討論最多的:給機器用的世界模型。
比如,用于自動駕駛汽車或具身智能機器人。這是一個“具身”的世界模型。以自動駕駛為例,汽車在決定一個動作(比如變道、轉動方向盤)時,需要能根據這個動作,預測世界(周圍環境、其他交通參與者)接下來會發生什么變化。這就是世界模型在增強機器智能方面的關鍵作用。
從以上三類來看,要實現可交互的世界模型,3D似乎是必要的。再舉VR的例子,如果只有視頻模型,當你轉動視角或進行操作時,它可以給你視覺反饋。但當我們進一步需要真實的觸覺反饋,去感受物體的大小、形狀和質地時,就必須依賴對三維空間的精確理解和建模。因此,在可交互的需求下,3D是不可或缺的。
05
具身智能需要3D嗎?
接著這個話題,就關聯到,具身智能是否需要3D?
![]()
雖然我研究不深,但當前的主流方法是向人類學習。我們之所以要造人形機器人,就是希望它能完成人類能做的所有事情。那么,要“向人類學習”,我們就必須研究人類是如何與世界交互的:如何拿杯子、倒水、做飯。要研究這些,第一步就是對人類與物體的交互過程進行數字化。比如,左下角的例子展示了人手抓取物體的過程。我們必須對這種交互進行精確的、動態的捕捉與還原,才能深入理解人手操作的機理。從這個角度看,3D乃至4D的還原是必要的基礎。
其次,如果不從人類示范中學習,我們還可以讓機器人在真實或仿真的世界中去主動探索,就像人類通過實踐和強化學習來發展智能一樣。但讓機器人在物理世界無限制地探索是困難且危險的。因此,我們需要仿真環境。這就必然要求我們能夠創造和生成可交互的三維場景。有了這樣的虛擬場景,機器人才能在其中安全、高效地進行大量試錯和強化學習。從這個角度看,具身智能同樣離不開3D。
除了這些“虛擬”世界的需求,還有一個實實在在、無法繞過3D的領域:從數字到實體的制造。
![]()
我們不僅需要在虛擬環境中與一個杯子互動,最終可能還要將這個杯子真正打印或制造出來,實現個性化定制。無論是三維打印、智能制造,還是CAD模型生成(這也是當前3D生成的熱點方向),這個“從虛到實”的過程,3D是絕對的基礎。例如,我們正在進行的牙齒生成項目,目的就是為了制造出精確的牙齒模型,這完全依賴于高質量的三維數據。
06
技術路線之爭:顯式與隱式之爭
最后不得不談一個核心的技術路線之爭:顯式與隱式之爭。
![]()
我先解釋一下這兩個概念。假設我們有一個具身智能任務:一個機械爪要抓起一個盤子,我們需要預測它提起盤子后會不會掉下來。
隱式路徑是怎么做的呢,就是構建一個端到端的神經網絡,輸入一張圖片,直接輸出預測結果。為此,我需要準備大量數據來訓練它。其核心在于一個稱為 “潛變量”(Latent) 的東西。模型的有效性依賴于這個潛變量,它將所有輸入信息(包括其中隱含的物理規律)都編碼在其中。我們相信,通過大量數據訓練,這個潛變量自身就學習和蘊含了完成任務所需的物理知識。這是典型的“黑箱”或端到端邏輯。
顯式(模型驅動)路徑:與之相對,顯式方法會分步進行:
首先,我會顯式地重建出爪子和盤子的三維模型。然后,基于這些精確的幾何模型,我分析它們是否充分接觸,再結合盤子材質等物理參數,通過明確的物理公式進行計算,最終判斷出提起后是否會掉落。這條路徑依賴我們對世界(幾何、物理)的明確建模和理解。
顯式方法是我們比較容易理解的,也是深度學習興起之前主流的范式;而人類無法直觀理解的,如何運作我們并不完全清楚,就稱為“隱式”。
我再舉一個開車的例子。很多汽車會顯示一個功能:將周圍車輛的三維模型重建出來,可視化地展示給你看,并提示碰撞風險。這是顯式的方式。另一種隱式的方式是,系統不展示任何三維模型,只是在快撞上時給你一個文本或聲音警告。如果讓你選,開哪種車會更有安全感?我想大多數人會選擇前者——把所有東西都可視化給我看,我才能理解和信任系統做出的“會撞上”或“不會撞上”的判斷。
這里就引出了一個關鍵詞:安全感。
我們為什么要做世界模型?其背后亙古不變的動機,是人類探索世界規律的渴望。而人類之所以要探索規律,根據 DeepSeek 給我的答案,是因為我們對未知有著與生俱來的不安全感。正是這種對未知的恐懼,驅動我們去探索大海、探索太空,也驅動我們去構建世界模型,以獲得對世界的理解和掌控,從而滿足我們的安全感。
那么,在AI時代,最讓人感到不安全的是什么?對我來說,有兩個詞:“端到端” 和 “潛變量”。
我知道它們能工作,但我不知道它們為什么能工作。不僅是普通用戶不知道,很多時候我們研究者也不完全清楚。我們只知道堆疊網絡層,卻不知道里面的神經元究竟在做什么。其本質在于,這個“潛變量”是一個高維向量,而人類無法直觀理解高維空間。
人類能理解什么?我們能理解3D和4D。我們從初中學習平面幾何,到高中學習立體幾何,我們能把理解到的3D、4D概念畫在紙上。但一旦進入5維、6維甚至更高維度,我們就無法想象了。這也是為什么會有“可視化”這個領域——它的核心邏輯,就是把高維的東西“拍扁”成2D或3D,以便能更容易地理解。
所以,我再次強調為什么3D/4D是必要的。正是因為3D/4D是我們人類能夠直觀理解和感知的維度,它們能帶給我們最直接的安全感。
![]()
最后,面對日益強大的AI,我認為可解釋性是人類保有基本尊嚴的關鍵。
我想用一個場景來總結。想象古代一位追求長生不老的皇帝,他招攬了許多聰明的術士來煉丹。這些術士很給力,不斷進獻丹藥,雖然還不能讓人長生不老,但或許能強身健體。他們還會不斷升級,拿出v2、v3版本。皇帝很開心,不斷給予經費和權力,術士的部門也越來越龐大。但這里有一個前提:皇帝(統治者)完全不懂煉丹的原理,他不知道這丹藥是怎么做出來的。
那么,請大家想象一下,當有一天,術士們宣布:“我們快要煉出長生不老藥了!” 此時此刻,皇帝會怎么想?他又會如何對待這些術士?
所以,我認為真正的安全感,永遠來源于效果與可解釋性之間的平衡。這一點至關重要。然而,在我們當前的AI時代,這個天平已經嚴重失衡了。我們過分追求性能(performance),過分追求效果,但可解釋性還遠遠不夠。而要實現可解釋性,3D是必不可少的途徑。因為它提供了我們人類能夠直觀理解、能夠信任的基石。





京公網安備 11011402013531號