近日,24 歲的 00 后博士生胡文博和所在團(tuán)隊(duì)造出一款名為 G2VLM 的超級 AI 模型,它是一位擁有空間超能力的視覺語言小能手,不僅能從普通的平面圖片中精準(zhǔn)地重建出三維世界,還能像人類一樣進(jìn)行復(fù)雜的空間思考和空間推理。
它除了可以判斷一張照片里有一把椅子之外,還能知道這把椅子距離桌子有多遠(yuǎn),更能知道有多高、是正著放還是歪著放。這意味著,未來的機(jī)器人可能會更靈活地幫你拿取物品,AR/VR 游戲的世界會更加真實(shí),甚至自動(dòng)駕駛汽車能夠更精準(zhǔn)地判斷距離和障礙物。
![]()
圖 | 胡文博(胡文博)
在 SPAR-Bench 測試中,G2VLM 的總分比頂尖商業(yè)模型 GPT-4o 超出了 18.5 分,位居榜首。在 OmniSpatial、MindCube 等多個(gè)空間推理測試基準(zhǔn)中,它也取得了最優(yōu)或極具競爭力的成績。
最有趣的是,盡管 G2VLM 的模型尺寸只有 4B 參數(shù),遠(yuǎn)遠(yuǎn)小于一些動(dòng)輒數(shù)百億甚至上千億參數(shù)的大型模型,但是它在空間任務(wù)上的表現(xiàn)卻輕松超過了這些大塊頭,這證明它的雙專家架構(gòu)設(shè)計(jì)得非常高效,不是靠蠻力,而是靠巧勁。
胡文博告訴 DeepTech:“機(jī)器人要執(zhí)行如泡咖啡這類復(fù)雜操作,必須實(shí)時(shí)、精準(zhǔn)地理解物體的位置、距離和相互關(guān)系。G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力。”
![]()
(https://arxiv.org/pdf/2511.21688)
從平面眼到立體眼:AI 的空間視力進(jìn)化史
G2VLM 和我們手機(jī)里的圖像識別軟件有著本質(zhì)不同,要想理解它的獨(dú)特之處得先從現(xiàn)有的視覺-語言模型講起。這類模型所存在的共同缺點(diǎn)在于,它們僅僅擁有平面眼。
假如你給這些 AI 看一張桌子的照片,經(jīng)過海量圖片訓(xùn)練的它們,可以很輕松地識別出這是一張桌子,甚至能夠描述桌子的顏色和樣式。
但是,如果你問它:桌子左邊的杯子距離桌子右邊的書籍大概有多遠(yuǎn)?或者你問它:能否繪制一張關(guān)于這個(gè)房間的三維結(jié)構(gòu)圖。這時(shí),它可能就傻眼了。因?yàn)樗幚韴D片的方式,就像把一幅有深度的油畫壓成一幅扁平的剪貼畫,丟失了至關(guān)重要的深度和空間關(guān)系信息。
這就像只通過影子來猜測物體的形狀,準(zhǔn)確度非常低。也就是說這些 AI 模型主要依靠圖片的紋理、顏色和已有的知識比如桌子通常比杯子大來猜測空間關(guān)系,而不是真正地理解三維幾何關(guān)系。因此,它們需要在精確空間感知的任務(wù)上,比如機(jī)器人導(dǎo)航、三維場景編輯或者回答復(fù)雜的空間關(guān)系問題時(shí),表現(xiàn)得差強(qiáng)人意。
![]()
(https://arxiv.org/pdf/2511.21688)
靈感來源于人腦,打造雙專家協(xié)作系統(tǒng)
胡文博等人在設(shè)計(jì) G2VLM 的時(shí)候,從人腦處理視覺信息的方式中獲得了靈感。人腦主要有兩條視覺處理通路:第一條是“是什么”的通路,該通路負(fù)責(zé)識別物體是什么。
比如,看到紅色、圓形、有柄的東西,就能認(rèn)出來這是蘋果、第二條是“在哪里”的通路,該通路負(fù)責(zé)判斷物體的位置、距離和空間關(guān)系。比如,判斷蘋果在盤子上方,距離人手大約有 20 厘米。
G2VLM 將這個(gè)原理用在了 AI 模型上,它不是一個(gè)單一的“大腦”,而是由兩位專家緊密合作構(gòu)成的:
第一位是幾何感知專家,這位專家的專長是從 2D 圖片中解讀 3D 幾何信息,它的目標(biāo)是弄清楚物體的深度、各個(gè)點(diǎn)的三維坐標(biāo),以及拍攝照片的相機(jī)角度。
第二位專家是語義感知專家,這位專家繼承了現(xiàn)有 AI 模型的優(yōu)點(diǎn),擅長理解圖片內(nèi)容并用語言進(jìn)行描述。它能認(rèn)出物體和理解場景,并能回答一般性問題。
最關(guān)鍵的是,這兩位專家并不是各自為戰(zhàn),而是通過一個(gè)共享的注意力機(jī)制來進(jìn)行緊密相連,以便能夠隨時(shí)交流信息。當(dāng)語義專家說“這里有個(gè)沙發(fā)”時(shí),幾何專家就會立馬補(bǔ)充說:“這個(gè)沙發(fā)距離墻壁大約有 1.5 米,高度是 0.8 米。”這種實(shí)時(shí)的、深度的協(xié)作,讓 G2VLM 同時(shí)具備了看懂內(nèi)容和理解空間的超能力。
![]()
(https://arxiv.org/pdf/2511.21688)
獨(dú)特的學(xué)藝過程:兩步訓(xùn)練法
培養(yǎng)這樣一位雙料專家并非易事,胡文博為 G2VLM 設(shè)計(jì)了一套獨(dú)特的學(xué)藝方案:
在第一階段,讓其閉關(guān)修煉幾何神功。首先,得固定住語義專家也就是讓它暫時(shí)休息,此時(shí)只針對幾何專家進(jìn)行訓(xùn)練。胡文博等人使用帶有精確三維標(biāo)注的數(shù)據(jù)來訓(xùn)練它。
這就好比讓一名未來的建筑測量師,在擁有完整藍(lán)圖的成千上萬個(gè)建筑模型上反復(fù)練習(xí),直到練就一雙火眼金睛,光看照片就能在腦中精確構(gòu)建三維模型。這個(gè)過程非常耗費(fèi)計(jì)算資源,需要在數(shù)十臺頂級顯卡上連續(xù)訓(xùn)練好幾天。
在第二階段,讓其進(jìn)行融會貫通。當(dāng)幾何專家初步練就基本功之后,就輪到它和另一位專家一起訓(xùn)練了。
這時(shí),訓(xùn)練數(shù)據(jù)變成了各種需要空間推理的問題,比如需要解決“根據(jù)這兩張從不同角度拍攝的照片來判斷球是滾向了左邊還是右邊?”在這個(gè)階段,語義專家被喚醒之后,能夠?qū)W習(xí)如何主動(dòng)利用幾何專家提供的深度和距離等信息來回答問題。
而幾何專家也有可能進(jìn)行自我微調(diào),來讓自己提供的空間信息更加適用于高級推理。通過這種聯(lián)合,兩位專家磨合得越來越好,最終合體成為強(qiáng)大的 G2VLM。
![]()
(https://arxiv.org/pdf/2511.21688)
在多個(gè)國際 AI“比武擂臺”上證明自己
練成之后的 G2VLM 到底有多強(qiáng)?
在三維重建的測試中:就深度估計(jì)來說,給定一張單視角照片,它能估計(jì)出照片中每個(gè)像素點(diǎn)距離相機(jī)的實(shí)際深度,誤差很小;就點(diǎn)云估計(jì)來說,給定幾張多視角照片,它能生成密集且準(zhǔn)確的三維點(diǎn)云模型,清晰地勾勒出物體的形狀;就相機(jī)姿態(tài)估計(jì)來說,它能反推出拍攝每張照片時(shí),相機(jī)在空間中的精確位置和角度。
在這些純粹考驗(yàn)三維幾何理解能力的任務(wù)上,G2VLM 的表現(xiàn)與當(dāng)前世界上最頂尖的專用三維重建模型不相上下,甚至在某些指標(biāo)上更加出色,這意味著它的立體眼已經(jīng)達(dá)到了專業(yè)水準(zhǔn)。
在空間推理的測試中,它展現(xiàn)出了最閃耀的部分。胡文博等人在包含了深度比較、距離判斷、物體相對關(guān)系、空間想象等各類難題的綜合評測集上測試了 G2VLM,于是便有了本文開頭的精彩表現(xiàn)。
對于 G2VLM 這樣一個(gè)擁有立體眼和空間腦的 AI 來說,它會打開通往更多應(yīng)用的大門,比如打造更智能的機(jī)器人助手、打造沉浸感更強(qiáng)的 AR 和 VR、打造自動(dòng)駕駛的安全衛(wèi)士、打造人人可用的三維內(nèi)容創(chuàng)作工具、打造強(qiáng)大的視覺問答與教育等。
![]()
(https://arxiv.org/pdf/2511.21688)
胡文博表示:“這項(xiàng)成果的首創(chuàng)性在于,我們是首個(gè)在當(dāng)前主流視覺語言模型架構(gòu)中,原生地集成了從二維圖片直接預(yù)測三維信息的能力。以往要理解三維空間,往往需要依賴深度圖、相機(jī)位姿等難以大規(guī)模獲取的額外標(biāo)注信息。
而我們的模型僅需任意角度拍攝的二維圖片,就能預(yù)測出三維信息,并用于空間理解,這使得模型能夠擴(kuò)展到海量數(shù)據(jù)上進(jìn)行訓(xùn)練,更具實(shí)用性和可擴(kuò)展性。”
G2VLM 的突破性不止體現(xiàn)在測試成績里的那些數(shù)字,還在于它所蘊(yùn)含的理念。那就是要想讓 AI 真正理解我們身處的物理直接,不能只讓它學(xué)習(xí)圖片和文字,還得教會它關(guān)于這個(gè)世界的底層的、根本的幾何與空間規(guī)則。“總之,G2VLM 作為一個(gè)強(qiáng)大的基礎(chǔ)模型,可以為下游的具身智能模型提供預(yù)訓(xùn)練支持,極大地增強(qiáng)其空間感知與操作能力。”胡文博總結(jié)稱。
另據(jù)悉,胡文博本科就讀于美國加州大學(xué)圣地亞哥分校,曾跟隨機(jī)器人學(xué)與具身智能領(lǐng)域?qū)<姨K昊進(jìn)行研究,接觸機(jī)器人機(jī)械臂和三維學(xué)習(xí),這激發(fā)了他對 3D 和具身智能的濃厚興趣。
隨后,胡文博跟隨計(jì)算機(jī)視覺專家屠卓文進(jìn)入視覺語言模型領(lǐng)域,參與開發(fā)了早期開源 VLM 模型 BLIVA,該模型在理解圖像中的文字和通用場景方面表現(xiàn)突出,相關(guān)論文發(fā)表在 AAAI 2024,獲得了數(shù)百次引用。這為胡文博當(dāng)前的研究奠定了重要基礎(chǔ)。
本科畢業(yè)后,胡文博在美國加州大學(xué)洛杉磯分校攻讀碩士學(xué)位,師從常凱威導(dǎo)師和彭楠赟導(dǎo)師(他們現(xiàn)在也是胡文博的博士導(dǎo)師),期間胡文博繼續(xù)專注于 VLM 與 3D 空間結(jié)合的研究方向,完成了一系列相關(guān)工作,相關(guān)論文發(fā)表在了 NeurIPS、ICLR 等機(jī)器學(xué)習(xí)頂級會議, 還獲得了 CVPR Workshop 最佳論文, 目前他依然在攻讀博士。
參考資料:
相關(guān)論文 https://arxiv.org/pdf/2511.21688
運(yùn)營/排版:何晨龍





京公網(wǎng)安備 11011402013531號