去年,謝賽寧(Saining Xie)團隊發布了 Cambrian-1,一次對圖像多模態模型的開放式探索。但團隊沒有按慣例繼續推出 Cambrian-2、Cambrian-3,而是停下來思考:真正的多模態智能意味著什么?大語言模型范式對于感知建模真的合理嗎?
謝賽寧在推特上寫道:“有些根本性的東西缺失了。你無法在構建超級感知(supersensing)之前就構建出超級智能。”這無關于更好的傳感器或更高清的攝像頭,而在于一個數字存在如何真正體驗世界,如何吸收無盡的輸入流并從中學習。正如 Andrej Karpathy 所說,對于現實世界中的 AI 智能體,感知建模可能就是它所需要的一切。
![]()
圖丨相關推文(X)
團隊提出了一個演進分類法:從純語言理解(第零層),到語義感知(第一層,對應“看圖說話”能力),到流式事件認知(第二層,實時助手的基礎),再到隱式 3D 空間認知(第三層,理解視頻作為 3D 世界的投影),最后是預測性世界建模(第四層,通過預測潛在世界狀態進行“無意識推理”)。當前的多模態模型大多停留在前兩層,少數觸及第三層,而第四層幾乎完全缺失。
這就是 2025 年 11 月,由謝賽寧領導,楊立昆(Yann LeCun)、李飛飛(Li Fei-Fei)參與指導的團隊的新論文“Cambrian-S: Towards Spatial Supersensing in Video”的起點。
![]()
圖丨相關論文(arXiv)
論文不僅提出了“空間超感知”這個新范式,還構建了相應的基準測試、數據集和模型,來驗證一個判斷:當前的多模態大語言模型在真正的空間感知任務上,存在系統性的失敗。
團隊首先對現有視頻理解基準進行了系統性審查。他們發現,盡管學界已經開發了大量評測基準,但這些測試大多集中在前兩個階段,要么是簡單的物體識別和描述,要么是短時段的事件理解。真正考察空間推理和世界建模能力的基準寥寥無幾。
![]()
(arXiv)
而許多被標榜為“空間推理”的任務,實際上可以通過文本捷徑繞過視覺理解來完成。例如,在 VideoMME 基準的所謂空間推理子類別中,一個關于月球撞擊地球的問題,本質上只需要物理常識而非視覺空間理解;另一個關于宇航員裝備的問題,更像是在考察模型對 NASA 相關文本知識的記憶。
為了彌補這一評測空白,團隊構建了 VSI-SUPER 基準測試,“VSI”代表視覺-空間智能(Visual-Spatial Intelligence)。這個基準包含兩個子任務:VSR(Visual Spatial Recall,長時域視覺空間回憶)和 VSC(Visual Spatial Counting,持續視覺空間計數)。兩個任務都使用長達數小時的視頻內容,要求模型不僅要“看見”,還要“記住”并“理解”空間中物體的變化。
![]()
(arXiv)
測試結果相當驚人。號稱具備強大“實時視覺輸入”能力的商業模型 Gemini-Live 和 GPT-Realtime,在 10 分鐘視頻上的平均相對準確率(Mean Relative Accuracy,MRA)都不到 15%,當視頻長度延伸至 120 分鐘時,表現幾乎歸零。這些標榜的“長上下文”模型,在真正需要持續追蹤空間信息的場景下完全無法勝任。
問題出在哪里?按照團隊提出的分類法,當前的 MLLMs(Multimodal Large Language Models,多模態模型)大多停留在前兩個層次,少數模型剛剛觸及第三層的隱式 3D 空間認知,而第四層,也就是最關鍵的預測性世界建模,幾乎完全缺失。
認識到問題后,團隊開始動手解決。他們首先構建了 VSI-590K 數據集,這是一個專門針對空間理解的視頻指令調優數據集,包含約 59 萬個訓練樣本。數據來源分為三類:高質量人工標注的真實視頻、模擬數據,以及通過自動化流程從網絡視頻中提取的偽標注數據。團隊開發了一套完整的自動化標注流程,使用 GroundingDINO 進行物體檢測、SAM2 生成掩碼、VGGT 估計 3D 點云,最終生成幾何相關的問答對。
在此基礎上訓練的 Cambrian-S 模型家族,參數規模從 0.5B 到 7B 不等。訓練過程分為四個階段:視覺-語言對齊、圖像指令調優、通用視頻指令調優,以及空間視頻指令調優。實驗結果顯示,Cambrian-S-7B 在 VSI-Bench 上達到了 67.5% 的準確率,比開源基線模型如 InternVL3.5-8B 和 Qwen-VL-2.5-7B 高出一大截,甚至超越商業模型 Gemini-2.5-Pro 超過 16 個百分點。同時,模型在 Perception Test、EgoSchema 等通用視頻基準上也保持了競爭力。
![]()
(arXiv)
但即便是 Cambrian-S,在 VSI-SUPER 上的表現雖然優于基線模型,可一旦視頻長度超過 60 分鐘,其性能仍會急劇下降。這驗證了團隊的判斷:僅僅依靠擴大數據規模和模型參數,無法突破當前 MLLM 范式的根本局限。真正需要的是范式轉變。
這個轉變就是“預測性感知”(Predictive Sensing)。這一概念受人類認知機制啟發:我們的大腦不是被動接收所有視覺信息,而是會主動預測接下來會看到什么,并將注意力集中在那些“出乎意料”的事件上。團隊在 Cambrian-S 中實現了這一機制:添加了一個潛在幀預測頭(Latent frame Prediction head),這是一個兩層 MLP 結構,可以在進行下一個 token 預測的同時,預測下一個視頻幀的潛在表征。
![]()
(arXiv)
訓練時,模型使用均方誤差和余弦距離損失來衡量預測特征與真實特征之間的差異。推理時,這個預測誤差就變成了“驚奇度”(surprise score)。驚奇度低的幀,也就是模型能夠準確預測的內容,會被壓縮后存儲到長期記憶中;驚奇度高的幀,代表場景發生了重要變化,則會保留更多細節。這種機制使得模型可以用有限的記憶容量處理幾乎無限長的視頻流。
在 VSC 任務中,團隊進一步設計了基于驚奇度的事件分割方案。模型會持續在“事件緩沖區”中積累幀特征,當檢測到高驚奇度的幀(通常意味著場景切換)時,就會對當前緩沖區的內容進行總結,生成該片段的答案,然后清空緩沖區開始新的事件。這讓模型能夠將連續的視覺流自然地分割成有意義的事件單元。實驗數據證明了這種設計的有效性。
在 VSR 任務中,配備了預測性感知機制的 Cambrian-S 能夠在視頻長度增加時保持相對穩定的準確率,同時 GPU 內存使用量保持恒定。它在所有測試長度上都超越了 Gemini 1.5 Flash 和 Gemini 2.5 Flash,避免了僅依靠擴展上下文的模型出現的性能急劇下降。在 VSC 任務中,即便是在 120 分鐘的視頻流上,Cambrian-S 仍能維持約 28% 的準確率,而商業模型基本上已經失效。
不過,團隊也指出,無論是 VSI-SUPER 基準、VSI-590K 數據集,還是 Cambrian-S 模型和預測性感知機制,都只是這個長期研究方向的初步探索。基準測試的覆蓋面仍然有限,數據集的規模和多樣性需要擴大,模型的泛化能力有待提高,預測機制也還只是一個概念驗證。未來的工作需要探索更多樣化和具身化的場景,并與視覺、語言和世界建模領域的最新進展建立更緊密的聯系。
而預測性感知機制也將成為團隊未來探索的關鍵方向,模仿人腦利用“預測”和“驚喜”來高效感知世界,或許正是打破當前范式瓶頸的關鍵。
為什么號稱具備“長上下文”能力的模型會在長視頻理解上集體失效?答案其實很清楚。長上下文只是提供了更大的記憶容量,但并沒有解決如何有效利用這些容量的問題。真正需要的是一套智能的管理系統,知道什么該詳細記錄、什么可以粗略存儲、什么完全可以遺忘,以及在需要時如何快速檢索關鍵信息。
相關論文、代碼、模型權重和數據集都已在 GitHub 和 Hugging Face 平臺開源。
參考資料:
相關論文:https://arxiv.org/pdf/2511.04670v1
項目地址:https://cambrian-mllm.github.io/cambrian-s/
排版:劉雅坤





京公網安備 11011402013531號