![]()
本文第一作者為劉禹宏,上海交通大學人工智能專業本科四年級學生,相關研究工作于上海人工智能實驗室科研實習期間完成。通訊作者為王佳琦、臧宇航,在該研究工作完成期間,均擔任上海人工智能實驗室研究員。
近年來,視覺大語言模型(LVLM)的空間智能受到了廣泛關注,高水平的空間理解能力對于自動駕駛、具身智能等領域發展有著重要意義。然而,當前的LVLM在空間理解方面仍顯著落后于人類。
近期,來自上海人工智能實驗室、上海交通大學、香港中文大學等機構的研究團隊提出了名為Spatial-SSRL (Self-Supervised Reinforcement Learning) 的全新自監督RL范式,無需任何外界標注,旨在提升LVLM空間理解能力。實驗證明,該范式在 Qwen2.5-VL(3B&7B) 和最新的 Qwen3-VL(4B) 架構下都成功地提升了模型的空間理解能力,同時保留了原有的通用視覺能力。
目前Spatial-SSRL的Huggingface model&dataset總下載量已經突破1k,歡迎大家下載和使用!
![]()
論文鏈接:
https://arxiv.org/pdf/2510.27606
倉庫鏈接:
https://github.com/InternLM/Spatial-SSRL
模型鏈接:
https://huggingface.co/internlm/Spatial-SSRL-7B
https://huggingface.co/internlm/Spatial-SSRL-Qwen3VL-4B
數據集鏈接:
https://huggingface.co/datasets/internlm/Spatial-SSRL-81k
![]()
圖1. Spatial-SSRL效果示例與性能評測
研究背景
傳統的提升LVLM空間理解的方法大多基于監督微調 (SFT) 范式。該方法的訓練數據往往包含帶思維鏈(CoT)的答案,需要大量人工標注或閉源模型標注,成本較高,可擴展性低。此外,SFT優化后的模型還容易出現“死記硬背”,泛化性弱的性能局限。
基于可驗證獎勵的強化學習(RLVR)成為了新的主流訓練范式。如圖2(a),現有利用RLVR提升空間理解的方法常聚焦于搭建復雜的流程構建訓練數據,其中往往依賴已標注好的公開數據集,以及較多外部工具,如專家模型、模擬器等,框架較為繁瑣,且使用的外部工具也會引入不小的計算開銷和時間成本。
RGB和RGB-D圖內部本身包含大量于2D和3D空間信息,可以天然地作為視覺監督信號。因此,研究者們提出自監督RL的新范式,實現低成本高效增強LVLM空間理解能力。
![]()
圖2. Spatial-SSRL與相關工作框架對比
方法介紹&核心亮點
Spatial-SSRL基于低成本、易采集的RGB、RGB-D圖像,構建了五種自監督任務:打亂圖塊重排序、翻轉圖塊識別、裁剪圖塊復原、區域深度排序、3D相對位置預測。這五個任務將視覺線索作為監督信號,分別聚焦于感知和理解2D布局、局部物體朝向、3D深度與位置關系等空間信息,互為補充,從多方位全面提升空間理解能力。
![]()
圖3. Spatial-SSRL方法總覽
相較于之前的方法,Spatial-SSRL具備以下核心亮點(如圖2(b)):
高度可擴展性:Spatial-SSRL利用常見的RGB和RGB-D原始圖像,而不使用任何已標注好的數據集或額外的人工標注,在數據規模上有極強的可擴展性。成本低廉:整個訓練的流程不需要人工標注或調用LVLM的API,數據完全由程序自動化標注,大幅降低了成本。輕量高效:以往空間理解方法嚴重依賴外部工具,容易引入訓練誤差,也會增加時間和計算開銷。而Spatial-SSRL具有輕量級框架,可以實現在不修改原有流程的條件下,簡便地擴展到更多高效的自監督任務上進行訓練。天然可驗證性:視覺自監督任務利用圖像固有的結構作為內在監督信號,其正確性接近100%,且可直接得到天然可驗證獎勵信號,與當前性能較強的RLVR范式高度契合。
隨后,研究者們基于上述流程構建了數據集Spatial-SSRL-81k,并在此基礎上使用GRPO方法訓練,引導模型輸出推理過程,提升空間理解能力。
實驗結果
為充分驗證Spatial-SSRL范式的效果,研究團隊選取了Qwen2.5-VL (3B&7B)和Qwen3-VL(4B)兩個架構的三個不同參數量的基模型,利用GRPO進行訓練,并對訓練后的模型進行了空間理解、通用視覺能力等全方位評測,與相應的基模型實施了對比分析。
![]()
圖4. 訓練前后模型在空間理解基準的性能對比(Qwen2.5-VL架構)
![]()
圖5. 訓練前后模型在通用視覺基準的性能對比(Qwen2.5-VL架構)
從圖4和圖6可以看出,在Qwen2.5-VL和Qwen3-VL兩種架構的三個不同參數量下,Spatial-SSRL都對LVLM空間理解能力帶來了顯著提升,且在所有的7個空間基準(包含圖片和視頻兩類模態)上均表現有所進步。其中,7B的平均水平超越基線模型3.89%,而3B更是達到了4.63%。這展現出了Spatial-SSRL自監督RL范式的有效性和魯棒性。
另一個很多人可能關心的問題是:空間理解能力雖然提升了,但模型本來的通用能力是否會下降。研究人員進一步評測了訓練前后模型的通用視覺能力,在通用視覺問答和OCR與圖表理解兩大類基準上進行測試,發現模型的通用視覺能力基本保持穩定,平均表現甚至略有提升。這證明了Spatial-SSRL不會導致模型“遺忘”其原有的技能。
![]()
圖6. 訓練前后模型的性能對比(Qwen3-VL架構)
總結
Spatial-SSRL是一種直接從內在圖像結構中生成可驗證監督的自監督強化學習范式。其核心優勢在于可以從常見易大規模低成本采集的 RGB 與 RGB-D 圖像直接提取豐富的空間理解自監督信號,且這些信號可通過可驗證獎勵自然地與強化學習兼容。
在七個空間基準上的全面實驗表明,Spatial-SSRL 帶來顯著空間理解提升,且復雜空間推理基準上增益尤為顯著。關鍵的是,Spatial-SSRL 不僅增強空間能力,還能同時保持原有的細粒度感知和通用視覺理解能力。這說明了簡單的內在視覺監督信號可以有效實現大規模RLVR,對于未來提升LVLM空間智能提供了新的思路和方法!
目前該工作代碼、模型和數據集均已開源,希望大家多多下載體驗!





京公網安備 11011402013531號