![]()
如何讓針對靜態(tài)場景訓練的 3D 基礎模型(3D Foundation Models)在不增加訓練成本的前提下,具備處理動態(tài) 4D 場景的能力?
來自香港科技大學(廣州)與地平線 (Horizon Robotics) 的研究團隊提出了 VGGT4D。該工作通過深入分析 Visual Geometry Transformer (VGGT) 的內部機制,發(fā)現并利用了隱藏在注意力層中的運動線索。
![]()
作為一種無需訓練 (Training-free) 的框架,VGGT4D 在動態(tài)物體分割、相機位姿估計及長序列 4D 重建等任務上均取得了優(yōu)異性能。
![]()
論文標題: VGGT4D: Mining Motion Cues in Visual Geometry Transformers for 4D Scene Reconstruction論文鏈接:https://arxiv.org/abs/2511.19971項目主頁: https://3dagentworld.github.io/vggt4d/代碼鏈接:https://github.com/3DAgentWorld/VGGT4D
研究背景
近年來,以 VGGT、DUSt3R 為代表的 3D 基礎模型在靜態(tài)場景重建中表現出色。然而,面對包含移動物體(如行人、車輛)的動態(tài) 4D 場景時,這些模型的性能往往顯著下降。動態(tài)物體的運動不僅干擾背景幾何建模,還會導致嚴重的相機位姿漂移。
現有的解決方案通常面臨兩類挑戰(zhàn):
計算或訓練成本高:依賴繁重的測試時優(yōu)化 (Test-time Optimization) 或需要在大規(guī)模 4D 數據集上進行微調。依賴外部先驗:通常需要引入光流、深度估計或語義分割等額外模塊,增加了系統(tǒng)的復雜性。
VGGT4D 的核心設想:能否在不進行額外訓練的前提下,直接從預訓練的 3D 基礎模型中挖掘出 4D 感知能力?
核心洞察:VGGT 內部的潛在運動線索
研究人員對 VGGT 的注意力機制進行了可視化分析,觀察到一個關鍵現象:VGGT 的不同網絡層對動態(tài)區(qū)域表現出截然不同的響應模式。
淺層網絡:傾向于捕捉語義上顯著的動態(tài)物體。深層網絡:則逐漸抑制幾何不一致的區(qū)域。
![]()
這一發(fā)現表明,VGGT 雖然是基于靜態(tài)假設訓練的,但其內部實際上已經 隱式編碼 了豐富的動態(tài)線索。
![]()
方法論:潛在運動線索的挖掘與解耦
VGGT4D 的核心貢獻在于提出了一套無需訓練的注意力特征挖掘與掩膜精修機制。該方法深入特征流形內部,利用 Gram 矩陣和梯度流實現了高精度的動靜分離。
![]()
跨越投影間隙:基于 Gram 相似度的特征挖掘
![]()
![]()
![]()
基于投影雅可比矩陣的梯度流精修
為了解決 Attention Map 分辨率不足導致的邊界模糊問題,VGGT4D 引入了 投影梯度感知精修 (Projection Gradient-aware Refinement)。
![]()
![]()
分布內早期掩膜策略(In-Distribution Early-Stage Masking)
在推理階段,直接的全層掩膜(Full Masking)會將模型推向分布外(OOD)狀態(tài),導致性能下降。
VGGT4D 提出了一種早期階段干預策略:僅在淺層抑制動態(tài) Token 的 Key 向量。這種設計既在早期切斷了動態(tài)信息對深層幾何推理的影響,又保證了深層 Transformer Block 依然在其預訓練的特征流形上運行,從而保證了位姿估計的魯棒性。
實驗驗證
研究團隊針對動態(tài)物體分割、相機位姿估計和 4D 點云重建三大核心任務,在六個基準數據集上進行了詳盡的定量和定性評估。
核心組件評估:動態(tài)物體分割性能
實驗首先評估了該方法的核心組件:動態(tài)物體分割。
![]()
![]()
定性分析:定性結果清晰地展示了基線方法的不足:Easi3R 的掩碼較為粗糙且遺漏細節(jié);DAS3R 傾向于過度分割并滲入靜態(tài)背景;MonST3R 則常常分割不足。相比之下,VGGT4D 生成的掩碼更加準確,且邊界更加清晰。這些結果有力地驗證了研究團隊的假設:VGGT 的 Gram 相似度統(tǒng)計信息中嵌入了豐富的、可提取的運動線索。
![]()
魯棒性驗證:相機位姿估計
強大的基線與持續(xù)改進:數據表明,原始 VGGT 已經是一個非常強大的基線,其自身就優(yōu)于 MonST3R、DAS3R 等許多專門的 4D 重建方法。這表明 VGGT 的預訓練隱式地使其對動態(tài)物體具有一定的魯棒性。然而,這種魯棒性并不完美。 VGGT4D 在所有數據集上均持續(xù)改進了這一強大的 VGGT 基線。例如在 VKITTI 數據集上,VGGT4D 的 ATE 僅為 0.164,而 MonST3R 高達 2.272。
![]()
長序列魯棒性突破:在極具挑戰(zhàn)性的長序列 Point Odyssey 基準測試中,VGGT4D 在所有指標上均取得了最佳結果,同時保持了高度效率。許多其他 4D 方法由于內存不足(OOM)錯誤甚至無法在該 500 幀序列上運行。這表明 VGGT4D 提出的顯式、無需訓練的動態(tài) - 靜態(tài)分離方法成功地識別并消除了由運動引起的殘余位姿不一致性,從而實現了更穩(wěn)定、更準確的相機軌跡,尤其是在長且復雜的序列上。
![]()
最終目標:4D 點云重建質量實驗
在 DyCheck 數據集上的評估顯示,VGGT4D 在所有重建指標(準確度、完整度和距離)上均取得了最佳性能。與 VGGT 基線相比,中位準確度誤差從 0.009 降低到 0.004,平均距離從 0.150 降低到 0.123。這證明了該方法不僅實現了精準的動靜分離,更能實質性提升幾何重建質量。
![]()
![]()
結語
VGGT4D 提出了一種無需訓練的新范式,成功將 3D 基礎模型的能力擴展至 4D 動態(tài)場景。該工作證明了通過合理挖掘模型內部的 Gram 相似度統(tǒng)計特性,可以有效解耦動態(tài)與靜態(tài)信息。這不僅為低成本的 4D 重建提供了新思路,也展示了基礎模型在零樣本遷移任務中的潛力。





京公網安備 11011402013531號