
![]()
“可將人類視作一種特殊形態的機器人,獲取其行為數據可用于訓練人形機器人。”
作者丨張進
編輯丨林覺民
在 GAIR 2025 “世界模型”分論壇上,浙江大學研究員彭思達帶來了《面向具身智能的通用空間感知技術》的主題演講,介紹了其團隊近期在賦予機器人通用感知能力方面的多項工作。彭思達是浙江大學軟件學院“百人計劃”研究員、博士生導師,研究方向為三維計算機視覺和計算機圖形學。
團隊主要聚焦于賦予機器人三項基礎能力:一是相機定位(Camera Pose Estimation),即讓機器人知道自己在空間中的位置;二是深度估計(Depth Estimation),使機器人了解場景中各物體與自身的距離;三是物體運動估計(Object Motion Estimation),讓機器人感知世界的運動狀態。
這些底層空間感知技術有何作用?首先,它們能為機器人提供關鍵的決策信息。例如,無人機在空間中需要先知道自身位置、與場景目標的距離,才能實現基礎避障;進而還需了解目標物體的運動情況,才能進行追蹤。基于從場景中獲取的三維空間信息,機器人的行為規劃便能得到有力支持。
其次,這些技術可用于生成訓練數據。當前具身智能領域的一大難題是數據匱乏。以往有人嘗試仿真或遙操獲取數據,但遙操數據雖好卻難以規模化擴展,而仿真技術目前仍與真實世界存在較大差距。
彭思達提出,其實可將人類視作一種特殊形態的機器人——具備完整的身體結構與行為模式。若能發明一種數據采集設備,將人類日常行為完整記錄下來,就相當于獲取了機器人所需的行為數據,從而可用于訓練人形機器人。這其中便涉及相機定位、深度估計與物體運動估計等技術。
01
相機定位
相機定位方面,最傳統經典的方法是Colmap。該方法從圖像中提取特征并進行兩兩匹配,再通過增量式運動恢復結構(SfM)得到相機位置。最終每張圖像對應一個相機位置,并共同生成三維點云,形成經典的三維重建流程。
![]()
然而,該流程目前面臨的挑戰在于圖像匹配。團隊發現,傳統匹配方法在惡劣環境或視角差異較大的情況下效果不佳,會影響后續相機位姿估計的準確性。
![]()
針對這一問題,彭思達所在實驗室于2021年提出一種新方法:不再依賴傳統匹配方式,而是直接使用Transformer大模型進行圖像匹配。具體而言,將兩張圖像輸入LoFTR模型以提取稠密特征,這些特征之間即使在弱紋理區域也能實現良好的匹配。
但這個方法的問題是,多模態匹配很難,例如現實環境往往是黑夜白天交替、熱傳感跟可見光同時出現,這種情況下兩兩無法匹配。所以我們要解決跨模態的問題,
去年團隊針對此問題提出了新的工作叫 MatchAnything,核心思路是用大量來源的數據,和多模態預訓練框架去訓練 LoFTR 模型,成功實現了實現了紅外和可見光、事件和可見光、CT 和 MR 的匹配。這其中其實是工程數據問題,彭思達團隊整合了多種數據來源,一種是常見的多視角圖像,一種是大量的單目視頻。單目視頻要如何匹配?團隊使用了成熟的光流算法,將其一個個拼接起來,得到一個長時序的匹配關系。第三種數據來源是通過圖像變換,例如將單張圖片用傳統的圖像變換給 warp,就形成了一個稠密匹配。
前三種都是在同一個模態下,進一步增光匹配的數據訓練來源,還有一種是做跨模態數據生成。團隊通過對現有兩兩匹配中的一張圖片做跨域生成,比如將其變成熱傳感圖像、黑夜圖像、深度圖像,發現只做少量的三種模態就能實現任意跨模態能力。如此便可以實現即便衛星圖像是夏天的,無人機在冬天工作也能匹配,以前是匹配不上的。
此外,跨模態數據生成還包括可見光跟雷達圖像,可見光跟矢量地圖,紅外跟可見光,匹配的情況增多,逐漸形成一個匹配的模型后,特別是應用于遙感領域的無人機性能大大增強,同時應用于自動駕駛領域也出現了不錯的效果。
![]()
據下圖所示:相比之前的方法,MatchAnything 匹配的成功概率有很大的躍升。
![]()
但 MatchAnything 面臨一個問題,即沒法融入已有的 SfM 算法,因為 MatchAnything 或者 LoFTR 模型的輸出匹配因圖片對不同而不同,導致無法建立多視圖匹配,因此沒法直接用在 SfM 算法中。
彭思達表示這是一個大問題,導致 MatchAnything 無法直接用于相機定位,為此他們又提出一個新的解決思路 Detector-free Sf,即先基于 MatchAnything 重建一種粗糙的模型,再做模型優化。
具體做法是給兩張圖片做無特征檢測的圖像匹配,因為無法很好地形成多視角匹配,首先要做量化匹配把多張圖片的匹配關系連接起來,再去跑傳統的 SFM 算法。但圖片匹配關系被量化后,準確率降低,所以SFM 跑出來的結果不準。因此需要迭代式去優化。
迭代式優化的具體流程是先優化多視角匹配,再優化三維模型,根據下圖所示,優化后就能看到最右邊的三維模型有一個更精密的點云以及更精細的三維位姿。
![]()
以下展示了上述方法跟之前最好的方法相比的效果,出現稠密點云和相機位置后,就可以做表面幾何重建。
![]()
同時,Detector-free SfM 面臨的問題跟所有傳統方法一樣,重建速度太慢了,一個模型迭代式優化可能需要幾十個小時甚至一天,以至于對于那些對時間比較敏感的重建任務不太好用。
為了解決速度的問題,彭思達團隊進而進行了一項端到端的重建工作。已有的方法像 VGGT,這是今年 CVPR 的最佳論文,最大的突破是直接使用一個大型的大模型去回歸圖片的相機位置和深度,因為是網絡直出所以速度很快,比如一個場景傳統的相機位置估計方法可能需要十幾個小時,VGGT 只需要一兩秒,這是非常大的提升。
![]()
但 VGGT 最大的問題是沒法處理大規模場景,因為它是個大的網絡,圖片越多網絡很容易就會爆顯存。處理上百張圖片勉強可以,但是 1000張肯定就不行了。
一個直觀的解決辦法將大場景進行分段預測。如果沒辦法一次性處理太多圖片,可以把大場景進行分段預測,分成很多 chunk,然后對每個 chunk 去估計相機位置。但這種情況下,由于每個 chunk 預測不夠精準,導致 chunk 之間難以拼接,兩兩連接效果并不好,最后會形成一個累積誤差,整個網絡會壞掉。
對此,彭思達團隊提出了一個新方法 Scal3R,其相關論文已經被 CVPR 接收。該方法受人類的全局視野啟發——人有全局視野的情況下,對局部場景的幾何預測也有更一致的預測,所以 Scal3R 致力于賦予 VGGT 對目標場景的全局視野。
構建全局視野的具體方法是使用網絡權重記錄每個 chunk 的內容。具體實現的流程是先輸入 chunk 的一組圖片,直接更新到一個網絡權重里就能記錄這組 chunk 圖片內容。在推理中如何實現呢?一個網絡模塊直接預測 KB,再拿這個 KB 去更新一個網絡權重,該網絡權重就記錄了該 chunk 的圖片內容。
在線更新網絡權重作為場景的記憶,整個網絡就記錄了整個場景的記憶,有了記憶可以預測出每個 chunk 的顯性位置的點云,該點云也更具有全局一致性,因此拼接起來效果更好。
![]()
實驗結果如下:
![]()
跟其他方法相比的效果:
![]()
![]()
02
深度估計
深度估計是通用空間感知的關鍵組成部分。去年,彭思達團隊在提升深度估計能力方面取得了三項進展,其中之一是“Pixel-Perfect-Depth”思路。
具身智能需要深度估計,是因為準確的深度信息能提升機器人的決策性能。但現有方法普遍在物體邊緣存在“飛點”問題:判別式模型(如Depth Anything)傾向于預測“折中值”以最小化損失,從而導致飛點;生成式模型(如Marigold)雖能從理論上建模多峰深度分布,但因使用VAE進行壓縮,同樣會產生飛點。
團隊從生成式模型出發,提出了 Pixel-Perfect-Depth 的解決思路:首先移除VAE,直接在像素空間進行優化,以避免VAE帶來的信息損失,使得像素空間擴散避免了邊緣飛點。然而,沒有VAE后模型需要更全局的視野,因此他們將語言特征整合到DiT模型中,發現這能顯著增強模型深度估計能力。
根據下圖實驗結果顯示,Pixel-Perfect-Depth 方法能使模型達到很高的精細度估計,比如圖片中的葉子遠處的線都能有很好的估計效果。
![]()
還能較好地解決了飛點問題:
![]()
Pixel-Perfect-Depth 方法還能拓展提升視頻深度估計能力。相對于單張圖片輸入,常見的是視頻輸入,要對視頻深度估計,只需要在 Pixel-Perfect-Depth 上做兩個簡單的改進,首先是提取視頻的語義特征,得到特征以后注入到多視角的估計模型里;第二,視頻深度估計重要的是保持時序的連續性,通過 target tokens疊加reference tokens,提升時序一致性。
Pixel-Perfect-Depth 雖然能做好單張圖片和視頻深度估計,但做不好帶尺度的深度估計。而很多場景是帶尺度的,因為沒有尺度機器人就不好用。為了解決該問題,彭思達團隊從語言模型的 prompt 技術匯總獲得靈感,試圖探索為深度基礎模型設計提示詞機制,以提升其輸出絕對深度的準確性。
他們將雷達做誒深度感知的prompt喂給深度估計基礎模型,讓其產生絕對深度。
![]()
![]()
該算法 prompt Depth Anything 不僅可以提升通用機器人抓取能力,抓取成功率超越Image及LiDAR作為輸入;還能應用于自動駕駛重建;做三維掃描、前饋式三維高斯等等。
但 prompt Depth Anything 仍然存在問題,要得到三維場景的深度估計一般通過反投影,但透視投影在相鄰視角看著還不錯,如果俯視、反投影得到的點云在遠處會產生裂痕。
對此彭思達團隊提出了一個叫 InfiniDepth 的解決思路,即不只是給每個像素估計深度值,還給每個次像素估計,其論文已經投稿在 CVPR。具體做法是將已有DPT Head改為Implicit Decoder,就能得到一個完整的幾何,達到大范圍的視角渲染。這樣能提高模型精細度,例如能更好服務于機器人去抓取線纜的能力。
![]()
03
物體運動估計
將人類行為數據轉化為有效訓練數據,是當前具身智能發展的關鍵。這需要獲取深度信息、相機運動以及人類行為語義軌跡,而語義軌跡的獲取又依賴于跟蹤。彭思達團隊去年的一個工作就跟三維跟蹤有關。
此前已有方法使用時序匹配進行跟蹤,例如Google的CoTracker:先初始化一組二維像素點,再利用Transformer迭代優化這些點的軌跡。但該方法僅在二維層面進行跟蹤,容易因相鄰區域的干擾而丟失目標,效果受限。
彭思達團隊的思路是將二維圖像反投影至三維空間,做 3D tracking。具體做法是:輸入圖像并反投影至三維,獲得三維特征后,在三維空間中初始化一條三維軌跡,再利用Transformer對該軌跡進行優化,從而實現更魯棒的跟蹤效果。該方法被命名為SpatialTracker。
![]()
其實驗結果顯示,模型有了更強的跟蹤能力:圖(1)中運動員踢球的速度很快,SpatialTracker 也能跟蹤地很好;圖(2)蝴蝶拍動翅膀時是有很強的空間遮擋,SpatialTracker 也能跟蹤地不錯。
![]()
![]()






京公網安備 11011402013531號