![]()
(MIT News)
在一場礦難救援中,時間意味著生命。想象一臺搜救機器人在部分坍塌的礦井中穿行:濃煙、碎石、扭曲的金屬梁。它必須在險象環生的環境中迅速繪制地圖,識別路徑,并精準定位自己的位置。
但要做到這一點并不容易。即便是當前最強大的人工智能視覺模型,一次也只能處理少量圖像。在真實災難救援場景中,時間分秒必爭,搜救機器人必須快速穿越大范圍區域,并在幾分鐘內處理成千上萬張圖像,才能完成任務。這種“算不過來”的限制,使得 AI 在真實世界的救援任務中顯得力不從心。
為解決這一難題,麻省理工學院(MIT)的研究人員借鑒了最新人工智能視覺模型與經典計算機視覺的思想,開發出一套能在數秒內完成三維重建的新系統
這套系統不依賴標定攝像頭,也不需要專家反復調參,卻能快速拼接出復雜環境的高精度 3D 地圖。對于救援機器人而言,這意味著在廢墟或礦井中,“看清楚”的速度將以倍數提升。
![]()
拼接難題與對齊破局
機器人導航領域有個繞不開的難題,叫SLAM(Simultaneous Localization and Mapping,同時定位與地圖構建)。顧名思義,機器人必須一邊繪制環境地圖,一邊確定自己在地圖上的位置。
傳統的 SLAM 依賴復雜的數學優化和精確的相機標定,往往在光線不足、場景復雜的情況下失效。于是研究者們轉向機器學習模型,希望 AI 能從海量數據中“學會看圖識地”。
可問題在于:這些模型的吞吐量太低。即使是最先進的系統,一次也只能處理幾十幀圖像。而要讓機器人穿越工廠、倉庫,或廢墟中的大片區域,就需要在短時間內分析數千張圖像,這是目前 AI 無法承受的計算負載。
MIT 的解決方案是化整為零。他們讓系統不是一次性重建整個場景,而是分批生成多個“子地圖”(submaps),再通過算法把這些子地圖拼接起來。這樣一來,模型每次仍只需處理少量圖像,卻能通過拼接快速還原大場景。
聽上去很簡單,但研究者最初嘗試時——失敗了。
主導這項研究的博士生 Dominic Maggio 回憶說:“我們一開始以為,只要像傳統方法那樣,通過旋轉和平移就能把子地圖拼起來。但結果并不理想。”
問題出在 AI 模型生成的子地圖往往帶有幾何形變。例如,一面本應筆直的墻在重建后可能出現輕微彎曲;房間的角度可能被拉伸。這些誤差會讓原本應當對齊的子地圖錯位。
于是,Maggio 開始翻閱上世紀 80、90 年代的計算機視覺論文。在那些“AI 之前的年代”,研究者早已提出了關于圖像對齊、形變補償等經典方法。
結合這些思路,團隊意識到:他們需要一個更靈活的數學框架,去描述和校正子地圖之間的變形關系。
![]()
AI 與幾何的再握手
在團隊導師、MIT 航空航天系副教授 Luca Carlone 的指導下,研究人員引入了一種來自傳統計算機視覺的數學工具,能夠表示并校正子地圖間的復雜變形。
通過這種方法,系統不僅能將子地圖對齊,還能確保所有局部重建的形變方向一致,從而拼接出連貫的整體場景。
最終,他們的 AI 系統可以在幾秒鐘內輸出:場景的高精度三維重建;每個攝像頭的位置估計;機器人在空間中的實時定位結果。而這一切,都無需專門的攝像頭標定或外部傳感器輔助。
“當 Dominic 找到把學習式方法與傳統優化結合的直覺后,剩下的工作就順理成章了,”Carlone說,“它既簡單,又高效,有潛力應用在許多實際場景中。”
該系統在速度和重建誤差上均優于其他方法,并且不需要特殊攝像頭或額外工具。研究人員僅用手機拍攝的短視頻,就生成了包括 MIT 教堂內部在內的復雜場景的近實時三維重建,平均誤差不到5厘米
這不僅能為搜救機器人帶來生死攸關的效率提升,還能拓展到更廣泛的領域——從VR/AR 頭顯的實時場景建模,到倉儲機器人的空間定位與路徑規劃。
如今的 AI 世界里,幾乎一切問題似乎都能交給神經網絡去學習。但 Carlone 認為,這項研究正好提醒人們:傳統幾何知識依然不可或缺。“了解傳統幾何是值得的。只要你真正理解模型的內部機制,就能獲得更好的結果,讓系統更具擴展性。”
在未來,團隊希望將這項技術應用到真正的現場救援任務中,讓機器人能在復雜、未知的環境中,又快又準地看見世界。
https://news.mit.edu/2025/teaching-robots-to-map-large-environments-1105





京公網安備 11011402013531號