![]()
這項由上海交通大學的李博涵團隊和東部理工學院寧波分校、PhiGent公司、新加坡國立大學、清華大學等多家機構合作完成的研究,發表于2024年10月的arXiv預印本論文服務器(論文編號:arXiv:2510.18313v2),有興趣深入了解的讀者可以通過該編號查詢完整論文。
想象一下,如果有一個AI偵探專門負責自動駕駛汽車的"眼睛",它不僅要能看懂路上發生的一切,還要能預測下一秒會發生什么,甚至要判斷哪種駕駛行為更安全。聽起來像科幻電影,但上海交通大學的研究團隊真的做到了。他們開發出了一個名為OmniNWM的系統,就像給自動駕駛汽車配備了一個無所不知的超級大腦。
傳統的自動駕駛系統就像只會看單一線索的新手偵探,只能分析普通的RGB圖像,而且只能看很短時間內的情況。但OmniNWM就像一個經驗豐富的老偵探,它能同時"看到"彩色畫面、理解每個物體的含義、測量物體的距離,甚至能構建出整個三維世界的完整模型。更神奇的是,它還能像預言家一樣,準確預測未來很長時間內會發生什么。
這個系統的核心創新在于它解決了自動駕駛世界模型的三個根本問題。第一個問題就像偵探需要收集足夠多樣的證據一樣,以前的系統只能看到有限的信息,而OmniNWM能夠同時處理彩色圖像、語義信息、深度數據和三維占用情況。第二個問題類似于偵探需要精確控制調查方向,OmniNWM創造了一種全新的"導航地圖"方法,能夠精確控制虛擬攝像頭的移動。第三個問題就像偵探需要判斷哪個嫌疑人更危險一樣,OmniNWM能夠基于生成的三維世界直接評判駕駛行為的安全性。
研究團隊的這項工作特別令人興奮,因為它是第一個真正實現了"全景式"自動駕駛世界理解的系統。以前的系統就像只能看到拼圖的幾塊碎片,而OmniNWM能夠看到完整的畫面。它不僅能生成長達321幀的連續視頻序列,比傳統方法長出很多,還能在完全沒有針對性訓練的情況下,在不同數據集和攝像頭配置下工作,展現出了驚人的適應能力。
一、全景偵探的超級視力:多模態信息的完美融合
傳統的自動駕駛系統就像一個只能用單眼看世界的偵探,雖然能看到基本的畫面,但對世界的理解很有限。OmniNWM的第一個突破就是給這個AI偵探裝上了"復合眼",讓它能同時看到彩色世界、理解物體含義、測量距離,還能構建完整的三維模型。
這種多重視覺能力的實現原理其實很巧妙。研究團隊設計了一個類似于"統一翻譯器"的系統,它能把不同類型的視覺信息轉換成同一種"語言"。具體來說,系統首先使用一個預訓練的三維視頻編碼器,把輸入的視頻幀壓縮成緊湊的時空特征,壓縮比例達到4×8×8,就像把一張高清照片壓縮成小文件但不丟失關鍵信息。
然后,系統使用一個名為全景擴散變換器(PDiT)的核心組件來處理這些壓縮后的特征。這個變換器采用了跨視角注意力機制,就像一個能同時關注多個方向的超級眼球,能夠協調處理來自不同攝像頭角度的信息。最終,解碼器將處理后的特征還原成像素級對齊的RGB圖像、語義圖和深度圖。
為了確保不同模態之間的一致性,研究團隊采用了一個很聰明的策略。在訓練過程中,語義圖被著色后再進行編碼,解碼后通過最近鄰匹配轉換回離散標簽。這就像給每種類型的信息都貼上了統一的標簽,確保它們能夠完美對應。
這種聯合生成方案最大的優勢是確保了跨模態的強像素級對齊,這對于生成高質量的三維占用圖至關重要。就像拼圖游戲中每塊拼圖都必須完美契合,不同類型的視覺信息也必須在每個像素點上都保持一致,這樣才能構建出準確的三維世界模型。
二、三維世界的數字重建:從平面圖像到立體空間
如果說前面講的是給AI偵探裝上了復合眼,那么三維占用生成就是教會它如何理解空間關系,構建完整的案發現場模型。這個過程就像法醫重建犯罪現場一樣,需要從有限的證據中還原出完整的三維空間。
OmniNWM的占用模塊能夠從全景RGB圖像、深度圖和語義圖中生成三維體素體積。整個過程采用了一個基于預訓練EfficientNet-B7的UNet架構來提取圖像特征。這個網絡就像一個經驗豐富的建筑師,能夠從二維圖紙中理解三維結構。
具體的工作流程是這樣的:首先,系統提取RGB圖像特征,然后分別處理深度圖和語義圖,通過下采樣和卷積層產生深度特征和語義特征。接下來,SE3D模塊在圖像特征與深度/語義特征之間執行自適應聚合。最終的三維語義體素體積通過一個巧妙的外積運算得到,公式是Vb = Adapd(Fi, Fd) ? Adaps(Fi, Fs),其中Adapd和Adaps是深度和語義上下文的自適應聚合網絡。
這種設計相比于直接合成完整占用網格的體積化方法有很大優勢。傳統的體積化方法就像要一口氣建造整棟大樓,計算成本極高且難以擴展到長序列。而OmniNWM的方法更像是先準備好各種建筑材料(輕量級像素對齊特征),然后高效地組裝成最終的建筑(三維占用圖)。這種方法不僅能夠擴展到長序列處理,更重要的是為集成基于占用的密集駕駛獎勵提供了可能。
生成的三維占用圖不僅僅是一個靜態的空間模型,它還能夠支持基于規則的密集獎勵計算。系統利用NuScenes-Occupancy數據集的類別分類法,能夠進行逐航路點的獎勵計算。這就像給每個空間位置都貼上了詳細的標簽,告訴AI這里是道路、那里是障礙物、遠處是建筑等等。
三、精確導航的數字羅盤:規范化全景射線圖控制
如果把OmniNWM比作一個虛擬的電影攝影師,那么規范化全景射線圖就是它的精密操控系統,能夠實現極其準確的鏡頭控制。傳統的駕駛世界模型在動作控制方面存在兩個主要問題:一是使用稀疏的矢量化表示(比如路徑點)難以準確描述多視角場景,二是數據集中軌跡多樣性有限制約了模型的泛化能力。
研究團隊提出的解決方案是將軌跡轉換為規范化的全景普呂克射線圖,這提供了一個統一的像素級表示,能夠實現精確的攝像頭控制。這個方法的巧妙之處在于它將復雜的三維攝像頭運動轉換成了二維圖像格式,就像把立體的舞蹈動作記錄在平面的樂譜上。
普呂克射線圖的構建過程基于攝像頭的內參矩陣K和外參矩陣E。對于圖像中的每個像素點(u,v),它的普呂克嵌入定義為六維向量,包含了完整的幾何信息。這種表示方法的優勢在于它能夠完整保留三維空間中射線的所有幾何屬性,無論攝像頭如何移動旋轉,都能夠準確記錄。
為了解決不同攝像頭配置之間的兼容性問題,研究團隊設計了尺度和姿態不變的規范化方法。這個過程分為兩步:首先是尺度規范化,使用參考攝像頭的共享內參矩陣確保尺度一致性,同時保持各個攝像頭的獨特視角。然后是姿態規范化,將攝像頭中心和方向向量都轉換到參考攝像頭的坐標系中。
這種規范化的最大優勢是構建了不同攝像頭視角下的統一三維普呂克空間中的軌跡,顯著豐富了軌跡分布的多樣性。原始數據集的軌跡分布相對集中,而通過規范化處理后,系統能夠生成更加多樣化的訓練樣本,就像把原本只有幾種口味的冰淇淋擴展成了幾十種不同的組合。
在實際應用中,輸入軌跡首先通過無參數的規范化普呂克編碼器轉換為射線圖,然后注入PDiT模塊。規范化的全景射線圖在空間和時間維度上進行下采樣以對齊擴散潛變量,并被分塊化為普呂克嵌入令牌。這些令牌與擴散潛變量令牌連接后輸入到PDiT模塊的三維全注意力層中。這種設計既輕量級又有效,為全景視頻生成提供了精確且可泛化的控制。
四、長期記憶的智能策略:靈活強制生成技術
OmniNWM面臨的一個關鍵挑戰是如何在長期預測中保持穩定性和準確性。這就像要求一個預言家不僅要預測明天會發生什么,還要準確預測一個月后的情況。為了解決這個問題,研究團隊開發了一種名為"靈活強制策略"的技術,通過多級噪聲注入來提高生成的靈活性和魯棒性。
傳統的自回歸生成方法容易出現誤差累積問題,就像傳話游戲中錯誤會越傳越嚴重。靈活強制策略的核心思想是在訓練過程中故意"破壞"部分歷史信息,訓練模型在不完美條件下也能正常工作。這種方法在訓練時獨立地向每個幀和每個視角注入噪聲,讓模型學會在部分信息丟失或不準確的情況下仍能做出正確預測。
具體的噪聲注入公式為:x(i,j) = x(i,j) + α(i) · εframe + β(j) · εview,其中εframe和εview是獨立的噪聲向量,α(i)和β(j)是縮放因子。這種針對每個視角/幀的噪聲方案相比之前的統一噪聲應用方法,能更好地處理時空扭曲。
這種策略最令人興奮的地方是它支持兩種不同的自回歸推理模式。第一種是幀級自回歸,類似于一步一步仔細推理,從多個歷史幀生成單個未來幀。這種模式特別適合需要高精度的幀級軌跡規劃仿真。第二種是片段級自回歸,更像是大膽的跳躍式預測,從較少的輸入生成多個未來幀。這種方法對于長視距生成更加高效,同時保持時間連貫性。
在推理過程中,歷史幀可以被部分加噪以支持兩種生成模式。比如在片段級自回歸中,單個歷史幀可以作為條件生成多個未來幀,而在后續階段可以利用多個歷史幀更好地利用動態先驗。這種靈活性使得系統能夠根據不同的應用需求選擇最合適的生成策略。
實驗結果顯示,這種靈活強制策略在長期生成中表現出色,能夠產生超過地面真值序列長度的高質量結果。在321幀對比241幀的測試中,帶有靈活強制的模型在不同視頻長度下都保持了穩定的性能,而沒有使用這種策略的模型在長序列上出現了顯著的質量下降。
五、智能安全評判:基于占用的密集獎勵系統
OmniNWM的第三個重要創新是開發了一套基于三維占用的智能安全評判系統。這就像給AI配備了一個經驗豐富的駕駛教練,能夠實時評判每個駕駛動作的安全性和合理性。傳統的獎勵系統往往依賴外部模型或簡單的規則,而OmniNWM直接利用生成的三維語義占用來定義基于規則的密集獎勵。
這個獎勵系統設計得非常人性化和實用。它主要考慮三個方面的駕駛表現:安全性、效率性和合規性。首先是碰撞獎勵,當自車與障礙物發生碰撞時會受到懲罰,懲罰程度還與車速相關,體現了速度越快風險越大的現實邏輯。計算公式為Rcol = -αcol · Icol · |v|,其中Icol是碰撞指示函數,當發生碰撞時為1,否則為0。
邊界獎勵關注的是車輛是否保持在可行駛區域內,這通過檢測車輛是否離開"可行駛表面"類別來實現。如果車輛駛入非可行駛區域,系統會給出相應的懲罰:Rbd = -αbd · Inon-drivable。這種設計確保了AI學會遵守基本的交通規則。
速度獎勵鼓勵車輛保持適當的目標速度,以促進交通效率。公式Rvel = -αvel · tanh(|v - vtarget|) · Iv巧妙地使用了雙曲正切函數來平滑懲罰,避免了突變帶來的訓練不穩定。當速度在合理范圍內時,Iv為0,不給予懲罰;超出范圍時Iv為1,開始懲罰。
最終的總獎勵函數整合了這三個方面:Rb = 1 + (Rcol + Rbd + Rvel)/Nreward。通過將三維占用轉換為密集的航路點級反饋,這個獎勵函數能夠在各種場景下對策略行為進行細粒度評估。
研究團隊通過一個關鍵的迎面卡車場景驗證了獎勵函數的有效性。在這個場景中,高速碰撞獲得最低獎勵并承受嚴重的碰撞懲罰;避讓不足會降低獎勵;而成功規避則獲得最高獎勵,只有最小的控制懲罰和速度懲罰。這種區分性評判能力證明了系統能夠正確識別和評價不同駕駛策略的優劣。
六、視覺語言行動智能體:多模態推理的完美結合
為了充分發揮OmniNWM多模態輸出的優勢,研究團隊還開發了一個基于Qwen-2.5-VL的語義幾何推理視覺語言行動模型,稱為OmniNWM-VLA。這個系統就像給AI配備了一個能夠同時理解視覺、語言和行動的超級大腦,能夠進行復雜的多模態推理和軌跡規劃。
OmniNWM-VLA的核心是一個名為三模態Mamba基礎解釋器(Tri-MIDI)的創新模塊,這是一個輕量級的即插即用組件,能夠將視覺、幾何和語義信息融合成統一的潛在表示。這種設計讓模型能夠同時對外觀(RGB)、三維結構(深度)和場景語義(分割)進行聯合推理,這對于預測幾何一致且語義合理的軌跡至關重要。
處理流程首先將對齊的多視角輸入——RGB圖像、度量深度圖和語義分割圖——拼接成統一的全景網格,以保持跨視角的空間一致性。每種模態分別使用預訓練編碼器處理:CLIP用于RGB,SigLIP用于深度,SegFormer用于語義。然后通過特定于模態的多層感知機將特征投影到共同的嵌入空間。
接下來,基于Mamba的狀態空間模型在文本查詢的指導下執行跨模態融合,產生融合的潛在表示。系統使用令牌化理由(TOR)機制,在查詢序列中插入特殊令牌來錨定中間推理步驟。這些位置的輸出令牌被投影到下游視覺語言模型的潛在空間中,為模型提供空間和語義基礎的線索。
與以2HZ產生關鍵幀的傳統方法不同,OmniNWM-VLA在NuScenes數據集上以12HZ的頻率運行,提供更精細的軌跡規劃。系統擴展了OmniNWM-VLA的輸出通道,不僅預測航路點的x和y坐標,還預測航向角。這種雙輸出格式對于構建規范化普呂克射線圖至關重要,提供對全景視頻生成的像素級控制。
在初始視頻片段中,軌跡首先通過使用靜態軌跡生成多模態結果(RGB、深度和語義),然后輸入OmniNWM-VLA進行多模態推理規劃。這種設計確保了高級決策制定與低級動作執行之間的無縫連接,在統一的自主駕駛流水線中有效連接了高級推理和精確控制。
七、實驗驗證:全方位的性能測試與突破性結果
研究團隊在NuScenes和NuScenes-Occupancy數據集上進行了全面的實驗驗證,結果顯示OmniNWM在多個關鍵指標上都達到了最先進的性能水平。整個系統包含112.2億參數,其中110億參數來自與先前工作一致的擴散變換器骨干網絡,新增的2.2億參數用于跨視角注意力層。
在RGB視頻生成質量方面,OmniNWM取得了突破性成果。使用Fréchet Inception Distance(FID)和Fréchet Video Distance(FVD)作為評估指標,系統達到了5.45的FID分數和23.63的FVD分數,無需使用繁重的體積化條件(如語義占用或聚合點云),就超越了所有先前的方法。這個結果證明了聯合多模態生成方法的有效性。
在深度圖生成方面,研究團隊使用絕對相對誤差和準確性閾值作為標準指標,以LiDAR投影的地面真值進行評估。OmniNWM在絕對相對誤差和δ指標上都取得了優異的性能,不僅顯著超越了Dist-4D等生成方法,甚至超過了泛化能力有限的判別方法。
占用預測質量的評估同樣令人印象深刻。使用IoU和mIoU指標進行測試,OmniNWM僅使用RGB圖像作為輸入就達到了33.3的IoU和19.8的mIoU,超越了所有對比方法,包括那些受益于精確三維幾何測量的基于LiDAR的方法。這些結果有力證明了聯合生成范式的有效性。
攝像頭控制精度的測試使用旋轉誤差和平移誤差指標,結果顯示規范化全景射線圖編碼顯著提升了控制性能。使用規范化方法的OmniNWM在旋轉誤差上達到了1.42×10^-2,平移誤差為5.14×10^-2,明顯優于未使用規范化的版本。旋轉誤差接近地面真值性能,而較高的平移誤差反映了不同場景中駕駛距離的自然變化。
零樣本泛化能力測試展現了系統的強大適應性。在沒有微調的情況下,OmniNWM能夠跨不同數據集(如nuplan或內部收集的數據集)和攝像頭視角配置(如3個或6個攝像頭視角)進行有效工作。這種泛化能力主要歸功于規范化普呂克射線圖編碼策略,它創建了統一的控制表示。
軌跡規劃評估在150個NuScenes驗證場景上進行,結果顯示不同VLA規劃基線之間存在明顯差異。Impromptu-VLA相比Qwen-2.5-VL取得了更高的性能,與OmniNWM-VLA的結果相當。基于占用的獎勵函數有效地區分了這些VLA規劃器生成的規劃軌跡,證明了評估系統的有效性。
消融研究進一步驗證了各個組件的重要性。占用預測模塊的消融顯示,聯合生成的語義和深度圖分別帶來3.0和2.7的mIoU改善,驗證了語義和深度在上下文和幾何建模方面的互補優勢。靈活強制策略的消融研究表明,該策略在不同視頻長度上都顯著改善了生成質量,特別是在長期生成序列中效果更加明顯。
八、技術創新的深層價值與未來影響
OmniNWM的技術創新不僅僅體現在性能指標的提升上,更重要的是它開創了一種全新的自動駕駛系統設計范式。這種范式的核心價值在于將狀態、動作和獎勵三個關鍵要素統一在一個框架內,實現了真正意義上的端到端自動駕駛系統。
從技術架構角度看,OmniNWM最大的突破在于打破了傳統系統中各個模塊相互獨立的局限性。以往的自動駕駛系統就像一個分工明確但溝通不暢的工廠,感知模塊、決策模塊和控制模塊各自為政,難以實現最優的整體性能。而OmniNWM更像一個高度協調的交響樂團,各個"演奏者"不僅技藝高超,更重要的是能夠完美配合,演奏出和諧的樂章。
規范化全景射線圖技術的引入解決了一個長期困擾學術界和工業界的難題:如何在不同的硬件配置和數據格式之間實現無縫切換。這種技術就像創造了一種"世界語",讓不同"方言"的系統能夠相互理解和協作。這對于自動駕駛技術的標準化和產業化具有重要意義。
基于占用的密集獎勵系統代表了另一個重要的技術進步。傳統的獎勵系統往往依賴簡單的規則或外部評估,難以捕捉復雜駕駛場景中的細微差別。OmniNWM的獎勵系統就像一個經驗豐富的駕駛教練,能夠從三維空間的角度全面評估駕駛行為,提供更加精確和有意義的反饋。
靈活強制策略的創新意義在于它為長期預測問題提供了一個通用的解決方案。這種方法不僅適用于自動駕駛,還可以推廣到其他需要長期序列預測的領域,如天氣預報、股票市場分析等。它的核心思想是通過"故意犯錯"來增強系統的魯棒性,這種反直覺的方法體現了深度學習領域的一個重要趨勢。
從實際應用的角度來看,OmniNWM的技術創新為自動駕駛的商業化部署掃清了重要障礙。長期以來,自動駕駛系統在復雜場景下的可靠性一直是制約商業化的關鍵因素。OmniNWM通過提供更加全面、準確和穩定的環境理解能力,顯著提升了系統在各種復雜情況下的表現。
系統的零樣本泛化能力特別值得關注,這意味著一旦訓練完成,系統可以直接應用到不同的車輛平臺和傳感器配置上,無需重新訓練或大幅修改。這種能力大大降低了技術部署的成本和復雜性,為自動駕駛技術的規模化應用創造了有利條件。
在安全性方面,OmniNWM的密集獎勵系統提供了一種量化評估駕駛安全性的新方法。這種評估不僅考慮了碰撞風險,還綜合考慮了交通效率和規則遵守等多個維度,為建立自動駕駛安全標準提供了技術基礎。
展望未來,OmniNWM的技術架構為更高級別的自動駕駛功能提供了基礎平臺。比如,系統可以進一步擴展到支持復雜的交通場景理解、多車協同駕駛、動態路徑規劃等高級功能。更重要的是,這種統一的框架為集成其他AI技術(如大語言模型、多模態學習等)提供了接口和標準。
說到底,OmniNWM代表的不僅僅是一個技術產品,更是一種新的思維方式和系統設計哲學。它告訴我們,真正的智能系統不應該是各種功能的簡單堆疊,而應該是一個有機統一的整體,各個組件之間相互協調、相互增強。這種整體性思維對于開發下一代人工智能系統具有重要的指導意義。
從更宏觀的角度看,OmniNWM的成功也反映了中國在人工智能領域,特別是自動駕駛技術方面的快速進步。上海交通大學等國內研究機構在這一前沿領域取得的突破,不僅提升了中國在國際學術界的影響力,也為國內自動駕駛產業的發展提供了強有力的技術支撐。這種技術創新能力的提升,對于中國在未來智能交通和智慧城市建設中占據優勢地位具有重要意義。
Q&A
Q1:OmniNWM相比傳統自動駕駛系統有什么突破?
A:OmniNWM最大的突破是實現了"三位一體"的設計,能夠同時處理狀態感知、精確控制和安全評判。它可以同時生成彩色圖像、語義信息、深度數據和三維空間模型,還能精確控制虛擬攝像頭并直接評判駕駛安全性,這是以前的系統無法做到的。
Q2:規范化全景射線圖技術有什么實際作用?
A:這項技術就像創造了自動駕駛的"通用語言",讓系統能夠在不同的攝像頭配置和數據集之間無縫切換,無需重新訓練。它將復雜的三維攝像頭控制轉換成二維圖像格式,實現了極其精確的視角控制,大大提高了系統的適應性和通用性。
Q3:OmniNWM能生成多長時間的連續預測?
A:OmniNWM可以生成長達321幀的連續視頻序列,遠超傳統方法的預測長度。通過靈活強制策略,系統在長期預測中保持了很好的穩定性和準確性,這對于自動駕駛的實際應用非常重要,因為車輛需要提前較長時間規劃路徑。





京公網安備 11011402013531號