![]()
隨著 VLA(Vision-Language-Action)模型的興起,端到端自動駕駛正經歷從「模塊化」向「大一統」的范式轉移。然而,將感知、推理與規劃壓縮進單一模型后,主流的自回歸(Auto-regressive)生成范式逐漸顯露出局限性。現有的自回歸模型強制遵循「從左到右」的時序生成邏輯,這與人類駕駛員的思維直覺存在本質差異 —— 經驗豐富的駕駛員在處理復雜路況時,往往采用「以終為始」的策略,即先確立長期的駕駛意圖(如切入匝道、避讓行人、靠邊停靠),再反推當前的短期操控動作。此外,基于模仿學習的模型容易陷入「平均司機」陷阱,傾向于擬合數據分布的均值,導致策略平庸化,難以在激進博弈與保守避讓之間靈活切換。
針對上述痛點,復旦大學與引望智能聯合提出了 WAM-Diff 框架。該研究創新性地將離散掩碼擴散模型(Discrete Masked Diffusion)引入 VLA 自動駕駛規劃,并結合稀疏混合專家(MoE)架構與在線強化學習(GSPO),構建了一套不再受限于單向時序的生成式規劃系統。
在權威評測基準 NAVSIM 中,WAM-Diff 展現了卓越的性能,在 NAVSIM-v1 和 v2 榜單上分別取得了91.0 PDMS和89.7 EPDMS的 SOTA 成績,有力證明了非自回歸生成范式在復雜自動駕駛場景下的巨大潛力。
![]()
論文標題: WAM-Diff: A Masked Diffusion VLA framework with MoE and online Reinforcement Learning for Autonomous Driving論文鏈接: https://arxiv.org/abs/2512.11872開源項目: https://github.com/fudan-generative-vision/WAM-Diff
核心創新:重新思考生成邏輯
從數值回歸到離散序列生成
為了在統一的特征空間內實現對世界的理解與動作規劃,WAM-Diff 首先引入了混合離散動作分詞(Hybrid Discrete Action Tokenization)技術。研究團隊將連續的 2D 軌跡坐標量化為高精度的離散 Token(誤差控制在 0.005 以內),并將其與代表駕駛指令(如「左轉」、「避讓」、「停靠」)的語義 Token 置于共享詞表中。
在此基礎上,WAM-Diff 采用 Masked Diffusion 作為生成骨干。與逐個預測下一個 Token 的自回歸模型不同,Masked Diffusion 從一個全掩碼序列出發,利用雙向上下文信息,在每一步迭代中并行預測所有位置的 Token。這種機制不僅大幅提升了推理效率,更重要的是賦予了模型全局優化的能力,使其能夠同時利用過去和未來的信息來推斷當前的最優動作。
![]()
Figure 1 : WAM-Diff 的模型總體架構圖。
解碼策略驗證「反因果」規劃的有效性
擺脫了「從左到右」的時序束縛后,模型該如何安排軌跡生成的優先級?WAM-Diff 深入探索了因果序(Causal)、反因果序(Reverse-Causal)和隨機序(Random)三種解碼調度策略。實驗結果揭示了一個反直覺但極具價值的現象:反因果序策略在閉環指標上表現最佳。這意味著,先確定遠處的終點狀態,再倒推近處的軌跡細節,這種「以終為始」的生成邏輯能顯著提升規劃的一致性與安全性。這一發現從模型層面驗證了人類駕駛員在復雜博弈場景下的直覺思維。
![]()
Figure 2 : Masked Diffusion 的不同解碼調度策略。
MoE 混合專家與 GSPO 在線強化學習
面對多變的駕駛場景,單一模型往往難以兼顧各種極端情況。WAM-Diff 通過在主干網絡中集成 LoRA-MoE(Low-Rank Adaptation Mixture-of-Experts)架構來解決這一難題。模型包含 64 個輕量級專家,通過門控網絡實現動態路由與稀疏激活。在推理過程中,模型能夠根據當前場景自動激活最匹配的駕駛專家,在控制計算開銷的同時顯著提升了模型的容量與適應性。此外,團隊采用了多任務聯合訓練策略,使模型在學習軌跡預測的同時,通過駕駛 VQA 任務理解場景語義。這使得專家網絡不僅掌握了駕駛技能,更理解了駕駛決策背后的因果邏輯,顯著增強了規劃的可解釋性與泛化能力。
![]()
Figure 3 : MoE 組件的定性分析。不同場景下規劃軌跡的 BEV 可視化與專家激活熱力圖。
與此同時,單純的模仿學習容易導致模型在長尾場景下缺乏魯棒性,且難以顯式優化安全指標。為此,WAM-Diff 引入了分組序列策略優化(GSPO, Group Sequence Policy Optimization)算法,旨在彌合開環訓練與閉環執行之間的鴻溝。GSPO 的核心思想是將優化粒度從「單步 Token」提升至「完整軌跡序列」。系統在仿真環境中采樣一組候選軌跡,并依據安全性(碰撞檢測)、合規性(車道保持)及舒適性(加減速平滑度)等多維指標對整條軌跡進行評分。通過計算組內相對優勢,模型被顯式引導向「高安全、高舒適」的區域更新。這種序列級的價值對齊機制,從根本上確保了規劃結果不僅「像人」,而且比人類駕駛數據更安全、更規范。
實驗結果
為了驗證 WAM-Diff 的有效性,我們在權威的 NAVSIM 自動駕駛評測基準上進行了廣泛實驗。結果顯示,該方法在 NAVSIM-v1 和 v2 榜單上均取得了具有競爭力的表現。具體而言,在 NAVSIM-v1 中,WAM-Diff 達到了 91.0 的 PDMS 分數,超越了 DiffusionDrive、ReCogDrive 以及 DriveVLA-W0 等主流基線模型。
![]()
Table 1 : 在 NAVSIM-v1 上與最先進方法(SOTA)的對比。
進一步地,在引入了交通規則遵循度與舒適性等更嚴格指標的 NAVSIM-v2 測試中,模型依然保持了穩健性,取得了 89.7 的 EPDMS 成績,相較于 DiffusionDrive 提升了 5.2 分。這表明 WAM-Diff 能夠有效平衡駕駛的安全性與合規性,在面對貼近真實駕駛的復雜評測體系時仍能生成高質量的規劃軌跡。
![]()
Table 2 : 在 NAVSIM-v2 上與最先進方法(SOTA)的對比。
此外,我們對掩碼擴散的解碼策略進行了深入的消融研究。實驗對比了隨機序、因果序與反因果序三種模式,結果發現反因果序策略取得了最佳的閉環性能(91.0 PDMS)。這一數據有力支持了 “以終為始” 的規劃直覺:優先確立遠期駕駛意圖,再反推近端動作細節,有助于生成在時序上更一致、安全的可執行軌跡。
![]()
Table 3 :掩碼解碼調度策略的消融研究。
定性實驗與可視化結果進一步展示了模型在復雜博弈場景下的穩定性,驗證了 MoE 架構與在線強化學習(GSPO)組件在提升長尾場景魯棒性方面的作用。
![]()
Figure 4 : 強化學習 GSPO 在不同駕駛場景下的定性消融分析。
總結
WAM-Diff 的出現,標志著端到端自動駕駛規劃向離散化、結構化、閉環化邁出了重要一步。它并未簡單地堆砌模型參數,而是通過 Masked Diffusion 重構了時序生成的邏輯,利用 MoE 解決了策略單一性的瓶頸,最后通過 RL 守住了安全的底線。對于業界而言,WAM-Diff 證明了在 VLA 時代,「如何生成」與「生成什么」同樣重要。這種具備反向推理能力且風格多變的規劃器,或許正是通往 L4 級自動駕駛的一塊關鍵拼圖。





京公網安備 11011402013531號