![]()
視頻 1:D2F dLLMs 與同尺寸 AR LLMs 的推理過程對比示意
在大語言模型(LLMs)領域,自回歸(AR)范式長期占據主導地位,但其逐 token 生成也帶來了固有的推理效率瓶頸。此前,谷歌的 Gemini Diffusion 和字節的 Seed Diffusion 以每秒千余 Tokens 的驚人吞吐量,向業界展現了擴散大語言模型(dLLMs)在推理速度上的巨大潛力。然而,當前的開源 dLLMs 卻因一定的技術挑戰 —— 例如缺少完善的 KV 緩存機制,以及未充分釋放并行潛力 —— 推理速度遠慢于同規模的 AR 模型。
近期的一篇工作徹底扭轉了這個局面。上海交通大學 DENG Lab 聯合加州大學圣地亞哥分校(UCSD)推出Discrete Diffusion Forcing(D2F),首次使開源 dLLMs 的生成速度顯著超過同等規模的 AR 模型。實驗顯示,D2F 模型在 GSM8K 等基準上,實現了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升,同時相比于原始的 dLLMs 模型實現了最高達 50 倍的加速。
本文作者團隊來自上海交通大學 DENG Lab 與加州大學圣地亞哥分校(UCSD)。該研究由碩士生王旭、準碩士生徐晨開、本科生金義杰以及博士生金佳純共同完成,指導教師為鄧志杰與張浩老師。DENG Lab 隸屬上海交通大學,致力于高效、跨模態生成模型的研究。
![]()
論文地址:https://arxiv.org/abs/2508.09192代碼地址:https://github.com/zhijie-group/Discrete-Diffusion-Forcing項目主頁:https://zhijie-group.github.io/Discrete-Diffusion-Forcing/模型倉庫:https://huggingface.co/SJTU-Deng-Lab/D2F_Dream_base_7B_Lora, https://huggingface.co/SJTU-Deng-Lab/D2F_LLaDA_Instruct_8B_LoraDemo 地址:https://huggingface.co/spaces/zhijie3/D2F-LLaDA-Instruct-8B
![]()
圖 1:D2F dLLMs 實現了相比 LLaMA3 等主流 AR 模型高達 2.5 倍的吞吐量提升
簡單來說,D2F 賦予了 dLLMs 幾種關鍵特性:
1. 自回歸 - 擴散混合架構:引入塊級自回歸生成,塊間保持因果性,讓模型能夠有效利用 KV 緩存。
2. 塊內 + 塊間雙尺度并行:引入了塊內 token 間并行解碼和塊間并行解碼,最大化并行生成潛力
3. 雙狀態解碼:通過設計雙狀態的塊解碼流水線,最大化吞吐量。
4.更優的 tradeoff:相比原始 dLLMs,具有顯著更優的性能 - 效率權衡
5. vLLM 集成:已將 vLLM 集成到 D2F 中,讓推理速度更進一步
問題的根源:dLLMs 理論優勢與現實瓶頸
擴散大語言模型(dLLMs)理論上具有并行生成 token 的能力,不必像 AR 模型一樣逐個生成,從而在推理效率上具備巨大潛力。然而,在實踐中,現有的開源 dLLMs 并未充分展現這一優勢,其推理速度往往落后于 AR 模型,這個瓶頸主要源于兩個基礎性問題:
KV Cache 的不兼容性:標準 dLLM 依賴雙向注意力機制來獲取全局上下文,導致 AR 模型中常見的 KV 緩存加速技術無法直接應用于 dLLMs。在每次去噪迭代中,模型都需要重新計算所有 token 的 K、V 矩陣,造成了巨大的計算冗余。
塊間解碼的串行限制:為了引入緩存機制,一些工作嘗試將生成過程分塊(block-wise)。但這些方法通常要求嚴格的塊間順序,即只有前一個塊必須被完全解碼后,才能開始處理下一個塊。這種嚴格的依賴使得并行生成僅限于塊內而無法應用于塊之間,極大地限制了整體的并行潛力。
因此,想要釋放 dLLMs 的潛力,就必須同時解決 KV Cache 的兼容性與塊間的并行解碼問題。
D2F 的核心設計:一種自回歸 - 擴散混合范式
面對上述瓶頸,D2F 的核心思想是構建一個融合自回歸和擴散思想的混合范式,協同設計高效的模型架構,訓練方法以及推理策略。
架構:塊級因果注意力,兼容 KV Cache
為了讓 dLLMs 能真正兼容 KV 緩存,D2F 將 dLLMs 中標準的雙向注意力機制重塑為了塊級因果注意力。具體來說:
塊內(Intra-block):保持標準的雙向注意力,以充分利用塊內的上下文信息。塊間(Inter-block):使用因果注意力,即任意一個塊只能關注其自身及所有在它之前的塊。
這種設計在塊的層面上建立了自回歸的順序。每個生成完成的塊的 KV 狀態被緩存并在后續復用,從而根本上解決了 KV Cache 的兼容性問題,大幅減少了冗余計算。
訓練:非對稱蒸餾與結構化噪聲
![]()
圖 2:D2F dLLMs 基于非對稱蒸餾實現訓練
為了避免從頭訓練 dLLMs 的高昂成本。D2F 使用了非對稱蒸餾策略,將一個預訓練好的 dLLMs 教師模型的能力,高效地蒸餾到 D2F 學生模型上。兩者區別在于教師模型使用雙向全注意力而學生模型使用塊級因果注意力。
為了進一步解鎖學生的塊間并行能力,D2F 引入了單調遞增的結構化噪聲調度。具體而言,訓練數據前向加噪過程中,序列靠前的塊被施加較小的噪聲而靠后的塊被施加更大的噪聲。這種結構化的噪聲訓練,其目的是為了教會學生模型如何依據部分去噪、尚不清晰的前文來預測后文。
推理:流水線并行解碼
![]()
圖 3:D2F dLLMs 的推理流程示意
在上述訓練范式的基礎上,D2F 設計了一套創新的并行解碼算法:Pipelined Parallel Decoding。
該算法維護一個動態的待解碼窗口,其中包括若干 tokens 塊。在必要時,新塊以半激活的狀態進入窗口,并在前綴去噪到一定比例后轉為全激活狀態。這種動態添加和雙狀態解碼的機制,確保了流水線的高效和質量。
兩種狀態的區別主要在于解碼策略的激進程度:
半激活狀態(Semi-activated):只接受那些預測置信度超過某一閾值τ_conf的 token。全激活狀態(Fully-activated):如果沒有 token 超過置信度閾值,也會選擇置信度最高的一個 token 進行解碼。
視頻 2:D2F dLLMs 推理過程中顯式地對多個塊進行并行解碼
實驗結果
速度提升,性能不降
D2F 給原始 dLLM 帶來了最高可達 50 倍的加速,同時平均性能不下降。
![]()
圖 4:D2F-LLaDA 與基線方法的對比
![]()
圖 5:D2F-Dream 與基線方法的對比
優異的性能 - 效率權衡曲線
D2F 提供了一條遠優于現有模型的性能 - 效率權衡曲線。通過調整解碼參數,D2F 可以適應各種場景,在性能和速度之間做出靈活的選擇。例如,在 MBPP 任務上,通過稍微犧牲性能,吞吐量可達 AR 模型的 4 倍以上。
![]()
圖 6:D2F dLLMs 實現更優異的優異的性能 - 效率權衡
總結與思考
D2F 的出現為開源 dLLMs 社區注入了新的活力,展現了 dLLMs 推理速度上的巨大潛力。通過開源代碼和模型,團隊希望能夠激勵社區投入更多的研究資源,共同推動并行解碼技術走向成熟,進入更廣泛的實際應用。
此外,D2F 的成功證明了 AR 和 Diffusion 并非是兩種完全對立的范式。通過巧妙的混合框架設計,可以融合 AR 模型的緩存優勢和 dLLMs 的并行優勢,這為大模型推理優化開辟了新的道路。
未來工作:目前 vLLM 的 Async Engine (for realtime serving), CUDA Graph Capture support, optimized Kernels, hybrid parallel (DP + TP + PP) 都有待實現,歡迎感興趣的同學跟我們聯系。





京公網安備 11011402013531號