![]()
這項由清華大學(xué)程子聰、楊國偉等研究人員領(lǐng)導(dǎo)的創(chuàng)新研究發(fā)表于2025年12月,論文編號為arXiv:2512.15176v1。該研究還得到了上海交通大學(xué)和Proxseer公司的支持,為大語言模型推理加速領(lǐng)域帶來了全新突破。
如果你曾經(jīng)在等待ChatGPT或其他AI助手回答問題時感到不耐煩,那么清華大學(xué)研究團隊的這項新發(fā)現(xiàn)可能會徹底改變你的體驗。他們開發(fā)了一種名為DEER的創(chuàng)新技術(shù),能夠讓AI的回答速度提升2到5倍,同時保證答案質(zhì)量完全不變。
要理解這項技術(shù)的重要性,可以把當(dāng)前的AI回答過程想象成一個作家在寫小說。傳統(tǒng)的AI就像一個極其嚴(yán)謹(jǐn)?shù)淖骷遥繉懸粋€字都要反復(fù)斟酌,確保這個字與前面所有字完美銜接。這種方式雖然確保了質(zhì)量,但速度極其緩慢。而DEER技術(shù)則像是給這個作家配備了一個快手助理——助理先快速寫出一大段草稿,然后作家再逐字檢查和修正。
當(dāng)前大語言模型在生成文本時面臨著一個根本性的效率瓶頸。就像多米諾骨牌一樣,每個詞都必須等待前一個詞完全確定后才能生成,這種串行處理方式導(dǎo)致了嚴(yán)重的延遲問題。特別是在復(fù)雜推理和代理任務(wù)中,這種延遲會累積成令人難以忍受的等待時間。
研究團隊發(fā)現(xiàn),現(xiàn)有的"投機解碼"方法雖然試圖解決這個問題,但都存在一個致命缺陷——它們使用的輔助模型同樣采用逐字生成的方式,就像用一個慢速打字員來幫助另一個慢速打字員一樣,效果有限。更糟糕的是,這種方法還存在"信任度逐漸崩塌"的現(xiàn)象:隨著草稿越寫越長,早期錯誤會像滾雪球一樣越滾越大,導(dǎo)致后面的內(nèi)容越來越不可靠。
一、擴散模型:從圖像生成到文本創(chuàng)作的華麗轉(zhuǎn)身
DEER技術(shù)的核心創(chuàng)新在于使用了一種全新的草稿生成器——擴散語言模型。要理解這個概念,可以把它想象成一個特殊的創(chuàng)作過程。
傳統(tǒng)的AI文本生成就像是用鋼筆寫字,必須從左到右一筆一劃地寫,每一筆都必須等前一筆完成。而擴散模型則像是用拼圖的方式創(chuàng)作:它先在整張紙上隨機撒一些字母碎片(這些碎片看起來毫無意義),然后通過特殊的"去噪"過程,逐漸將這些混亂的碎片整理成有意義的句子。
這種方法的巧妙之處在于,它可以同時處理整個句子中的所有位置,就像一個拼圖高手能夠同時在多個區(qū)域工作,而不是必須按照從左到右的順序拼接。這樣一來,一個32個詞的句子可以在一次操作中全部生成出來,而不是需要32次連續(xù)的操作。
更重要的是,由于擴散模型生成的每個詞都不依賴于草稿中前面的詞,它避免了傳統(tǒng)方法中的"錯誤累積"問題。就像每個拼圖塊都是獨立放置的,一個位置的錯誤不會影響其他位置的準(zhǔn)確性。
二、兩階段訓(xùn)練:讓擴散模型學(xué)會寫續(xù)集
雖然擴散模型理論上很強大,但要讓它勝任"草稿助理"的工作,研究團隊需要對其進行專門的訓(xùn)練。這個過程就像培訓(xùn)一個小說助理,需要教會它如何根據(jù)已有的故事情節(jié)來續(xù)寫后面的內(nèi)容。
第一階段被稱為"自回歸式續(xù)寫訓(xùn)練"。研究團隊使用了一個巧妙的訓(xùn)練策略:他們將完整的答案隨機截斷,在截斷處加上一個特殊的標(biāo)記(就像書簽一樣),然后讓擴散模型學(xué)習(xí)如何從這個書簽位置繼續(xù)寫下去。這個過程反復(fù)進行,直到模型學(xué)會了如何根據(jù)任何給定的前文來生成合理的續(xù)寫。
第二階段被稱為"精細(xì)化校準(zhǔn)"。在這個階段,研究團隊特別關(guān)注草稿與原模型答案的對接部分。他們使用了一種指數(shù)衰減的權(quán)重策略,越靠近前文的部分給予越高的權(quán)重,確保生成的草稿在關(guān)鍵位置與目標(biāo)模型高度一致。這就像訓(xùn)練一個接力賽跑手,不僅要跑得快,還要確保接棒時完美配合。
通過這兩個訓(xùn)練階段,擴散模型不僅學(xué)會了生成連貫的文本,還學(xué)會了與目標(biāo)模型保持高度一致,為后續(xù)的驗證過程奠定了基礎(chǔ)。
三、草稿驗證機制:確保質(zhì)量的最后一道防線
DEER系統(tǒng)的驗證過程采用了經(jīng)典的"投機解碼"框架,但因為使用了擴散模型作為草稿生成器,整個過程變得更加高效和可靠。
具體的驗證過程可以這樣理解:當(dāng)擴散模型生成一個包含多個詞的草稿后,目標(biāo)模型會逐詞檢查這個草稿。對于每個詞,系統(tǒng)會計算一個"接受概率",這個概率反映了該詞在當(dāng)前上下文中的合理程度。如果概率足夠高,這個詞就會被接受;如果太低,系統(tǒng)就會拒絕這個詞以及它后面的所有詞,然后由目標(biāo)模型重新生成。
這個過程的關(guān)鍵優(yōu)勢在于,由于擴散模型生成的草稿避免了錯誤累積,即使草稿很長,后面的詞仍然有很高的被接受概率。實驗結(jié)果顯示,DEER能夠生成長達32個詞的草稿并獲得較高的接受率,這遠遠超過了傳統(tǒng)方法通常只能接受8-10個詞的水平。
驗證機制還采用了嚴(yán)格的數(shù)學(xué)保證,確保最終輸出的文本與直接使用目標(biāo)模型生成的文本在統(tǒng)計上完全一致。這意味著用戶不僅能享受到速度提升,還能保證答案質(zhì)量絲毫不受影響。
四、實驗結(jié)果:從理論到實踐的完美驗證
研究團隊在多個基準(zhǔn)測試中驗證了DEER的效果,結(jié)果令人印象深刻。在代碼生成任務(wù)中,使用Qwen3-30B模型時,DEER在Humaneval基準(zhǔn)上實現(xiàn)了5.54倍的加速,而當(dāng)前最先進的EAGLE-3方法只能達到2.41倍的加速。
更令人驚訝的是草稿接受長度的巨大差異。在所有測試的模型規(guī)模上,DEER都能實現(xiàn)平均4-6個詞的接受長度,最長可達32個詞,而EAGLE-3通常只能接受3個詞左右,最長不超過8個詞。這種差異直接轉(zhuǎn)化為了顯著的速度提升。
在數(shù)學(xué)推理任務(wù)中,盡管研究團隊使用的擴散模型訓(xùn)練還不夠充分,DEER仍然在GSM8K、Math500等基準(zhǔn)測試中超越了現(xiàn)有方法。在GSM8K測試中,DEER實現(xiàn)了2.23倍的加速,相比EAGLE-3的1.92倍有明顯提升。
特別值得注意的是,隨著目標(biāo)模型規(guī)模的增大,DEER的優(yōu)勢變得更加明顯。在14B和30B參數(shù)的模型上,DEER的性能提升尤為顯著,這表明該技術(shù)在大模型上具有更大的應(yīng)用潛力。
五、批量推理和新興能力:超越預(yù)期的額外發(fā)現(xiàn)
除了單次對話的加速效果,DEER在批量推理場景中也表現(xiàn)出色。當(dāng)同時處理多個請求時,DEER能夠?qū)⑼掏铝刻嵘絺鹘y(tǒng)方法的4倍以上。在處理16個并發(fā)請求時,DEER的處理速度達到了175.66 tokens/秒,而傳統(tǒng)方法只有49.76 tokens/秒。
更有趣的是,研究團隊發(fā)現(xiàn)訓(xùn)練后的擴散模型出現(xiàn)了一種意想不到的能力——"可靠的塊再生成"。這種能力讓模型能夠接受部分被遮蓋的代碼片段,然后重新生成完整的代碼塊。這就像給一個程序員看一段不完整的代碼,他能夠理解上下文并補全缺失的部分。
這種新興能力表明,DEER不僅是一個加速工具,還可能開啟新的應(yīng)用場景。例如,在代碼補全、文檔修復(fù)或創(chuàng)意寫作輔助等領(lǐng)域,這種塊級別的生成能力可能會帶來全新的用戶體驗。
研究團隊還發(fā)現(xiàn),即使是訓(xùn)練不充分的擴散模型也能在DEER框架中發(fā)揮作用。這說明該方法具有很強的魯棒性,不需要完美的草稿生成器就能獲得顯著的性能提升。
六、技術(shù)細(xì)節(jié)和工程實現(xiàn):讓理論走向現(xiàn)實
DEER的實現(xiàn)涉及多個技術(shù)層面的創(chuàng)新。在訓(xùn)練數(shù)據(jù)方面,研究團隊使用了OpenCodeInstruct數(shù)據(jù)集進行代碼任務(wù)訓(xùn)練,使用UltraChat數(shù)據(jù)集進行數(shù)學(xué)推理任務(wù)訓(xùn)練。訓(xùn)練過程采用了精心調(diào)優(yōu)的超參數(shù),確保擴散模型能夠快速收斂到理想狀態(tài)。
在推理優(yōu)化方面,雖然當(dāng)前主流的推理框架(如vLLM和SGLang)還不支持?jǐn)U散語言模型的KV緩存,但已有相關(guān)技術(shù)(如Fast-dLLM和dInfer)正在快速發(fā)展。研究團隊預(yù)期,一旦這些技術(shù)成熟并集成到主流框架中,DEER的性能優(yōu)勢將更加明顯。
系統(tǒng)的內(nèi)存使用也經(jīng)過了優(yōu)化。相比目標(biāo)模型,DEER的草稿生成器只增加了約470M參數(shù)的額外開銷,這在現(xiàn)代GPU上完全可以接受。而且由于草稿生成是并行的,整體內(nèi)存訪問模式也更加高效。
為了確保系統(tǒng)的正確性,研究團隊提供了嚴(yán)格的數(shù)學(xué)證明,證明DEER輸出的文本分布與直接使用目標(biāo)模型完全一致。這種理論保證讓用戶可以放心使用該技術(shù),而不用擔(dān)心質(zhì)量損失。
七、未來展望和應(yīng)用前景:改變AI交互的游戲規(guī)則
DEER技術(shù)的意義遠不止于提升現(xiàn)有AI系統(tǒng)的速度。它代表了一種全新的思維方式:通過模塊化設(shè)計,將不同類型的模型優(yōu)勢結(jié)合起來,而不是試圖用單一模型解決所有問題。
在實際應(yīng)用中,DEER可能會催生新的AI服務(wù)模式。例如,在線AI助手可以提供更加流暢的實時對話體驗;代碼生成工具可以實現(xiàn)近乎實時的代碼補全;創(chuàng)作輔助工具可以提供更加流暢的靈感展示。
從技術(shù)發(fā)展角度看,DEER也為擴散模型在自然語言處理領(lǐng)域的應(yīng)用開辟了新道路。傳統(tǒng)上,擴散模型主要用于圖像和音頻生成,而DEER證明了它們在文本生成加速方面的巨大潛力。
研究團隊已經(jīng)承諾開源相關(guān)代碼和模型,這將加速技術(shù)的普及和進一步優(yōu)化。可以預(yù)期,未來會有更多研究團隊基于這個框架開發(fā)出針對特定應(yīng)用場景的優(yōu)化版本。
從更宏觀的角度看,DEER類型的技術(shù)可能會改變我們對AI系統(tǒng)架構(gòu)的理解。與其追求單一模型的全面優(yōu)化,未來的AI系統(tǒng)可能會更多地采用專門化模塊協(xié)作的方式,每個模塊專注于自己最擅長的任務(wù)。
說到底,DEER技術(shù)的核心價值在于它證明了一個重要觀點:通過巧妙的系統(tǒng)設(shè)計,我們可以在不犧牲質(zhì)量的前提下大幅提升AI系統(tǒng)的效率。這種思路不僅適用于語言模型,也可能啟發(fā)其他AI領(lǐng)域的創(chuàng)新。對于普通用戶而言,這意味著未來的AI助手將變得更加高效和實用,讓人工智能真正成為我們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡牡昧χ帧?/p>
當(dāng)我們回顧整個研究過程,可以看到這不僅僅是一個技術(shù)改進,更是一次思維方式的突破。通過將擴散模型的并行生成優(yōu)勢與自回歸模型的精確驗證能力相結(jié)合,DEER為整個AI加速領(lǐng)域指明了新的發(fā)展方向。
Q&A
Q1:DEER技術(shù)是什么?
A:DEER是清華大學(xué)開發(fā)的AI加速技術(shù),它使用擴散模型快速生成文本草稿,然后用目標(biāo)模型驗證,能讓AI回答速度提升2-5倍而不降低質(zhì)量。就像給AI配了個快速寫草稿的助理。
Q2:為什么DEER比現(xiàn)有方法快這么多?
A:關(guān)鍵在于DEER避免了傳統(tǒng)方法的"錯誤累積"問題。傳統(tǒng)方法生成草稿時每個詞都依賴前面的詞,錯誤會越積越多,而DEER的擴散模型能同時生成整個句子,避免了這種連鎖反應(yīng)。
Q3:普通用戶什么時候能體驗到DEER技術(shù)?
A:研究團隊已承諾開源相關(guān)代碼,但要集成到主流AI服務(wù)還需要時間。目前主要技術(shù)框架還不完全支持,預(yù)計在相關(guān)基礎(chǔ)設(shè)施成熟后,用戶就能在ChatGPT等服務(wù)中體驗到類似的加速效果。





京公網(wǎng)安備 11011402013531號