香港理工大學等機構揭秘擴散語言模型的"未卜先知"能力

IP屬地中國·北京 編輯：江紫萱科技行者 時間：2025-09-03 20:23:16

這項由香港理工大學李鵬祥、達特茅斯學院周葉凡、薩里大學殷璐等多位研究者組成的國際團隊完成的研究，發表于2025年8月27日的arXiv預印本平臺。有興趣深入了解的讀者可以通過論文編號arXiv:2508.19982v1訪問完整論文，同時研究代碼已在GitHub平臺公開發布。
人工智能文本生成技術正在經歷一場變革。過去我們熟悉的AI聊天機器人，就像是一個一字一句慢慢說話的人，必須等前面的字說完才能說下一個字。但現在有一種新技術叫做擴散語言模型，它能夠同時處理多個位置的文字，就像一個能同時在黑板上多個位置寫字的老師。然而，這種看似更先進的技術卻面臨著一個意外的問題：雖然理論上應該更快，但實際使用時反而比傳統方法慢了許多。
研究團隊在深入分析這個問題時，發現了一個令人驚訝的現象：這些擴散語言模型其實早就"知道"正確答案了，只是它們一直在做無用功。就好比一個學生在考試時，其實在答題過程中途就已經想到了正確答案，但還是要把整張試卷全部填完才交卷。研究人員發現，在GSM8K數學問題數據集上，高達97%的問題其實在推理過程進行到一半時就已經得出了正確答案。在MMLU綜合能力測試中，這個比例更是達到了驚人的99%。
基于這個發現，研究團隊開發了一個名為"Prophet"的新方法。這個方法就像給AI裝上了一個智能的"提前交卷"系統。它會實時監控AI在生成文本過程中的信心程度，一旦發現答案已經足夠穩定可靠，就會果斷停止繼續推理，直接輸出最終結果。這樣做的效果非常顯著：在保持答案質量幾乎不變的情況下，推理速度提升了多達3.4倍。
一、擴散語言模型的工作原理：像拼圖游戲一樣的文本生成
要理解這項研究的意義，我們首先需要了解擴散語言模型是如何工作的。傳統的AI文本生成就像寫作文一樣，必須從第一個字開始，一個字接一個字地往下寫。而擴散語言模型的工作方式更像是在玩一個特殊的拼圖游戲。
在這個"拼圖游戲"中，AI開始時看到的是一個布滿遮罩標記的句子，就像一個填字游戲的模板。然后它開始逐步揭開這些遮罩，填入合適的詞語。但與傳統方法不同的是，它可以同時在多個位置工作，就像有多只手同時在不同位置拼裝拼圖塊。
這個過程分為兩個關鍵步驟，不斷循環進行。第一步是"預測步驟"，AI會根據當前看到的部分信息，猜測那些被遮罩位置應該填什么詞。第二步是"重新遮罩步驟"，AI會根據自己的信心程度，選擇保留一些已經確定的詞，同時重新遮罩一些不太確定的位置，為下一輪預測做準備。
這種工作方式理論上應該比傳統的逐字生成更高效，因為它能并行處理多個位置。然而在實際應用中，擴散語言模型卻面臨著效率問題。由于需要雙向關注所有位置的信息，無法使用傳統的緩存優化技術，加上需要多輪迭代才能得到高質量結果，實際推理速度反而變慢了。
二、意外發現：AI其實早就知道答案
研究團隊在分析擴散語言模型的工作過程時，意外發現了一個有趣現象。他們仔細觀察了模型在解決數學問題時每一步的推理過程，發現了一個類似"未卜先知"的能力：在很多情況下，正確答案早在推理過程的中途就已經出現了，但模型卻繼續進行著看似不必要的精細化步驟。
研究團隊選擇了兩個具有代表性的測試數據集進行深入分析。GSM8K是一個包含小學數學應用題的數據集，而MMLU則是一個涵蓋多個學科知識的綜合性測試。他們使用LLaDA-8B模型進行實驗，跟蹤每個推理步驟中最有可能被選擇的詞匯，觀察這些詞匯何時開始與最終的正確答案匹配。
結果令人震驚。在使用"低置信度重遮罩"策略時，即使不使用任何特殊的提示詞，仍然有24.2%的樣本在推理過程進行到一半時就已經得出了正確答案，7.9%的樣本甚至在前四分之一的推理步驟中就找到了答案。當研究團隊在問題末尾添加"Answer:"這樣的提示詞后，效果更加顯著：一半推理步驟內正確的樣本比例躍升至75.8%，四分之一步驟內正確的比例達到59.7%。
更令人驚訝的是，當使用"隨機重遮罩"策略時，早期收斂的現象變得更加明顯。在不使用提示詞的情況下，97.2%的樣本在一半推理步驟內就能得出正確答案，88.5%的樣本在四分之一步驟內就已經正確。加上提示詞后，這些數字分別提升到97.3%和94.6%。
研究團隊還仔細觀察了推理過程中的動態變化。他們發現，對于需要復雜推理的數學問題，雖然推理鏈中的中間步驟會頻繁變化和調整，但最終答案部分往往會在某個時刻突然穩定下來，并在之后的所有推理步驟中保持不變。這就像是一個學生在草稿紙上反復計算中間過程，但心里其實早就知道最終答案是多少。
三、Prophet方法：智能的"提前交卷"系統
基于這個重要發現，研究團隊開發了Prophet方法。這個方法的核心思想非常直觀：既然AI經常在推理中途就已經找到了正確答案，為什么不讓它提前"交卷"呢？就像一個聰明的學生，當確信自己的答案正確時，沒必要繼續在考場里浪費時間反復檢查。
Prophet方法的關鍵在于一個名為"信心差距"的度量標準。在每一個推理步驟中，AI都會為每個待填入位置的所有可能詞匯分配一個概率分數。信心差距就是最高分詞匯與第二高分詞匯之間的分數差。當這個差距很大時，說明AI對自己的選擇非常確信；當差距較小時，說明AI還在兩個選項之間猶豫不決。
然而，僅僅依靠信心差距還不夠。研究團隊發現，在推理的不同階段，同樣的信心差距代表的可靠程度是不同的。在推理初期，即使差距很大，也可能是因為信息不足導致的虛假信心；而在推理后期，相對較小的差距也可能代表著可靠的判斷。
為了解決這個問題，Prophet采用了一個動態調整的閾值策略。這個策略將整個推理過程分為三個階段，每個階段使用不同的信心差距要求。在推理的前三分之一階段，Prophet采用"高度謹慎"模式，要求極高的信心差距才允許提前結束，這相當于要求AI必須"胸有成竹"才能提前交卷。在中間三分之一階段，要求適中的信心差距。而在最后三分之一階段，Prophet變得更加"寬容"，只需要相對較低的信心差距就可以結束推理。
這種設計體現了一種時變的風險管理策略。早期階段風險較高，因為還有很大的改進空間，所以Prophet表現得很保守；隨著推理的深入，繼續下去的邊際收益遞減，而提前結束的計算成本節約變得更有價值，所以Prophet逐漸變得更愿意承擔風險。
Prophet的實現非常簡潔高效。它只需要在現有擴散語言模型的推理循環中添加一個簡單的檢查步驟，監控答案區域的平均信心差距。一旦滿足當前階段的閾值要求，Prophet就會觸發"全力沖刺"模式：停止逐步細化的過程，直接將所有剩余的遮罩位置一次性填充完整，輸出最終答案。
四、實驗驗證：在多個任務上的卓越表現
為了驗證Prophet方法的有效性，研究團隊在多個不同類型的任務上進行了全面測試。他們選擇了兩個具有代表性的擴散語言模型：LLaDA-8B和Dream-7B，并設計了三種不同的解碼策略進行對比。
第一種是"完整預算"策略，使用標準的50步擴散解碼，這代表了傳統方法的性能上限。第二種是"減半預算"策略，簡單粗暴地將解碼步數減少到25步，這代表了一種樸素的加速基線方法。第三種就是Prophet方法，使用動態閾值調度進行早期提交解碼。
實驗涵蓋了三個主要能力領域。在通用推理能力測試中，包括MMLU綜合知識測試、ARC-Challenge科學推理、HellaSwag常識推理、TruthfulQA事實準確性、WinoGrande語言理解和PIQA物理常識等多個標準測試。數學和科學推理能力通過GSM8K數學應用題和GPQA研究生水平問答進行評估。規劃能力則通過Countdown數字游戲和Sudoku數獨puzzle進行測試。
實驗結果令人印象深刻。在LLaDA-8B模型上，Prophet在MMLU測試中達到54.0%的準確率，與完整預算方法的54.1%幾乎相等，但推理速度提升了2.34倍。在ARC-Challenge測試中，Prophet甚至取得了83.5%的準確率，略高于完整預算方法的83.2%，同時獲得1.88倍的速度提升。更有趣的是，在HellaSwag測試中，Prophet的表現（70.9%）不僅超過了完整預算基線（68.7%），也超過了減半預算基線（70.5%），這表明適時停止推理實際上能夠防止模型在后期步驟中"過度思考"而破壞已經正確的答案。
在數學推理任務上，Prophet繼續展現出色性能。GSM8K數學問題上，Prophet獲得76.8%的準確率，與完整預算的77.1%非常接近，同時實現1.69倍速度提升。在更困難的GPQA測試中，Prophet的優勢更加明顯：當簡單的減半策略導致性能從25.2%下降到21.2%時，Prophet成功保持了25.7%的高準確率，證明了其相對于簡單截斷策略的顯著優勢。
Dream-7B模型上的實驗結果同樣令人鼓舞。在各項測試中，Prophet都能在保持準確率的同時獲得顯著的速度提升，證明了這種方法的普適性。特別值得注意的是，在某些任務上，Prophet甚至能夠實現高達3.4倍的速度提升，這對于實際應用具有重要意義。
五、深層機制分析：為什么會有早期收斂現象
研究團隊進一步探索了早期收斂現象背后的深層機制。通過詳細分析推理過程中的動態變化模式，他們發現了一些有趣的規律。
在數學問題求解過程中，擴散語言模型展現出一種"分層穩定化"的特征。推理鏈中的不同部分以不同的速度趨于穩定。通常情況下，問題分析和中間計算步驟會持續變化和調整，就像一個學生在草稿紙上反復修改計算過程。但最終的數值答案往往會在某個關鍵時刻突然"鎖定"，并在之后的所有推理步驟中保持完全一致。
這種現象特別在使用了提示詞的情況下更加明顯。當在問題末尾添加"Answer:"這樣的標記時，模型似乎能更早地識別出答案區域，并將注意力集中在最終結果的確定上。這就像是給學生明確指出了"請在這里寫下最終答案"，幫助他們更快地聚焦到關鍵信息上。
研究團隊還觀察到，不同的重遮罩策略對早期收斂的影響截然不同。低置信度重遮罩策略傾向于保留那些模型最確信的詞匯，這種保守的策略確保了高質量但可能需要更多步驟。而隨機重遮罩策略在每一步都會隨機選擇一部分位置進行重新預測，這種看似"粗暴"的方法實際上能夠更快地收斂到正確答案。
這個發現揭示了擴散語言模型工作機制中的一個重要特性：它們具有一種內在的"答案吸引力"。一旦模型在某個推理步驟中捕捉到了正確的答案模式，這個答案就會在后續步驟中表現出強烈的穩定性。這類似于物理學中的"吸引子"概念，系統一旦進入某個穩定狀態，就會自然地保持在那里。
六、技術實現細節：簡潔而高效的算法設計
Prophet方法的一大優勢在于其實現的簡潔性和通用性。整個算法可以作為一個輕量級的"包裝器"，無縫集成到現有的擴散語言模型推理流程中，無需任何模型重訓練或架構修改。
算法的核心循環非常直觀。在標準的擴散解碼過程中，每一步都包括兩個階段：首先計算當前狀態下的詞匯概率分布，然后根據重遮罩策略決定下一步的操作。Prophet在這個循環中插入了一個輕量級的檢查步驟：計算答案區域的平均信心差距，并與當前階段的動態閾值進行比較。
信心差距的計算非常高效。對于每個答案位置，算法提取出概率分布中的最高值和次高值，計算它們的差值。然后對所有答案位置的差值進行平均，得到整體的信心差距指標。這個計算過程的時間復雜度是線性的，對整體推理時間的影響微乎其微。
動態閾值的設計體現了算法的智能化。閾值函數根據推理進度（定義為已完成步數占總步數的比例）分為三個區間。早期區間（0-33%進度）使用高閾值8.0，中期區間（33%-67%進度）使用中等閾值5.0，后期區間（67%-100%進度）使用低閾值3.0。這種分段式的設計既保證了早期的保守性，又允許后期的靈活性。
一旦觸發早期提交條件，算法會立即進入"全力沖刺"模式。此時，所有剩余的遮罩位置都會根據當前的概率分布進行一次性填充，使用簡單的argmax操作選擇每個位置的最高概率詞匯。這個過程非常高效，因為避免了后續多步迭代的計算開銷。
研究團隊特別強調了Prophet的模型無關性。無論是LLaDA、Dream還是其他擴散語言模型，只要遵循標準的遮罩-預測-重遮罩范式，都可以直接應用Prophet方法。這種通用性使得Prophet具有很強的實用價值，可以作為一個即插即用的加速工具。
七、與現有加速方法的比較：互補而非競爭
研究團隊將Prophet定位為一種與現有加速技術互補的方法，而非簡單的替代方案。當前的擴散語言模型加速研究主要集中在兩個方向：KV緩存優化和采樣方法改進。
KV緩存優化方法試圖解決擴散模型無法使用傳統緩存機制的問題。這類方法通過觀察到連續推理步驟間隱藏狀態的高相似性，實現近似緩存，或者通過重構推理過程為半自回歸模式，使部分計算可以復用之前的結果。這些方法主要針對計算復用和內存優化。
采樣方法改進則關注如何在每個推理步驟中解碼更多詞匯，通過動態調整并行解碼的詞匯數量或使用統計度量指導解碼策略，來減少總的推理輪數。這些方法主要針對單步效率的提升。
Prophet與這些方法的根本不同在于，它不是試圖優化現有推理過程的效率，而是智能地決定何時可以安全地停止推理。這種"何時停止"的視角為擴散語言模型加速開辟了一個全新的方向。更重要的是，Prophet可以與現有的加速技術疊加使用，實現更大的整體加速效果。
例如，在使用KV緩存優化的基礎上應用Prophet，可以同時獲得計算復用和早期停止的雙重收益。在改進采樣方法的基礎上應用Prophet，可以在提高單步效率的同時減少總步數。這種組合使用的潛力使得Prophet成為一個極具價值的通用加速工具。
此外，Prophet的訓練無關性也是其重要優勢。許多現有的加速方法需要額外的訓練步驟、模型修改或專門的數據準備。而Prophet完全基于推理時的動態信息做決策，不需要任何預訓練或微調，大大降低了部署成本和技術門檻。
八、潛在應用與未來影響
Prophet方法的成功不僅僅是一個技術優化，更代表了對擴散語言模型內在機制的深刻理解。這種理解為未來的研究和應用開辟了多個有前景的方向。
在實際應用層面，Prophet的即時可用性使其特別適合部署在資源受限的環境中。對于移動設備、邊緣計算節點或需要處理大量并發請求的服務器，Prophet提供的3倍多速度提升可以顯著改善用戶體驗和系統吞吐量。特別是在對話系統、代碼生成、創意寫作等需要快速響應的應用場景中，這種加速效果具有直接的商業價值。
從科研角度看，Prophet揭示的早期收斂現象為理解大語言模型的內在工作機制提供了新的視角。傳統觀點認為，更多的推理步驟總是能帶來更好的結果，但Prophet的發現表明，在很多情況下，模型在早期就已經"知道"了正確答案，后續的推理更多是在做無用功甚至可能引入錯誤。這個發現可能會促使研究者重新思考模型訓練和推理的優化策略。
研究團隊特別提到了與一項并發工作的有趣對比。另一個研究團隊也發現了早期答案收斂的現象，但他們選擇了通過平均多個推理步驟的預測結果來提高準確性。而Prophet選擇了相反的路徑：利用這種收斂特性來減少計算消耗。這種對比展現了同一科學發現可以帶來完全不同的技術路線，也說明了這個領域還有很大的探索空間。
Prophet方法也為擴散語言模型的理論研究提供了新的思考角度。傳統的擴散過程被認為是一個逐步去噪的過程，但Prophet的成功表明，在語言任務中，這個過程可能具有不同于圖像生成的特殊性質。語言的離散性和結構化特征可能使得擴散過程在達到某個臨界點后就具有了強烈的穩定性。
說到底，這項研究最令人興奮的地方在于它改變了我們對AI推理過程的理解。過去我們總以為AI需要"深思熟慮"才能給出好答案，但Prophet告訴我們，有時候AI的"第一直覺"就是對的，過度思考反而可能幫倒忙。這不僅為技術優化指明了方向，也為我們理解智能系統的工作原理提供了新的啟發。
這個發現的影響可能遠不止于技術層面。在教育領域，它可能啟發我們重新思考學習和解題的最優策略。在決策科學中，它可能為理解人類的直覺判斷提供新的視角。而在更廣闊的人工智能發展道路上，Prophet方法代表的"適時停止"哲學，可能會成為構建更高效、更智能系統的重要原則。歸根結底，Prophet不僅僅是讓AI跑得更快的工具，更是讓我們更深刻理解智能本質的一扇窗戶。
Q&A
Q1：Prophet方法是什么？它是如何讓擴散語言模型變快的？
A：Prophet是一種讓AI文本生成提速的智能方法。它的核心思想是監控AI在推理過程中的信心程度，一旦發現AI對答案足夠確信，就讓它提前"交卷"而不用完成全部推理步驟。這種方法可以將推理速度提升多達3.4倍，同時保持答案質量幾乎不變。
Q2：為什么擴散語言模型會出現早期收斂現象？
A：研究發現擴散語言模型具有"答案吸引力"特性。一旦模型在推理過程中捕捉到正確答案模式，這個答案就會表現出強烈的穩定性。就像學生做題時心里其實早就知道答案，但還在反復檢查計算過程一樣。在GSM8K和MMLU測試中，分別有97%和99%的問題在推理進行到一半時就已經得出正確答案。
Q3：Prophet方法可以應用到哪些場景？有什么限制嗎？
A：Prophet適用于所有遵循標準遮罩-預測-重遮罩范式的擴散語言模型，無需重新訓練即可使用。特別適合對話系統、代碼生成、數學問題求解等需要快速響應的應用。目前主要在LLaDA-8B和Dream-7B等模型上驗證過效果，可以與現有的KV緩存等加速技術疊加使用。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

AI浪潮下，10年后的頂尖高校拼什么？丨GAIR 2025

極數迭代CEO佟顯喬：具身智能的數據工程解決方案思考丨GAIR 2025

全站最新

TikTok簽署協議，將美國業務出售給甲骨文等主導的合資企業

谷歌安卓16調整Emoji表情設計，風格向iOS靠攏

周受資內部信曝TikTok美國方案；騰訊辟謠元寶由真人運營丨邦早報

TikTok美國業務新進展：字節保留電商、廣告等，引入三方組新合資公司負責數據安全

熱門推薦

授權亂象頻出，誰的同仁堂？

當“野性消費”退潮：鴻星爾克留下了什么？

英氏控股的優勢只有品牌和廣告嗎？

為什么蘋果、華為，都干不過小天才？

豪擲10億美金投資OpenAI！迪士尼終于對AI妥協了？（深度觀察）

從“寧王”到“易中天”，時代的“魚群”在遷徙

阿維塔赴港IPO：一場針對“依附者”的價值審視

“鐵飯碗”銀行也開始末位淘汰了？普通人有機會，但沒退路

君樂寶，想要逃出伊利、蒙牛的“五指山”

5 個月估值翻 3 倍！瑞典 AI 巨頭 Lovable 獲 3.3 億美元 B 輪融資

十億流量瞬間清零!YouTube 永久封禁兩大 AI 虛假預告片“鼻祖”頻道

OpenAI 更新 ChatGPT 以強化未成年人保護措施

告別信息淹沒！ChatGPT 推出聊天置頂功能，讓重要對話觸手可及

Meta 官宣2026上半年發布 Mango 系列下一代模型

ChatGPT 移動應用全球用戶支出突破 30 億美元