![]()
這項由蒙特利爾大學Mila實驗室的Milad Aghajohari、Kamran Chitsaz、Amirhossein Kazemnejad等研究人員與微軟研究院、麥吉爾大學、ServiceNow研究部門合作完成的研究,發表于2025年的arXiv預印本平臺(論文編號:arXiv:2510.06557v1)。有興趣深入了解的讀者可以通過該編號查詢完整論文,也可以訪問研究團隊公開的代碼倉庫和模型權重。
你有沒有想過,當我們思考一個復雜問題時,大腦是怎么工作的?比如解一道數學題,我們不會把所有信息都塞在腦海里,而是會分步驟推理,把重要的中間結果記下來,然后基于這些關鍵信息繼續思考。然而,目前最先進的AI模型在"思考"時卻不是這樣的——它們就像一個強迫癥患者,必須把之前想過的每一個字都牢牢記住,這讓它們在處理復雜問題時變得極其耗費計算資源。
研究團隊發現了一個令人震驚的現象:讓一個小巧的1.5B參數模型采用"分段思考"的方式,竟然能在數學競賽題目上擊敗那些使用傳統"長篇大論思考"方式的大型模型,而且計算成本只有后者的四分之一。這就好比一個聰明的學生用簡潔的草稿紙就能解出難題,而另一個學生卻需要寫滿厚厚的筆記本才能得到同樣的答案。
更令人驚喜的是,這種"分段思考"的方法還具有極強的擴展性。當給模型更多時間思考時,傳統方法很快就會遇到瓶頸,就像一個人的記憶力有限,信息太多反而會混亂。但采用分段思考的模型卻能持續改善表現,甚至能處理長達十萬個詞匯的超長推理過程,這在以前幾乎是不可想象的。
一、重新定義AI的"思考環境":從無限記憶到有限狀態
傳統的AI訓練就像要求一個學生在考試時必須把教科書的每一頁都背下來。當前最主流的"長鏈思維"訓練方法讓AI模型在解決問題時必須保持對之前所有推理步驟的完整記憶。這種方法的問題顯而易見:隨著思考過程的延長,模型需要處理的信息量呈指數級增長,計算成本變得極其昂貴。
研究團隊提出的"馬爾可夫思考者"概念徹底顛覆了這種做法。馬爾可夫這個名字來自數學中的馬爾可夫過程,簡單來說就是"當下決定未來,過去不重要"。這種思考方式更接近人類的實際推理過程:我們在解決復雜問題時,通常會把重要的中間結果提煉出來,然后基于這些關鍵信息繼續推理,而不需要回憶每一個細微的思考細節。
具體來說,研究團隊設計了一個名為"Delethink"的訓練環境。在這個環境中,AI模型被迫學會將長篇推理過程分解成多個固定長度的"思考塊"。每個思考塊就像一張便簽紙,模型在上面進行一段推理,然后必須在便簽紙的末尾寫下最重要的信息摘要。當這張便簽紙用完時,系統會把之前的內容全部清空,只保留最后的摘要信息,然后開始新的一輪思考。
這種設計的巧妙之處在于,它強迫模型學會抓住問題的核心。就像一個優秀的偵探,不會記住案件中的每一個細節,但會牢牢抓住最關鍵的線索。通過反復練習,模型逐漸學會了如何在有限的空間內提煉出最有價值的信息,如何讓推理過程既簡潔又有效。
二、小模型的逆襲:1.5B參數如何擊敗巨無霸
為了驗證這種新方法的效果,研究團隊選擇了R1-Distill 1.5B模型作為實驗對象。這個模型的參數量只有15億,在當今動輒千億參數的大模型面前顯得相當"迷你"。然而,經過Delethink方法訓練后,這個小模型展現出了令人刮目相看的能力。
在數學競賽的較量中,結果讓人大跌眼鏡。在美國數學邀請賽(AIME)2024和2025年的題目上,使用Delethink訓練的1.5B模型不僅達到了傳統方法訓練的同等規模模型的性能,在某些測試中甚至超越了后者。更重要的是,這種性能提升的代價極其低廉——訓練成本只有傳統方法的四分之一左右。
這種現象的背后有著深刻的原理。傳統的長鏈思維訓練就像讓學生在考試時必須寫滿整本答題冊,哪怕有些內容是重復或無關的。而Delethink方法則教會模型如何寫出精煉而有效的解答,每一步都直指問題核心。這不僅節省了計算資源,還提高了推理的質量。
更令人興奮的是擴展性測試的結果。當研究團隊將思考預算從24K詞匯擴展到96K詞匯時,傳統方法訓練的模型很快就遇到了性能瓶頸,就像一個人的工作記憶被過多信息壓垮。但Delethink訓練的模型卻能持續改善,在某些困難題目上的準確率從35%提升到49%,平均解答長度達到36K詞匯。這意味著模型真正學會了如何進行長期、深度的推理。
三、計算成本的革命:從平方增長到線性增長
要理解Delethink方法的革命性意義,我們需要先了解傳統AI訓練的計算瓶頸。當前的AI模型基于注意力機制工作,這種機制要求模型在生成每個新詞時都要"回顧"之前的所有內容。隨著文本長度的增加,計算量呈平方級增長。這就像一個圖書管理員,每次添加新書時都要重新整理整個圖書館,工作量會隨著藏書數量的平方倍增長。
研究團隊通過理論分析和實際測量證明了Delethink方法的計算優勢。在處理相同長度的推理任務時,傳統方法需要的計算量隨思考長度的平方增長,而Delethink方法只需要線性增長的計算量。具體數字更是驚人:當平均思考長度達到94K詞匯時,傳統方法需要27個H100-月的計算資源,而Delethink只需要7個H100-月。
這種計算效率的提升不僅體現在訓練階段,在實際使用時也同樣明顯。研究團隊測量了不同方法在GPU上的實際運行速度,發現Delethink方法能夠維持恒定的處理速度,而傳統方法的速度會隨著思考長度的增加而急劇下降。這就像高速公路和普通道路的區別:無論行駛多遠,高速公路都能保持穩定的速度,而普通道路卻會因為擁堵而越來越慢。
內存使用方面的改進同樣顯著。傳統方法需要存儲整個推理過程的所有中間狀態,內存需求隨思考長度線性增長。而Delethink方法由于每次都會清空歷史信息,內存使用量始終保持在固定水平。這意味著即使是配置相對較低的硬件也能運行需要長時間思考的復雜任務。
四、意外發現:現成模型竟然天生具備分段思考能力
研究過程中最令人意外的發現是,許多現有的AI模型竟然天生就具備進行分段思考的能力,只是之前從未有人發現或利用過這種能力。研究團隊測試了從1.5B到120B參數不等的多個模型,發現它們在沒有經過任何專門訓練的情況下,就能在Delethink環境中產生合理的推理軌跡。
這種現象特別在R1-Distill系列模型中表現突出。即使完全沒有經過Delethink訓練,這些模型在分段思考模式下就能恢復其傳統長鏈思維模式下的大部分性能。這就像發現一個會說中文的人天生就具備了學習其他語言的能力,只需要稍加引導就能掌握新的表達方式。
更大規模的模型,如GPT-OSS 120B和Qwen3 30B,同樣展現出了這種令人驚喜的適應性。在博士級別的科學問題、編程任務、數學競賽以及填字游戲等不同類型的挑戰中,這些模型都能在分段思考模式下保持良好的表現。這表明分段思考可能是一種更加通用和自然的推理方式。
研究團隊還進行了"壓力測試",故意選擇那些似乎需要完整歷史信息的任務,比如填字游戲(需要記住已經填入的單詞)。令人驚訝的是,即使在這些看似不利于分段思考的任務中,模型仍然能找到創造性的解決方案,通過巧妙的狀態表示來維持必要的信息。
五、實戰驗證:在數學競賽中的卓越表現
為了驗證Delethink方法的實際效果,研究團隊選擇了數學競賽作為主要測試場景。數學競賽題目具有客觀的對錯標準,需要復雜的多步推理,是測試AI推理能力的理想場景。測試涵蓋了美國數學邀請賽(AIME)2024和2025年的題目,以及哈佛-麻省理工數學競賽(HMMT)2025年的題目。
在這些高難度的數學挑戰中,Delethink訓練的模型展現出了令人印象深刻的能力。以AIME 2025為例,在24K詞匯的思考預算下,Delethink模型的準確率達到30%,不僅匹配了傳統方法訓練的模型,在某些情況下還有所超越。考慮到這些題目的難度(通常只有數學競賽的優秀選手才能解決),這樣的表現已經相當出色。
更令人興奮的是測試時擴展能力的驗證。當允許模型使用更長的思考時間時,傳統方法訓練的模型很快就達到了性能上限,無法進一步改善。但Delethink模型卻能持續受益于額外的思考時間,準確率隨著思考預算的增加而穩步提升。在128K詞匯的思考預算下,某些困難題目的解決率相比24K預算時提升了超過10個百分點。
研究團隊還分析了模型的具體解題過程,發現Delethink訓練的模型確實學會了更高效的推理策略。它們能夠在每個思考片段的結尾總結出關鍵信息,然后在下一個片段中基于這些信息繼續推理。這種做法與優秀數學學生的解題策略高度相似:先分析問題結構,然后逐步深入,最終得出答案。
六、技術深度解析:從環境設計到訓練算法
Delethink方法的核心創新在于重新設計了強化學習的環境。在傳統的AI訓練中,環境通常被認為是固定不變的,就像棋盤游戲的規則一樣。但研究團隊意識到,環境本身也是可以優化的重要因素。
具體的環境設計相當巧妙。每個思考塊被限制在固定的長度(比如8K詞匯),模型在這個空間內可以自由推理。當接近塊的結尾時,模型必須決定如何總結當前的推理狀態。系統會自動提取塊末尾的一小段文字(比如最后4K詞匯)作為"狀態載體",然后清空所有其他信息,開始新的思考塊。
這種設計的關鍵在于狀態載體的大小選擇。太小的載體可能無法傳遞足夠的信息,導致推理鏈斷裂。太大的載體則失去了節省計算資源的意義。研究團隊通過大量實驗發現,將載體大小設定為思考塊大小的一半(比如8K塊配4K載體)能夠在效果和效率之間達到最佳平衡。
訓練算法方面,研究團隊巧妙地修改了傳統的策略梯度方法。由于推理過程被分解為多個片段,獎勵信號需要在所有片段之間合理分配。他們采用了類似GRPO的方法,將總獎勵按照各片段的長度進行歸一化分配,確保每個片段都能得到恰當的學習信號。
訓練穩定性是另一個重要考慮因素。研究團隊發現,適當的超參數調整對于保持訓練過程的穩定性至關重要。他們特別關注了熵值的變化,這是衡量模型探索能力的重要指標。通過精心調節PPO剪切比例等關鍵參數,他們成功避免了訓練過程中常見的"策略坍塌"問題。
七、擴展實驗:推向極限的96K詞匯挑戰
為了測試Delethink方法的極限能力,研究團隊進行了一項雄心勃勃的擴展實驗:將思考預算從24K詞匯大幅提升到96K詞匯。這相當于讓AI模型寫出一本中篇小說長度的推理過程,在技術上是一個巨大的挑戰。
96K詞匯的訓練采用了更具挑戰性的OpenMath數據集,這個數據集包含了比之前測試更加困難的數學競賽問題。研究團隊將思考塊的迭代上限從5輪增加到23輪,同時保持每個塊8K詞匯的大小不變。這種設計確保了即使在處理超長推理時,每個局部的計算復雜度仍然保持可控。
令人驚喜的是,即使只經過150步的額外訓練,96K版本的模型就在AIME2024上達到了49%的準確率,遠超基礎模型的40%。更重要的是,模型的平均解答長度達到了36K詞匯(AIME24)和42K詞匯(AIME25),表明它確實學會了有效利用擴展的思考空間。
這個實驗還驗證了Delethink方法的另一個重要特性:可擴展性。與傳統方法在長序列上的訓練困難相比,Delethink能夠相對輕松地擴展到更長的推理長度。研究團隊估計,如果使用傳統方法訓練96K長度的模型,計算成本將是Delethink的數倍,而且可能面臨嚴重的穩定性問題。
測試階段的表現更加令人印象深刻。當給予模型128K甚至256K的思考預算時,某些原本無法解決的難題開始出現正確答案。這種"頓悟"現象表明,給予充分的思考時間確實能讓AI模型發現更深層的問題結構和解決方案。
八、跨領域驗證:從數學到編程到邏輯推理
雖然數學競賽是主要的測試場景,但研究團隊也在其他領域驗證了Delethink方法的通用性。在編程挑戰平臺LiveCodeBench上,Delethink訓練的模型同樣表現出色。編程任務需要模型理解復雜的算法邏輯,設計數據結構,并處理各種邊界情況,是對AI推理能力的全面考驗。
特別有趣的是GPQA-Diamond測試的結果。這是一個包含博士級別科學問題的數據集,涵蓋物理、化學、生物等多個學科。雖然Delethink模型在這個數據集上的提升相對較小,但仍然能夠匹配或略微超越傳統方法。這表明分段思考的優勢可能在需要長期推理的任務中更加明顯。
研究團隊還進行了一個特殊的"壓力測試":填字游戲。這種任務看似對分段思考不利,因為需要記住已經填入的單詞來避免沖突。然而,結果顯示模型能夠通過巧妙的狀態編碼來處理這種挑戰。在7×7的填字游戲中,Delethink的表現與傳統方法相當,在14×14的更復雜版本中雖有下降,但仍能產生有意義的解答。
這些跨領域的測試結果表明,分段思考可能是一種更加通用的推理范式。它不僅適用于數學這樣需要嚴格邏輯推理的領域,也能處理編程、科學問題等需要創造性思維的任務。這種通用性為Delethink方法的廣泛應用奠定了基礎。
九、深入機理:為什么分段思考如此有效
Delethink方法的成功并非偶然,背后有著深刻的認知科學和計算理論基礎。人類在處理復雜問題時,大腦確實采用了類似的分段處理策略。認知心理學研究表明,人類的工作記憶容量有限,但通過將信息組織成有意義的"組塊",我們能夠處理遠超工作記憶容量的復雜任務。
從計算角度來看,分段思考實現了一種優雅的時空權衡。傳統方法用空間(存儲所有歷史信息)換取時間(避免重復計算),而Delethink方法則用少量的重復計算換取大幅的空間節省。由于現代AI系統的瓶頸往往在于內存而非計算,這種權衡通常是有利的。
研究團隊還發現了一個有趣的現象:即使是沒有經過專門訓練的模型,在分段思考環境中也能表現出合理的行為。這暗示著當前的大型語言模型可能已經在訓練數據中隱式學習了某種形式的分段推理能力。畢竟,人類產生的文本本身就具有分段結構,模型可能在無意中學會了這種推理模式。
另一個可能的解釋是注意力機制的局限性。雖然理論上注意力可以關注任意位置的信息,但實際上模型往往更關注近期的內容。Delethink方法通過強制重置,反而可能幫助模型更好地關注當前最相關的信息,避免被過多的歷史細節分散注意力。
十、技術挑戰與解決方案
盡管Delethink方法展現出了巨大的潛力,但在實際實現過程中也面臨著不少技術挑戰。最主要的挑戰是如何設計有效的狀態傳遞機制。狀態載體必須足夠緊湊以節省計算資源,同時又要包含足夠的信息以維持推理的連貫性。
研究團隊通過大量的消融實驗來解決這個問題。他們測試了不同的載體大小(從1K到7K詞匯不等),發現載體大小與思考塊大小的比例對性能有重要影響。過小的載體導致信息丟失,過大的載體則失去了效率優勢。最終,他們確定了C/2的比例(即載體大小為思考塊大小的一半)作為最佳配置。
另一個挑戰是訓練的穩定性。分段推理的訓練比傳統方法更復雜,因為獎勵信號需要在多個片段之間傳播。研究團隊采用了幾種策略來確保訓練穩定:首先是小心調節超參數,特別是PPO的剪切比例。其次是使用截斷重要性采樣來減少訓練和推理時的分布差異。最后是監控訓練過程中的熵值變化,及時發現并糾正潛在的不穩定。
技術實現方面,研究團隊還需要解決KV緩存管理的問題。在傳統方法中,KV緩存可以在整個序列生成過程中復用。但在Delethink中,每個思考塊的邊界都需要清空緩存并重新編碼載體信息。雖然這會帶來一些額外的計算開銷,但由于每個塊的長度有限,這種開銷是可以接受的。
十一、未來展望:百萬詞匯推理的可能性
Delethink方法的成功為AI推理能力的進一步發展開辟了新的道路。最令人興奮的可能性是擴展到百萬詞匯級別的超長推理。傳統方法在這種規模下將面臨難以克服的計算和內存挑戰,但Delethink的線性擴展特性使這種可能性變得現實可行。
這種超長推理能力可能會帶來質的突破。許多復雜的科學問題、工程設計、創意寫作等任務都需要長期的深度思考。如果AI模型能夠進行百萬詞匯級別的推理,它們可能能夠處理當前看似不可能的復雜挑戰,比如設計新的藥物分子、解決復雜的數學猜想、或者創作長篇小說。
研究團隊還指出,Delethink方法與新興的線性注意力架構具有天然的兼容性。Mamba、線性注意力等新架構本身就具有線性的計算復雜度,如果與Delethink結合,可能實現更大的效率提升。這種組合將推理的"內在復雜度"(架構級別)和"外在復雜度"(環境級別)都降到了線性,有望實現真正高效的大規模推理。
另一個有趣的方向是個性化的思考模式。不同的任務可能需要不同的分段策略,比如數學問題可能適合較短的塊以保持邏輯嚴密性,而創意寫作可能適合較長的塊以保持思路的連貫性。未來的系統可能會根據任務類型自動調整分段參數,實現真正的自適應推理。
十二、對AI發展的深遠影響
Delethink方法的意義遠超其技術細節,它代表了AI發展思路的一次重要轉變。過去,人們往往認為更大的模型、更多的數據、更強的計算力是提升AI能力的唯一途徑。但這項研究表明,巧妙的方法設計有時比蠻力擴展更有效。
這種思路轉變可能會影響整個AI領域的發展方向。研究者們可能會更多地關注如何優化學習環境、如何設計更好的訓練范式,而不僅僅是追求更大的模型規模。這對于資源有限的研究機構和公司來說是個好消息,因為它證明了創新思維的價值超越了純粹的計算資源優勢。
從產業應用的角度來看,Delethink方法降低了部署高性能推理系統的門檻。企業不再需要配置昂貴的大型GPU集群來運行需要復雜推理的AI應用,相對較小的硬件配置就能實現令人滿意的性能。這可能會加速AI技術在各行各業的普及應用。
更重要的是,這項研究為人工智能向人類智能的進一步靠攏提供了新的思路。人類的思維本身就是分段、分層的,我們在解決復雜問題時會自然地將其分解為更小的子問題。Delethink方法在某種程度上模擬了這種認知過程,這可能為開發更加類人的AI系統提供了有價值的啟示。
總的來說,Delethink不僅是一個技術突破,更是一次思維方式的革新。它告訴我們,在追求AI能力提升的道路上,有時候改變游戲規則比在現有規則內競爭更有效。這種創新精神和方法論思維,可能是AI領域未來發展的重要驅動力。通過這種"分段思考"的方式,我們或許能夠開發出既高效又強大的AI系統,真正實現人工智能的普惠化應用。
研究團隊的工作證明了一個重要觀點:智能不僅在于能夠獲取和處理大量信息,更在于能夠提煉出關鍵信息并有效地利用它們。這種洞察可能會指導未來AI系統的設計,幫助我們構建更加智能、高效的人工智能助手,讓它們能夠真正理解和解決人類面臨的復雜問題。
Q&A
Q1:Delethink方法是什么?它如何讓AI模型思考得更高效?
A:Delethink是一種全新的AI訓練方法,它模仿人類分段思考的方式。傳統AI模型在思考時必須記住所有之前的內容,就像背誦整本教科書。而Delethink讓AI將長篇推理分解成多個固定長度的"思考塊",每個塊結束時只保留最重要的信息摘要,然后清空其他內容開始新的思考。這樣既節省了計算資源,又提高了推理效率。
Q2:為什么小參數的模型用Delethink訓練后能擊敗大模型?
A:這主要是因為Delethink教會了模型如何高效思考。就像一個聰明的學生用簡潔的草稿紙就能解出難題,而另一個學生卻需要寫滿厚厚的筆記本。大模型雖然參數多,但如果思考方式低效,反而會被過多無關信息拖累。Delethink訓練的小模型學會了抓住問題核心,每一步推理都直指關鍵,因此能以更少的資源達到更好的效果。
Q3:Delethink方法在實際應用中有什么優勢?成本能降低多少?
A:Delethink的最大優勢是大幅降低計算成本和內存需求。研究顯示,處理相同復雜度的問題時,Delethink的訓練成本只有傳統方法的四分之一左右。具體來說,當推理長度達到94K詞匯時,傳統方法需要27個H100-月的計算資源,而Delethink只需要7個H100-月。更重要的是,這種方法的內存使用量始終保持恒定,意味著即使配置較低的硬件也能運行復雜的AI推理任務。





京公網安備 11011402013531號