![]()
盡管大語言模型(LLM)在內容(文本、圖像、視頻、音頻等)生成、對話交互等任務中“大放異彩”,但在實現“真正推理”方面依然存在局限性。
思維鏈(CoT)并非一個理想的長期方案:它依賴于脆弱的人工預定義分解,任何一個步驟出錯或順序有誤,都可能導致整個推理過程完全偏離正確軌道;而且 CoT 推理通常需要大量的訓練數據,并為完成復雜推理任務而生成大量 token,目前缺少一種更高效方法來最大限度地減少數據需求。
由清華 00 后校友王冠(Guan Wang)領導的 Sapient Intelligence 團隊認為,分層、遞歸、多時間尺度——這些人腦特有的運作機制,或許可以推動推理 LLM 實現重要突破。
為此,他們發布、開源了一個名為“分層推理模型”(Hierarchical Reasoning Model,HRM)的類腦 AI 模型,僅使用1000個訓練樣本、無需預訓練、無需 CoT 數據,僅2700萬參數,卻在 ARC-AGI、復雜數獨謎題和大型迷宮中最優路徑搜索等超高難度挑戰任務中,擊敗了 o3-mini-high、Claude 3.7 8k、DeepSeek R1等前沿模型。
![]()
圖|HRM 包括四個可學習組件:輸入網絡、低級遞歸模塊、高級遞歸模塊和輸出網絡。
![]()
值得一提的是,上述基于 CoT 的 SOTA 模型在數獨、迷宮任務中的完成率為0,而 HRM 分別取得了55%和74.5%的準確率。
研究團隊表示,這些結果凸顯了 HRM 作為實現通用計算和通用推理系統方面的潛力。
論文鏈接:https://arxiv.org/abs/2506.21734
GitHub 地址:https://github.com/sapientinc/HRM
模仿人腦,解決AI推理難題
深度學習,顧名思義,源于通過堆疊更多層(layer)來增強表征能力和提高性能的思路。然而,盡管 LLM 取得了顯著的進展,但其核心架構仍然較“淺”,從根本上限制了其關鍵推理能力。
標準的 Transformer 具有固定的深度,這使得其計算能力受到復雜度類別的限制,無法解決那些需要多項式時間復雜度的問題。因此,LLM 并非圖靈完備的,至少在純粹的端到端模式下,它們無法執行復雜的算法推理任務,比如涉及深度規劃或符號操作的任務。
![]()
圖|復雜推理中深度的必要性。左圖:Sudoku-Extreme Full 任務需要大量的樹狀搜索和回溯,增加 Transformer 的寬度不會帶來性能提升,而增加深度則至關重要。右圖:標準架構會飽和,無法從深度的增加中獲益。
為了解決上述問題,研究團隊探索了“潛在推理”,使模型能夠在潛在空間中進行推理。然而,即使采用潛在空間推理,這一方法的效果仍然受到模型有效計算深度的限制。于是,他們轉向大腦的分層、多時間尺度生物架構,通過 HRM 有效提升了模型的計算深度。
具體而言,他們參考了大腦神經計算的三個基本原則:分層處理,大腦通過皮層區域的層次結構來處理信息;時空分離,不同層次結構在不同內在時間尺度下運行,這一現象反映在神經節律中;遞歸連接,大腦具有廣泛的循環連接。
通過“層次收斂”的機制,HRM 克服了過早收斂的問題。具體來說,在每個周期中,L 模塊(一個 RNN)都會穩定地收斂到一個局部平衡點,這種平衡取決于在該周期中提供的高級狀態 zH。在完成 T 個步驟后,H 模塊會吸收子計算的結果(最終狀態 zL),并執行自己的更新。zH 的更新為 L 模塊建立一個全新的環境,實質上是“重啟”它的計算路徑,并啟動一個新的收斂階段,以達到不同的局部均衡。
![]()
圖|前向殘差與 PCA 軌跡的比較。HRM 顯示了分層收斂:H 模塊穩步收斂,而 L 模塊在被 H 重置前反復在周期內收斂,導致殘差尖峰。遞歸神經網絡表現出快速收斂,殘差迅速趨近于零。相比之下,深度神經網絡的梯度消失,殘差主要出現在初始層(輸入層)和末尾層。
通過這樣的設計,HRM 能夠執行一系列不同的、穩定的嵌套計算。與此同時,HRM 依然能夠保持穩定地逐步收斂,這意味著它在任何計算深度下都可以取得更好的性能。
利用其增強的有效深度,HRM 在需要大量搜索和回溯的任務中表現出色。HRM 僅使用 1000 個輸入輸出示例,且無需預訓練或 CoT 監督,便能解決即使 SOTA LLM 也難以完成的問題。
重要的是,HRM 模型表現出能夠靈活適應不同的推理方式,并且很可能針對每個特定任務選擇最有效的策略。然而,研究團隊也表示,若要對這些策略形成更全面、深入地理解,仍需開展進一步研究。
擺脫CoT依賴,邁向通用智能
與早期的神經推理模型(如通用 Transformer)類似,HRM 在計算上具備通用性。實際上,先前的這類循環神經推理器受限于過早收斂和內存密集型時間反向傳播(BPTT)問題,其有效計算深度始終受限。
而 HRM 通過解決這兩大難題,并引入自適應計算機制,為未來能夠訓練更長推理過程、解決依賴深度優先搜索和復雜回溯的難題,提供了新的可能,也使其朝著實用化的圖靈完備性更進一步。
除了使用人類標注的 CoT 進行微調之外,強化學習(RL)是另一種常見的訓練方法。RL 主要是挖掘現有的類似 CoT 的能力,而不是從根本上發現新的推理機制。此外,RL 訓練通常不穩定、數據效率低,通常需要大量探索和精心的獎勵設計。
相比之下,HRM 采取的是基于密集梯度反饋的監督訓練而非稀疏獎勵信號。同時,HRM 在連續的潛在空間中自然地完成推理過程,避免了為每個 token 分配相同的計算資源,即使不同 token 在推理和規劃復雜性方面有所差異。
當前研究不僅在探索遞歸結構在通用計算方面的潛力,也嘗試將其作為替代手段,取代 Transformer 中的注意力機制。然而,僅替換注意力機制并不能改變 Transformer 本質上仍是固定深度模型的事實,因此仍然需要借助 CoT 作為補償機制。值得注意的是,線性注意力在處理擴展上下文時能夠減少對鍵值(key-value)緩存的依賴,使其更適合部署在資源受限的端側設備上。
HRM通過結合分層結構與多時間尺度處理機制,在不犧牲訓練穩定性和效率的前提下,實現了顯著的計算深度。盡管大腦在大多數認知過程中高度依賴分層結構,但這一理念長期以來主要停留在學術討論中,尚未有效轉化為實際應用。目前主流的人工智能方法仍傾向于使用非分層模型。
本研究的結果挑戰了這一主流范式,表明層次推理模型是一種具有可行性的替代方案,能夠取代當前主流的 CoT 推理方法,并向實現圖靈完備的通用計算基礎框架邁出了關鍵一步。
整理:小羊
如需轉載或投稿,請直接在公眾號內留言





京公網安備 11011402013531號