![]()
8B 模型在數學競賽任務上超越 GPT-5!
階躍星辰正式推出并行協同推理(PaCoRe, Parallel Coordinated Reasoning),這是一個全新的訓練和推理框架,讓大模型的能力不再受限于線性思維鏈的上下文窗口大小(Context Window)和處理速度,而是基于大規模并行協同的方式,讓模型進行前所未有的廣度和深度思考。
強大性能的 Gemini Deep Think 模式僅隱約透露其采用“并行思考”擴展測試時計算的思路;而 PaCoRe 以卓越的表現驗證了大規模擴展測試時計算的有效性,并完整開源模型,訓練數據,推理管線從而加速該領域的研究與創新。
基于該框架,小模型亦能解鎖百萬級 Token 測試時計算(Test-Time Compute)。
經過大規模、基于結果的強化學習(Outcome-based RL)訓練,階躍星辰研究團隊的 PaCoRe-8B 模型掌握了綜合發散性推理軌跡的能力。在 HMMT 2025 數學基準測試中,它取得了 94.5 的高分,一舉超越了 GPT-5 的 93.2 分。這一成績的取得,得益于模型在解決單個問題時,能夠有效利用高達兩百萬 Token 的計算量。
長程推理是人類智力皇冠上的明珠。正如人類需要數月甚至數年的專注思考來攻克最棘手的難題,通用人工智能(AGI)也必須在推理階段大幅擴展其計算規模,PaCoRe的研究進展標志著在這個方向上邁出了堅實的一步。
![]()
論文鏈接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdfGitHub:https://github.com/stepfun-ai/PaCoReHugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B
PaCoRe 框架
標準的思維鏈(Chain-of-Thought)推理與上下文容量是強耦合的:一旦窗口填滿,推理就必須停止。PaCoRe 通過將推理的主要驅動力從 “串行深度” 轉移到 “并行協同的廣度”,成功解耦了這種關系。
![]()
圖 1:并行協同推理(PaCoRe)的性能表現。
左圖: 在 HMMT 2025 上,PaCoRe-8B 展示了驚人的測試時擴展(Test-Time Scaling)能力。通過增加并行軌跡(Parallel Trajectories)和協同輪次(Coordinated Rounds),性能穩步提升,最終超越了 GPT-5。右圖: 在 LiveCodeBench 上,普通的 RLVR-8B 模型無法利用增加的測試時計算量,而 PaCoRe 有效地解鎖了這種綜合能力,隨著計算量的增加帶來了顯著的性能提升。
推理機制 (Inference)
![]()
圖 2:PaCoRe 的推理流程。
![]()
PaCoRe 的核心是一個按輪次運行的迭代消息傳遞架構。其工作流程如下:
![]()
![]()
3.迭代協同(Iterative Coordination): 這些精簡消息成為下一輪的上下文,使模型能夠在多次迭代中修正理解、發現共識并糾正錯誤。為了確保收斂,最后一輪僅使用單一軌跡,生成最終的精簡消息作為 PaCoRe 推理流水線的輸出。
這種循環機制使得系統能夠將 “有效測試時計算量(Effective TTC)”—— 即所有軌跡的 Token 總和 —— 擴展到遠遠超出模型物理上下文窗口限制的程度。
訓練方法 (Training)
實現這一框架的主要挑戰在于將模型從簡單聚合孤立推理轉移為主動合作。未經訓練的推理模型常常在具有簡單解結構的問題上使用諸如多數表決這樣的簡單規則,而在更加多樣解的問題上,模型常常展現出 孤立推理 的現象:盡管在上下文中接收到了來自并行分支的豐富見解,但模型往往會忽略它們,試圖從頭開始重新解決問題。
為了克服這一問題,研究團隊將綜合階段視為一個情景式強化學習環境。我們采用大規模、基于結果的 RL 來教會模型推理綜合(Reasoning Synthesis) 能力:即審查并行分支、調和相互沖突的證據并提煉出統一解決方案的能力。
通過過濾訓練數據,排除那些僅靠啟發式規則就能解決的簡單問題,我們迫使模型發展出真正的綜合能力,將其從一個孤立的求解者轉變為一個高效的協同者。
![]()
圖 3:PaCoRe 訓練動力學。
![]()
實驗結果
研究團隊將 PaCoRe-8B(初始化自基于 Qwen3-8B-base 的內部后訓練模型)與當前最具代表性的前沿推理模型進行了對比評估。
前沿級的性能表現
結果表明,并行協同機制使 8B 模型能夠通過大規模擴展 TTC,獲得遠超標準解碼限制的顯著收益,在一些最復雜的數學和代碼基準測試中超越了最先進的系統。
![]()
“綜合” 能力的涌現
![]()
圖 4:訓練過程中模型輸出中 “綜合” 相關語言特征的演變。
研究團隊繪制了 PaCoRe 訓練期間,數學和代碼任務生成解決方案中 “交叉檢查” 類詞匯(包括 'reference', ' 參考 ', 'Ref
', 'ref
')的頻率。訓練在這兩個領域都激發并放大了這種綜合能力。值得注意的是,模型最初在代碼任務上很少進行交叉檢查,這佐證了圖 1 中代碼任務在 PaCoRe 訓練前測試時擴展性差的現象。
研究團隊通過追蹤訓練過程中 “交叉檢查”(cross-checking)語言標記的普遍性來探究 PaCoRe 的底層機制。如上圖所示,基于結果的強化學習推動了這種行為在兩個領域的穩步上升。模型顯式地學會了引用同伴的消息(Referencing peer messages),這種行為在未經 PaCoRe 訓練的模型中幾乎不存在。這證實了 RL 根本性地改變了推理動態,使模型能夠有效地利用大規模并行計算。
訓練數據的通用有效性
除了框架本身,研究團隊還發現為 PaCoRe 構建的訓練語料庫是一種密度極高的學習資源。經驗觀察表明,將我們發布的數據集作為標準 RLVR 的主要基底,也能帶來穩健的性能提升。這表明我們的問題集 —— 經過精心篩選以要求真正的綜合能力 —— 是訓練通用強推理模型的高效催化劑。
結論與未來方向
PaCoRe 建立了一條通往大規模測試時擴展(Test-Time Scaling)的無限路徑。通過圍繞 “并行協同” 構建推理架構并針對 “綜合能力” 進行訓練,研究團隊以將測試時計算擴展到數百萬 Token,從而允許較小的開放權重模型在復雜任務上超越專有的前沿系統。
階躍星辰團隊將發布模型權重、訓練數據和推理代碼,以加速社區的研究。
展望未來,團隊將 PaCoRe 視為通向以下更大目標的基礎性一步:
1.擴展極限(Scaling the Extremes): 計劃將 PaCoRe 應用于更強大的基礎模型,擴展任務領域,并進一步擴大廣度(并行軌跡)和深度(協同輪次),以攻克目前被認為無法解決的挑戰。
2.提升 Token 智能密度(Boosting Token Intelligence Density): 雖然目前通過 “量” 來擴展,但研究團隊的目標是最大化每一個計算單元的效用。這包括通過更好的組織、合作和軌跡間的勞動分工,實現更高效的并行探索。
3.涌現多智能體智能(Emergent Multi-Agent Intelligence): 研究團隊有興趣探索綜合策略(Synthesis Policy)與消息傳遞機制的聯合訓練,構建一個極簡卻豐富的協作多智能體學習環境,這將是研究涌現式溝通、自組織和群體智能的寶貴試驗場。
4.銜接預訓練與后訓練的 “銜尾蛇”(Ouroboros): 研究團隊打算利用 PaCoRe 流程開發先進的合成數據生成技術,以反哺并改進當前的預訓練和后訓練過程,形成良性循環。





京公網安備 11011402013531號