IT之家 11 月 13 日消息,摩爾線程提出的新一代大語言模型對齊框架 —— URPO 統一獎勵與策略優化,相關研究論文近日被人工智能領域的國際頂級學術會議 AAAI 2026 收錄,為簡化大模型訓練流程、突破模型性能上限提供了全新的技術路徑。
![]()
▲ 圖源:摩爾線程官方公眾號 | URPO 統一獎勵與策略優化框架
據介紹,在題為《URPO:A Unified Reward & Policy Optimization framework for Large Language Models》的論文中,摩爾線程 AI 研究團隊提出了 URPO 統一獎勵與策略優化框架,將“指令遵循”(選手)和“獎勵評判”(裁判)兩大角色融合于單一模型中,并在統一訓練階段實現同步優化。URPO 從以下三方面攻克技術挑戰:
數據格式統一:將異構的偏好數據、可驗證推理數據和開放式指令數據,統一重構為適用于 GRPO 訓練的信號格式。 自我獎勵循環:針對開放式指令,模型生成多個候選回答后,自主調用其“裁判”角色進行評分,并將結果作為 GRPO 訓練的獎勵信號,形成一個高效的自我改進循環。 協同進化機制:通過在同一批次中混合處理三類數據,模型的生成能力與評判能力得以協同進化。生成能力提升帶動評判更精準,而精準評判進一步引導生成質量躍升,從而突破靜態獎勵模型的性能瓶頸。
實驗結果顯示,基于 Qwen2.5-7B 模型,URPO 框架超越依賴獨立獎勵模型的傳統基線:在 Alpacaeval 指令跟隨榜單上,得分從 42.24 提升至 44.84;在綜合推理能力測試中,平均分從 32.66 提升至 35.66。作為訓練的“副產品”,該模型內部自然涌現出的評判能力在 RewardBench 獎勵模型評測中取得 85.15 的高分,表現優于其替代的專用獎勵模型(83.55 分)。
IT之家從摩爾線程官方獲悉,目前,URPO 已在摩爾線程自研計算卡上實現穩定高效運行。同時,摩爾線程已完成 VERL 等主流強化學習框架的深度適配





京公網安備 11011402013531號