ACL 2025｜驅(qū)動(dòng)LLM強(qiáng)大的過程級(jí)獎(jiǎng)勵(lì)模型正遭遇「信任危機(jī)」？

IP屬地中國(guó)·北京 編輯：江紫萱機(jī)器之心Pro 時(shí)間：2025-07-27 18:16:09

近年來，大型語(yǔ)言模型（LLMs）在復(fù)雜推理任務(wù)中展現(xiàn)出驚人的能力，這在很大程度上得益于過程級(jí)獎(jiǎng)勵(lì)模型（PRMs）的賦能。PRMs 作為 LLMs 進(jìn)行多步推理和決策的關(guān)鍵「幕后功臣」，負(fù)責(zé)評(píng)估推理過程的每一步，以引導(dǎo)模型的學(xué)習(xí)方向。
然而，它們真的足夠可靠嗎？一項(xiàng)最新研究——已榮幸被 ACL 2025 Main 接收——揭示了現(xiàn)有 PRMs 在識(shí)別推理過程中細(xì)微錯(cuò)誤方面的顯著不足，其表現(xiàn)甚至可能不如隨機(jī)猜測(cè)，敲響了「信任危機(jī)」的警鐘！

標(biāo)題：PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models論文鏈接：https://arxiv.org/abs/2501.03124項(xiàng)目主頁(yè)：https://prmbench.github.io/講解視頻：https://www.bilibili.com/video/BV1kgu8z8E6D單位：復(fù)旦大學(xué)、蘇州大學(xué)、上海人工智能實(shí)驗(yàn)室、石溪大學(xué)、香港中文大學(xué)
PRM 真的過時(shí)了嗎？基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)不斷暴露假陽(yáng)性及推理過程幻覺嚴(yán)重等問題，因此我們需要針對(duì)過程的有效監(jiān)督，而如何評(píng)測(cè)過程監(jiān)督的質(zhì)量就是一個(gè)值得探索的問題，目前主流的評(píng)估方法往往過度關(guān)注最終結(jié)果的正確性，而忽視了對(duì)推理過程中細(xì)致入微的錯(cuò)誤類型的識(shí)別。
例如，一個(gè)推理步驟可能存在冗余、部分正確、甚至完全錯(cuò)誤等多種狀態(tài)，簡(jiǎn)單的「正確/錯(cuò)誤」標(biāo)簽遠(yuǎn)不足以捕捉其內(nèi)在的復(fù)雜性與細(xì)微差別。這種評(píng)估粒度的缺失，使得我們難以真正理解 PRMs 的局限性，也阻礙了其能力的進(jìn)一步提升。
為填補(bǔ)這一空白，復(fù)旦大學(xué)、蘇州大學(xué)、上海人工智能實(shí)驗(yàn)室、石溪大學(xué)、香港中文大學(xué)等機(jī)構(gòu)聯(lián)合提出了 PRMBench，一個(gè)專為評(píng)估 PRMs 精細(xì)化錯(cuò)誤檢測(cè)能力而設(shè)計(jì)、且極具挑戰(zhàn)性的基準(zhǔn)。這項(xiàng)被 ACL 2025 接收的突破性研究，不僅深入剖析了現(xiàn)有 PRMs 的「軟肋」，更首次系統(tǒng)性地揭示了它們?cè)趶?fù)雜推理評(píng)估中的深層缺陷，為未來研究指明了清晰的方向。

圖 1 PRMBench 的主要結(jié)構(gòu)，左側(cè)展示了數(shù)據(jù)整理的流程；右側(cè)展示了評(píng)估主題的示例以及測(cè)試模型的相對(duì)性能表現(xiàn)。
PRMBench：一次針對(duì) PRMs 的「全方位體檢」
PRMBench 并非簡(jiǎn)單的數(shù)據(jù)集擴(kuò)充，而是一套經(jīng)過精心構(gòu)建的「全方位體檢方案」，旨在系統(tǒng)性、多維度地考察 PRMs 的各項(xiàng)核心能力。
PRMBench 的獨(dú)特優(yōu)勢(shì)
史無(wú)前例的海量與精細(xì)化標(biāo)注：PRMBench 包含6216個(gè)精心設(shè)計(jì)的問題，并擁有高達(dá)個(gè)步驟級(jí)別的細(xì)粒度標(biāo)簽。這確保了評(píng)估的深度和廣度，能夠全面覆蓋 PRMs 可能遇到的各種復(fù)雜推理場(chǎng)景。創(chuàng)新性的多維度評(píng)估體系：PRMBench 從簡(jiǎn)潔性（Simplicity）、合理性（Soundness）敏感性（Sensitivity）三大核心維度出發(fā)，進(jìn)一步細(xì)分為九個(gè)子類別：「非冗余性」（Non-Redundancy）、「非循環(huán)邏輯」（Non-Circular Logic）、「評(píng)價(jià)合理性」（Empirical Soundness）、「步驟一致性」（Step Consistency）、「領(lǐng)域一致性」（Domain Consistency）、「置信度不變性」（Confidence Invariance）、「前提條件敏感性」（Prerequisite Sensitivity）、「欺騙抵抗」（Deception Resistance）和「一題多解一致性」（Multi-Solution Consistency）。這一全面而細(xì)致的評(píng)估框架，力求捕捉 PRMs 在各種潛在錯(cuò)誤類型上的表現(xiàn)。首次系統(tǒng)性揭示現(xiàn)有 PRMs 的深層缺陷：研究團(tuán)隊(duì)對(duì)包括開源 PRMs 和將主流 LLMs 提示為 Critic 模型的 25 個(gè)代表性模型進(jìn)行了廣泛而深入的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果令人震驚且引人深思，首次系統(tǒng)性地揭示了當(dāng)前 PRMs 在細(xì)粒度錯(cuò)誤檢測(cè)上的顯著弱點(diǎn)。
本文的主要發(fā)現(xiàn)
整體表現(xiàn)遠(yuǎn)低于預(yù)期：即使是表現(xiàn)最佳的模型 Gemini-2-Thinking，其 PRMScore 也僅為 68.8，遠(yuǎn)低于人類水平的 83.8，且勉強(qiáng)高于隨機(jī)猜測(cè)的 50.0。這明確指出，即使是最先進(jìn)的 PRMs，在多步過程評(píng)估中仍有巨大的提升空間。開源 PRMs 普遍落后：相較于將強(qiáng)大通用語(yǔ)言模型提示為 Critic Model 的表現(xiàn)，當(dāng)前的開源 PRMs 通常表現(xiàn)出更低的性能，這凸顯了其在實(shí)際應(yīng)用中的可靠性問題和潛在的訓(xùn)練偏差。「簡(jiǎn)潔性」成為最大挑戰(zhàn)：在「簡(jiǎn)潔性」維度上，即使是表現(xiàn)相對(duì)較好的 Reasoneval-34B，其 PRMScore 也驟降至 51.5。這表明，PRMs 在識(shí)別推理過程中冗余、不必要的步驟方面存在明顯的能力不足。顯著的「陽(yáng)性偏好」現(xiàn)象：實(shí)驗(yàn)發(fā)現(xiàn)，部分模型，例如 Reasoneval-7B 和 RLHFlow-DeepSeek-8B，在評(píng)估中表現(xiàn)出顯著的「陽(yáng)性偏好」。它們?cè)谡_步驟的判斷上準(zhǔn)確率很高（超過 95%），但在識(shí)別錯(cuò)誤步驟（陰性數(shù)據(jù)）時(shí)平均準(zhǔn)確率僅為 17%，這嚴(yán)重影響了其可靠性。錯(cuò)誤位置對(duì)性能的影響：研究深入分析了錯(cuò)誤步驟在推理鏈中位置對(duì) PRMs 性能的影響。結(jié)果顯示，PRMs 的性能會(huì)隨著錯(cuò)誤步驟在推理鏈中位置的逐漸后移而呈現(xiàn)出漸進(jìn)式提升。「假陽(yáng)性」影響嚴(yán)重：過程級(jí)獎(jiǎng)勵(lì)模型（PRMs）往往難以識(shí)別那些假陽(yáng)性步驟，這使得它們存在被模型「鉆空子」、易受「獎(jiǎng)勵(lì)黑客」攻擊風(fēng)險(xiǎn)。
問題源起：現(xiàn)有 PRMs 的「盲區(qū)」
在一項(xiàng)需要舉出反例的復(fù)雜證明題實(shí)踐中，我們觀察到一個(gè)令人擔(dān)憂的現(xiàn)象：即使像 o1 這樣強(qiáng)大的大語(yǔ)言模型，在推理過程中自身已意識(shí)到問題，仍可能產(chǎn)生錯(cuò)誤的推理步驟。更令人警惕的是，當(dāng)我們調(diào)用現(xiàn)有過程級(jí)獎(jiǎng)勵(lì)模型（PRMs）去檢測(cè) o1 生成的推理過程時(shí)，結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無(wú)法檢測(cè)出這種細(xì)粒度的錯(cuò)誤。這一發(fā)現(xiàn)直指核心問題：當(dāng)前的 PRMs 是否真正具備檢測(cè)推理過程中細(xì)粒度錯(cuò)誤的能力？

圖 2 當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時(shí)，o1 和 PRM 可能會(huì)產(chǎn)生的錯(cuò)誤。
然而，現(xiàn)有針對(duì) PRM 評(píng)測(cè)而設(shè)計(jì)的基準(zhǔn)，大多僅僅關(guān)注步驟判斷的宏觀對(duì)錯(cuò)，而忽視了對(duì)錯(cuò)誤類型本身的細(xì)致分類。這意味著當(dāng)前業(yè)界急需一個(gè)能夠全面評(píng)測(cè) PRMs 在細(xì)粒度錯(cuò)誤上表現(xiàn)的綜合基準(zhǔn)。而這，正是我們推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本驅(qū)動(dòng)力。我們希望通過 PRMBench，打破現(xiàn)有評(píng)估的局限，真正遴選出能夠有效識(shí)別細(xì)粒度錯(cuò)誤的「優(yōu)秀」PRM，并為未來 PRMs 的發(fā)展提供精確的診斷工具。

表 1 PRMBench 與其他現(xiàn)有基準(zhǔn)的對(duì)比。
PRMBench 構(gòu)建：實(shí)現(xiàn)全面而嚴(yán)謹(jǐn)?shù)脑u(píng)估

圖 3 PRMBench 包含三大評(píng)測(cè)主題：「簡(jiǎn)潔性」（Simplicity）、「合理性」（Soundness）和「敏感性」（Sensitivity）。
數(shù)據(jù)來源與構(gòu)建：
元數(shù)據(jù)提取：基于 PRM800K 數(shù)據(jù)集，篩選出其完全正確的問題、答案及解題步驟，作為構(gòu)建我們基準(zhǔn)的元數(shù)據(jù)。細(xì)粒度錯(cuò)誤注入：針對(duì) PRMBench 的多數(shù)評(píng)測(cè)主題（前 8 個(gè)子類別），我們策略性地使用先進(jìn)的 LLMs（特別是 GPT-4o）將各種細(xì)粒度的、預(yù)設(shè)的錯(cuò)誤類型注入到原始的正確解題推理步驟中。對(duì)于「一題多解一致性」這一特殊情況，則利用多步推理增強(qiáng)型語(yǔ)言模型為同一問題生成多種不同的、但均正確的解法及其推理步驟，以測(cè)試 PRM 的一致性判斷能力。嚴(yán)格的人工驗(yàn)證：所有注入錯(cuò)誤的實(shí)例均經(jīng)過嚴(yán)格的人工審查，以確保錯(cuò)誤類型引入的質(zhì)量和相關(guān)性，保證數(shù)據(jù)集的真實(shí)性和可靠性。大規(guī)模數(shù)據(jù)集統(tǒng)計(jì)：最終，PRMBench 構(gòu)建了包含 6,216 個(gè)精心設(shè)計(jì)的問題，并帶有總計(jì) 83,456 個(gè)步驟級(jí)別的細(xì)粒度標(biāo)簽的評(píng)估數(shù)據(jù)集。
評(píng)估維度與指標(biāo)：
PRMBench 的評(píng)估體系分為三大主要領(lǐng)域，旨在對(duì) PRMs 進(jìn)行全方位的深度剖析：
簡(jiǎn)潔性（Simplicity）：評(píng)估 PRMs 識(shí)別和排除冗余推理步驟的能力，包括「非冗余性」和「非循環(huán)邏輯」兩個(gè)子類別。合理性（Soundness）：核心評(píng)估 PRM 所生成獎(jiǎng)勵(lì)信號(hào)的準(zhǔn)確性和對(duì)錯(cuò)誤類型的正確識(shí)別能力，涵蓋「評(píng)價(jià)合理性」、「步驟一致性」、「領(lǐng)域一致性」和「置信度不變性」四個(gè)子類別。敏感性（Sensitivity）：衡量 PRMs 在面對(duì)細(xì)微變化或誤導(dǎo)性信息時(shí)的魯棒性和精確識(shí)別能力，細(xì)分為「前提條件敏感性」、「欺騙抵抗」和「多解一致性」三個(gè)子類別。
實(shí)驗(yàn)與關(guān)鍵發(fā)現(xiàn)
評(píng)估模型：我們對(duì) 25 個(gè)主流模型進(jìn)行了廣泛測(cè)試，其中包括了各種開源 PRMs（如 Skywork-PRM、Llemma-PRM、MATHMinos-Mistral、MathShepherd-Mistral、RLHFlow-PRM 等）以及通過巧妙提示作為 Critic Models 的優(yōu)秀閉源語(yǔ)言模型（如 GPT-4o、o1-mini、Gemini-2-Thinking 等）。
評(píng)估指標(biāo)：
負(fù) F1 分?jǐn)?shù)（Negative F1 Score）：作為評(píng)估錯(cuò)誤檢測(cè)性能的核心指標(biāo)，著重衡量模型識(shí)別錯(cuò)誤步驟的準(zhǔn)確性。PRMScore：這是一個(gè)綜合性、統(tǒng)一化的分?jǐn)?shù)，通過將 F1 分?jǐn)?shù)（衡量正確識(shí)別）和負(fù) F1 分?jǐn)?shù)（衡量錯(cuò)誤識(shí)別）有機(jī)結(jié)合，更全面、均衡地反映了模型的整體能力和可靠性。
關(guān)鍵發(fā)現(xiàn)：
PRMs 整體表現(xiàn)令人擔(dān)憂：我們的實(shí)驗(yàn)結(jié)果表明，現(xiàn)有 PRMs 在多步過程評(píng)估中的能力非常有限。即使是性能最佳的模型，其得分也常常僅略高于隨機(jī)猜測(cè)，這預(yù)示著巨大的提升空間。開源 PRMs 普遍落后：相較于將強(qiáng)大通用語(yǔ)言模型提示為 Critic Model 的表現(xiàn)，當(dāng)前的開源 PRMs 通常表現(xiàn)出更低的性能，這凸顯了其在實(shí)際應(yīng)用中的可靠性問題和潛在的訓(xùn)練偏差。「簡(jiǎn)潔性」構(gòu)成最嚴(yán)峻挑戰(zhàn)：在所有評(píng)測(cè)維度中，檢測(cè)推理過程中的冗余步驟（即「簡(jiǎn)潔性」類別）被證明對(duì) PRMs 來說尤其困難，成為它們面臨的最大挑戰(zhàn)之一。

表 2 PRMBench 的主要結(jié)果概覽。
深入分析：揭示 PRMs 的潛在偏見與影響因素
「正確標(biāo)簽偏好」顯著：許多 PRMs 在評(píng)估中表現(xiàn)出對(duì)「正確」標(biāo)簽的明顯偏好，導(dǎo)致它們?cè)谧R(shí)別錯(cuò)誤標(biāo)簽測(cè)試樣例（即「陰性數(shù)據(jù)」）時(shí)存在困難，這嚴(yán)重影響了其公正性和全面性。

表 3 PRMBench 下模型對(duì)于正確標(biāo)簽測(cè)試樣例（陽(yáng)性數(shù)據(jù)）和錯(cuò)誤標(biāo)簽測(cè)試樣例（陰性數(shù)據(jù)）的得分對(duì)比及相似度。
錯(cuò)誤位置的影響：深入分析發(fā)現(xiàn)，PRMs 的性能會(huì)隨著推理步驟在推理鏈中位置的逐漸靠后而呈現(xiàn)出漸進(jìn)式提高。這一現(xiàn)象揭示了 PRMs 在處理推理早期階段錯(cuò)誤時(shí)的潛在挑戰(zhàn)。

圖 4 推理步驟位于推理鏈中不同位置對(duì)模型 PRMScore 的影響。
少樣本 ICL 的影響有限：實(shí)驗(yàn)結(jié)果表明，在獎(jiǎng)勵(lì)模型評(píng)估過程中使用不同數(shù)量的 In-Context Learning（ICL）示例，對(duì)閉源模型的性能影響甚微。這提示我們，對(duì)于 PRMs 的提升，可能需要更深層次的模型結(jié)構(gòu)或訓(xùn)練范式創(chuàng)新，而非僅僅依賴提示工程。

表 4 不同 Few-shot 數(shù)目對(duì)于提示為 Critic Model 的通用語(yǔ)言模型表現(xiàn)影響。
PRM 易受「假陽(yáng)性」影響，暴露「獎(jiǎng)勵(lì)黑客」問題：過程級(jí)獎(jiǎng)勵(lì)模型（PRMs）往往難以識(shí)別那些表面上看似合理、實(shí)則存在錯(cuò)誤的推理步驟，也難以識(shí)別結(jié)果正確，但過程存在錯(cuò)誤的「假陽(yáng)性」現(xiàn)象，這使得它們存在被模型「鉆空子」、易受「獎(jiǎng)勵(lì)黑客」攻擊的風(fēng)險(xiǎn)。為驗(yàn)證這一現(xiàn)象，作者將各模型在 PRMBench 與常用的 Best-of-N（BoN）評(píng)估方法上的表現(xiàn)進(jìn)行了對(duì)比。結(jié)果顯示，PRMBench 在區(qū)分模型能力方面具有更高敏感性，而 PRMBench 與 BoN 之間的明顯不一致也進(jìn)一步揭示出當(dāng)前 PRMs 在應(yīng)對(duì)「假陽(yáng)性」問題上的顯著不足。

表5. 使用不同 PRM 在 Best-of-8 評(píng)估與 PRMBench 評(píng)估下的得分，可區(qū)分性和相似性對(duì)比
結(jié)語(yǔ)與未來展望
PRMBench 的發(fā)布，不僅是一個(gè)新的、更高標(biāo)準(zhǔn)的評(píng)估基準(zhǔn)，更是一聲警鐘，提醒我們必須重新審視現(xiàn)有 PRMs 的能力邊界，并加速其在復(fù)雜推理場(chǎng)景下細(xì)粒度錯(cuò)誤檢測(cè)能力的發(fā)展。
研究的深遠(yuǎn)意義與展望：
推動(dòng) PRM 評(píng)估研究的范式轉(zhuǎn)變：PRMBench 提供了一個(gè)前所未有的全面、精細(xì)化評(píng)估工具，能夠更有效地識(shí)別 PRMs 的潛在缺陷和「盲區(qū)」，從而促進(jìn)相關(guān)算法和模型的根本性改進(jìn)。指引未來 PRM 的開發(fā)方向：通過詳盡揭示現(xiàn)有 PRMs 在不同維度上的優(yōu)缺點(diǎn)，PRMBench 為未來 PRM 的設(shè)計(jì)、訓(xùn)練和優(yōu)化提供了關(guān)鍵的指導(dǎo)性洞察，助力研究人員開發(fā)出更具魯棒性和泛化能力的模型。助力構(gòu)建更可靠的 AI 系統(tǒng)：只有擁有更可靠、更精確的 PRMs，才能有效提升 LLMs 在復(fù)雜推理任務(wù)中的表現(xiàn)，從而最終構(gòu)建出更加值得信賴、更接近人類推理水平的人工智能系統(tǒng)。
「我們堅(jiān)信，PRMBench 的發(fā)布將成為推動(dòng)過程級(jí)獎(jiǎng)勵(lì)模型評(píng)估和發(fā)展研究的堅(jiān)實(shí)基石，為構(gòu)建新一代高度可靠的 AI 系統(tǒng)貢獻(xiàn)力量！」研究團(tuán)隊(duì)表示。
立即探索PRMBench，共同迎接挑戰(zhàn)！

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

時(shí)間的“相對(duì)論”：為什么我們總覺得時(shí)間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問，創(chuàng)刊至今已32年

剛說淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

全站最新

時(shí)間的“相對(duì)論”：為什么我們總覺得時(shí)間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問，創(chuàng)刊至今已32年

剛說淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

熱門推薦

時(shí)間的“相對(duì)論”：為什么我們總覺得時(shí)間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號(hào)注銷、官網(wǎng)無(wú)法訪問，創(chuàng)刊至今已32年

剛說淘汰中國(guó)激光雷達(dá)，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機(jī)器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點(diǎn)贊！

長(zhǎng)城歐拉出奇招：“一車多動(dòng)力”打破單點(diǎn)競(jìng)爭(zhēng)

上饒農(nóng)商行被罰240萬(wàn)，上饒銀行被罰170萬(wàn)

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車又獲獎(jiǎng) 再引發(fā)輿論安全追問

鴻蒙正奔騰！解碼中國(guó)自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國(guó)成功發(fā)射通信技術(shù)試驗(yàn)衛(wèi)星二十三號(hào)

寶馬3系全球產(chǎn)量突破1800萬(wàn)輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬(wàn)人爆倉(cāng)！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開！刷新國(guó)產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍