![]()
近年來,大型語(yǔ)言模型(LLMs)在復(fù)雜推理任務(wù)中展現(xiàn)出驚人的能力,這在很大程度上得益于過程級(jí)獎(jiǎng)勵(lì)模型(PRMs)的賦能。PRMs 作為 LLMs 進(jìn)行多步推理和決策的關(guān)鍵「幕后功臣」,負(fù)責(zé)評(píng)估推理過程的每一步,以引導(dǎo)模型的學(xué)習(xí)方向。
然而,它們真的足夠可靠嗎?一項(xiàng)最新研究——已榮幸被 ACL 2025 Main 接收——揭示了現(xiàn)有 PRMs 在識(shí)別推理過程中細(xì)微錯(cuò)誤方面的顯著不足,其表現(xiàn)甚至可能不如隨機(jī)猜測(cè),敲響了「信任危機(jī)」的警鐘!
![]()
標(biāo)題:PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models論文鏈接:https://arxiv.org/abs/2501.03124項(xiàng)目主頁(yè):https://prmbench.github.io/講解視頻:https://www.bilibili.com/video/BV1kgu8z8E6D單位:復(fù)旦大學(xué)、蘇州大學(xué)、上海人工智能實(shí)驗(yàn)室、石溪大學(xué)、香港中文大學(xué)
PRM 真的過時(shí)了嗎?基于規(guī)則獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)不斷暴露假陽(yáng)性及推理過程幻覺嚴(yán)重等問題,因此我們需要針對(duì)過程的有效監(jiān)督,而如何評(píng)測(cè)過程監(jiān)督的質(zhì)量就是一個(gè)值得探索的問題,目前主流的評(píng)估方法往往過度關(guān)注最終結(jié)果的正確性,而忽視了對(duì)推理過程中細(xì)致入微的錯(cuò)誤類型的識(shí)別。
例如,一個(gè)推理步驟可能存在冗余、部分正確、甚至完全錯(cuò)誤等多種狀態(tài),簡(jiǎn)單的「正確/錯(cuò)誤」標(biāo)簽遠(yuǎn)不足以捕捉其內(nèi)在的復(fù)雜性與細(xì)微差別。這種評(píng)估粒度的缺失,使得我們難以真正理解 PRMs 的局限性,也阻礙了其能力的進(jìn)一步提升。
為填補(bǔ)這一空白,復(fù)旦大學(xué)、蘇州大學(xué)、上海人工智能實(shí)驗(yàn)室、石溪大學(xué)、香港中文大學(xué)等機(jī)構(gòu)聯(lián)合提出了 PRMBench,一個(gè)專為評(píng)估 PRMs 精細(xì)化錯(cuò)誤檢測(cè)能力而設(shè)計(jì)、且極具挑戰(zhàn)性的基準(zhǔn)。這項(xiàng)被 ACL 2025 接收的突破性研究,不僅深入剖析了現(xiàn)有 PRMs 的「軟肋」,更首次系統(tǒng)性地揭示了它們?cè)趶?fù)雜推理評(píng)估中的深層缺陷,為未來研究指明了清晰的方向。
![]()
圖 1 PRMBench 的主要結(jié)構(gòu),左側(cè)展示了數(shù)據(jù)整理的流程;右側(cè)展示了評(píng)估主題的示例以及測(cè)試模型的相對(duì)性能表現(xiàn)。
PRMBench:一次針對(duì) PRMs 的「全方位體檢」
PRMBench 并非簡(jiǎn)單的數(shù)據(jù)集擴(kuò)充,而是一套經(jīng)過精心構(gòu)建的「全方位體檢方案」,旨在系統(tǒng)性、多維度地考察 PRMs 的各項(xiàng)核心能力。
PRMBench 的獨(dú)特優(yōu)勢(shì)
史無(wú)前例的海量與精細(xì)化標(biāo)注:PRMBench 包含6216個(gè)精心設(shè)計(jì)的問題,并擁有高達(dá)個(gè)步驟級(jí)別的細(xì)粒度標(biāo)簽。這確保了評(píng)估的深度和廣度,能夠全面覆蓋 PRMs 可能遇到的各種復(fù)雜推理場(chǎng)景。創(chuàng)新性的多維度評(píng)估體系:PRMBench 從簡(jiǎn)潔性(Simplicity)、合理性(Soundness)敏感性(Sensitivity)三大核心維度出發(fā),進(jìn)一步細(xì)分為九個(gè)子類別:「非冗余性」(Non-Redundancy)、「非循環(huán)邏輯」(Non-Circular Logic)、「評(píng)價(jià)合理性」(Empirical Soundness)、「步驟一致性」(Step Consistency)、「領(lǐng)域一致性」(Domain Consistency)、「置信度不變性」(Confidence Invariance)、「前提條件敏感性」(Prerequisite Sensitivity)、「欺騙抵抗」(Deception Resistance)和「一題多解一致性」(Multi-Solution Consistency)。這一全面而細(xì)致的評(píng)估框架,力求捕捉 PRMs 在各種潛在錯(cuò)誤類型上的表現(xiàn)。首次系統(tǒng)性揭示現(xiàn)有 PRMs 的深層缺陷:研究團(tuán)隊(duì)對(duì)包括開源 PRMs 和將主流 LLMs 提示為 Critic 模型的 25 個(gè)代表性模型進(jìn)行了廣泛而深入的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果令人震驚且引人深思,首次系統(tǒng)性地揭示了當(dāng)前 PRMs 在細(xì)粒度錯(cuò)誤檢測(cè)上的顯著弱點(diǎn)。
本文的主要發(fā)現(xiàn)
整體表現(xiàn)遠(yuǎn)低于預(yù)期:即使是表現(xiàn)最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,遠(yuǎn)低于人類水平的 83.8,且勉強(qiáng)高于隨機(jī)猜測(cè)的 50.0。這明確指出,即使是最先進(jìn)的 PRMs,在多步過程評(píng)估中仍有巨大的提升空間。開源 PRMs 普遍落后:相較于將強(qiáng)大通用語(yǔ)言模型提示為 Critic Model 的表現(xiàn),當(dāng)前的開源 PRMs 通常表現(xiàn)出更低的性能,這凸顯了其在實(shí)際應(yīng)用中的可靠性問題和潛在的訓(xùn)練偏差。「簡(jiǎn)潔性」成為最大挑戰(zhàn):在「簡(jiǎn)潔性」維度上,即使是表現(xiàn)相對(duì)較好的 Reasoneval-34B,其 PRMScore 也驟降至 51.5。這表明,PRMs 在識(shí)別推理過程中冗余、不必要的步驟方面存在明顯的能力不足。顯著的「陽(yáng)性偏好」現(xiàn)象:實(shí)驗(yàn)發(fā)現(xiàn),部分模型,例如 Reasoneval-7B 和 RLHFlow-DeepSeek-8B,在評(píng)估中表現(xiàn)出顯著的「陽(yáng)性偏好」。它們?cè)谡_步驟的判斷上準(zhǔn)確率很高(超過 95%),但在識(shí)別錯(cuò)誤步驟(陰性數(shù)據(jù))時(shí)平均準(zhǔn)確率僅為 17%,這嚴(yán)重影響了其可靠性。錯(cuò)誤位置對(duì)性能的影響:研究深入分析了錯(cuò)誤步驟在推理鏈中位置對(duì) PRMs 性能的影響。結(jié)果顯示,PRMs 的性能會(huì)隨著錯(cuò)誤步驟在推理鏈中位置的逐漸后移而呈現(xiàn)出漸進(jìn)式提升。「假陽(yáng)性」影響嚴(yán)重:過程級(jí)獎(jiǎng)勵(lì)模型(PRMs)往往難以識(shí)別那些假陽(yáng)性步驟,這使得它們存在被模型「鉆空子」、易受「獎(jiǎng)勵(lì)黑客」攻擊風(fēng)險(xiǎn)。
問題源起:現(xiàn)有 PRMs 的「盲區(qū)」
在一項(xiàng)需要舉出反例的復(fù)雜證明題實(shí)踐中,我們觀察到一個(gè)令人擔(dān)憂的現(xiàn)象:即使像 o1 這樣強(qiáng)大的大語(yǔ)言模型,在推理過程中自身已意識(shí)到問題,仍可能產(chǎn)生錯(cuò)誤的推理步驟。更令人警惕的是,當(dāng)我們調(diào)用現(xiàn)有過程級(jí)獎(jiǎng)勵(lì)模型(PRMs)去檢測(cè) o1 生成的推理過程時(shí),結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無(wú)法檢測(cè)出這種細(xì)粒度的錯(cuò)誤。這一發(fā)現(xiàn)直指核心問題:當(dāng)前的 PRMs 是否真正具備檢測(cè)推理過程中細(xì)粒度錯(cuò)誤的能力?
![]()
圖 2 當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時(shí),o1 和 PRM 可能會(huì)產(chǎn)生的錯(cuò)誤。
然而,現(xiàn)有針對(duì) PRM 評(píng)測(cè)而設(shè)計(jì)的基準(zhǔn),大多僅僅關(guān)注步驟判斷的宏觀對(duì)錯(cuò),而忽視了對(duì)錯(cuò)誤類型本身的細(xì)致分類。這意味著當(dāng)前業(yè)界急需一個(gè)能夠全面評(píng)測(cè) PRMs 在細(xì)粒度錯(cuò)誤上表現(xiàn)的綜合基準(zhǔn)。而這,正是我們推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本驅(qū)動(dòng)力。我們希望通過 PRMBench,打破現(xiàn)有評(píng)估的局限,真正遴選出能夠有效識(shí)別細(xì)粒度錯(cuò)誤的「優(yōu)秀」PRM,并為未來 PRMs 的發(fā)展提供精確的診斷工具。
![]()
表 1 PRMBench 與其他現(xiàn)有基準(zhǔn)的對(duì)比。
PRMBench 構(gòu)建:實(shí)現(xiàn)全面而嚴(yán)謹(jǐn)?shù)脑u(píng)估
![]()
圖 3 PRMBench 包含三大評(píng)測(cè)主題:「簡(jiǎn)潔性」(Simplicity)、「合理性」(Soundness)和「敏感性」(Sensitivity)。
數(shù)據(jù)來源與構(gòu)建:
元數(shù)據(jù)提取:基于 PRM800K 數(shù)據(jù)集,篩選出其完全正確的問題、答案及解題步驟,作為構(gòu)建我們基準(zhǔn)的元數(shù)據(jù)。細(xì)粒度錯(cuò)誤注入:針對(duì) PRMBench 的多數(shù)評(píng)測(cè)主題(前 8 個(gè)子類別),我們策略性地使用先進(jìn)的 LLMs(特別是 GPT-4o)將各種細(xì)粒度的、預(yù)設(shè)的錯(cuò)誤類型注入到原始的正確解題推理步驟中。對(duì)于「一題多解一致性」這一特殊情況,則利用多步推理增強(qiáng)型語(yǔ)言模型為同一問題生成多種不同的、但均正確的解法及其推理步驟,以測(cè)試 PRM 的一致性判斷能力。嚴(yán)格的人工驗(yàn)證:所有注入錯(cuò)誤的實(shí)例均經(jīng)過嚴(yán)格的人工審查,以確保錯(cuò)誤類型引入的質(zhì)量和相關(guān)性,保證數(shù)據(jù)集的真實(shí)性和可靠性。大規(guī)模數(shù)據(jù)集統(tǒng)計(jì):最終,PRMBench 構(gòu)建了包含 6,216 個(gè)精心設(shè)計(jì)的問題,并帶有總計(jì) 83,456 個(gè)步驟級(jí)別的細(xì)粒度標(biāo)簽的評(píng)估數(shù)據(jù)集。
評(píng)估維度與指標(biāo):
PRMBench 的評(píng)估體系分為三大主要領(lǐng)域,旨在對(duì) PRMs 進(jìn)行全方位的深度剖析:
簡(jiǎn)潔性(Simplicity):評(píng)估 PRMs 識(shí)別和排除冗余推理步驟的能力,包括「非冗余性」和「非循環(huán)邏輯」兩個(gè)子類別。合理性(Soundness):核心評(píng)估 PRM 所生成獎(jiǎng)勵(lì)信號(hào)的準(zhǔn)確性和對(duì)錯(cuò)誤類型的正確識(shí)別能力,涵蓋「評(píng)價(jià)合理性」、「步驟一致性」、「領(lǐng)域一致性」和「置信度不變性」四個(gè)子類別。敏感性(Sensitivity):衡量 PRMs 在面對(duì)細(xì)微變化或誤導(dǎo)性信息時(shí)的魯棒性和精確識(shí)別能力,細(xì)分為「前提條件敏感性」、「欺騙抵抗」和「多解一致性」三個(gè)子類別。
實(shí)驗(yàn)與關(guān)鍵發(fā)現(xiàn)
評(píng)估模型:我們對(duì) 25 個(gè)主流模型進(jìn)行了廣泛測(cè)試,其中包括了各種開源 PRMs(如 Skywork-PRM、Llemma-PRM、MATHMinos-Mistral、MathShepherd-Mistral、RLHFlow-PRM 等)以及通過巧妙提示作為 Critic Models 的優(yōu)秀閉源語(yǔ)言模型(如 GPT-4o、o1-mini、Gemini-2-Thinking 等)。
評(píng)估指標(biāo):
負(fù) F1 分?jǐn)?shù)(Negative F1 Score):作為評(píng)估錯(cuò)誤檢測(cè)性能的核心指標(biāo),著重衡量模型識(shí)別錯(cuò)誤步驟的準(zhǔn)確性。PRMScore:這是一個(gè)綜合性、統(tǒng)一化的分?jǐn)?shù),通過將 F1 分?jǐn)?shù)(衡量正確識(shí)別)和負(fù) F1 分?jǐn)?shù)(衡量錯(cuò)誤識(shí)別)有機(jī)結(jié)合,更全面、均衡地反映了模型的整體能力和可靠性。
關(guān)鍵發(fā)現(xiàn):
PRMs 整體表現(xiàn)令人擔(dān)憂:我們的實(shí)驗(yàn)結(jié)果表明,現(xiàn)有 PRMs 在多步過程評(píng)估中的能力非常有限。即使是性能最佳的模型,其得分也常常僅略高于隨機(jī)猜測(cè),這預(yù)示著巨大的提升空間。開源 PRMs 普遍落后:相較于將強(qiáng)大通用語(yǔ)言模型提示為 Critic Model 的表現(xiàn),當(dāng)前的開源 PRMs 通常表現(xiàn)出更低的性能,這凸顯了其在實(shí)際應(yīng)用中的可靠性問題和潛在的訓(xùn)練偏差。「簡(jiǎn)潔性」構(gòu)成最嚴(yán)峻挑戰(zhàn):在所有評(píng)測(cè)維度中,檢測(cè)推理過程中的冗余步驟(即「簡(jiǎn)潔性」類別)被證明對(duì) PRMs 來說尤其困難,成為它們面臨的最大挑戰(zhàn)之一。
![]()
表 2 PRMBench 的主要結(jié)果概覽。
深入分析:揭示 PRMs 的潛在偏見與影響因素
「正確標(biāo)簽偏好」顯著:許多 PRMs 在評(píng)估中表現(xiàn)出對(duì)「正確」標(biāo)簽的明顯偏好,導(dǎo)致它們?cè)谧R(shí)別錯(cuò)誤標(biāo)簽測(cè)試樣例(即「陰性數(shù)據(jù)」)時(shí)存在困難,這嚴(yán)重影響了其公正性和全面性。
![]()
表 3 PRMBench 下模型對(duì)于正確標(biāo)簽測(cè)試樣例(陽(yáng)性數(shù)據(jù))和錯(cuò)誤標(biāo)簽測(cè)試樣例(陰性數(shù)據(jù))的得分對(duì)比及相似度。
錯(cuò)誤位置的影響:深入分析發(fā)現(xiàn),PRMs 的性能會(huì)隨著推理步驟在推理鏈中位置的逐漸靠后而呈現(xiàn)出漸進(jìn)式提高。這一現(xiàn)象揭示了 PRMs 在處理推理早期階段錯(cuò)誤時(shí)的潛在挑戰(zhàn)。
![]()
圖 4 推理步驟位于推理鏈中不同位置對(duì)模型 PRMScore 的影響。
少樣本 ICL 的影響有限:實(shí)驗(yàn)結(jié)果表明,在獎(jiǎng)勵(lì)模型評(píng)估過程中使用不同數(shù)量的 In-Context Learning(ICL)示例,對(duì)閉源模型的性能影響甚微。這提示我們,對(duì)于 PRMs 的提升,可能需要更深層次的模型結(jié)構(gòu)或訓(xùn)練范式創(chuàng)新,而非僅僅依賴提示工程。
![]()
表 4 不同 Few-shot 數(shù)目對(duì)于提示為 Critic Model 的通用語(yǔ)言模型表現(xiàn)影響。
PRM 易受「假陽(yáng)性」影響,暴露「獎(jiǎng)勵(lì)黑客」問題:過程級(jí)獎(jiǎng)勵(lì)模型(PRMs)往往難以識(shí)別那些表面上看似合理、實(shí)則存在錯(cuò)誤的推理步驟,也難以識(shí)別結(jié)果正確,但過程存在錯(cuò)誤的「假陽(yáng)性」現(xiàn)象,這使得它們存在被模型「鉆空子」、易受「獎(jiǎng)勵(lì)黑客」攻擊的風(fēng)險(xiǎn)。為驗(yàn)證這一現(xiàn)象,作者將各模型在 PRMBench 與常用的 Best-of-N(BoN)評(píng)估方法上的表現(xiàn)進(jìn)行了對(duì)比。結(jié)果顯示,PRMBench 在區(qū)分模型能力方面具有更高敏感性,而 PRMBench 與 BoN 之間的明顯不一致也進(jìn)一步揭示出當(dāng)前 PRMs 在應(yīng)對(duì)「假陽(yáng)性」問題上的顯著不足。
![]()
表5. 使用不同 PRM 在 Best-of-8 評(píng)估與 PRMBench 評(píng)估下的得分,可區(qū)分性和相似性對(duì)比
結(jié)語(yǔ)與未來展望
PRMBench 的發(fā)布,不僅是一個(gè)新的、更高標(biāo)準(zhǔn)的評(píng)估基準(zhǔn),更是一聲警鐘,提醒我們必須重新審視現(xiàn)有 PRMs 的能力邊界,并加速其在復(fù)雜推理場(chǎng)景下細(xì)粒度錯(cuò)誤檢測(cè)能力的發(fā)展。
研究的深遠(yuǎn)意義與展望:
推動(dòng) PRM 評(píng)估研究的范式轉(zhuǎn)變:PRMBench 提供了一個(gè)前所未有的全面、精細(xì)化評(píng)估工具,能夠更有效地識(shí)別 PRMs 的潛在缺陷和「盲區(qū)」,從而促進(jìn)相關(guān)算法和模型的根本性改進(jìn)。指引未來 PRM 的開發(fā)方向:通過詳盡揭示現(xiàn)有 PRMs 在不同維度上的優(yōu)缺點(diǎn),PRMBench 為未來 PRM 的設(shè)計(jì)、訓(xùn)練和優(yōu)化提供了關(guān)鍵的指導(dǎo)性洞察,助力研究人員開發(fā)出更具魯棒性和泛化能力的模型。助力構(gòu)建更可靠的 AI 系統(tǒng):只有擁有更可靠、更精確的 PRMs,才能有效提升 LLMs 在復(fù)雜推理任務(wù)中的表現(xiàn),從而最終構(gòu)建出更加值得信賴、更接近人類推理水平的人工智能系統(tǒng)。
「我們堅(jiān)信,PRMBench 的發(fā)布將成為推動(dòng)過程級(jí)獎(jiǎng)勵(lì)模型評(píng)估和發(fā)展研究的堅(jiān)實(shí)基石,為構(gòu)建新一代高度可靠的 AI 系統(tǒng)貢獻(xiàn)力量!」研究團(tuán)隊(duì)表示。
立即探索PRMBench,共同迎接挑戰(zhàn)!





京公網(wǎng)安備 11011402013531號(hào)