![]()
本文的第一作者是劉文涵,就讀于中國(guó)人民大學(xué)高瓴人工智能學(xué)院,博士三年級(jí),導(dǎo)師為竇志成教授,目前在百度大搜部門進(jìn)行實(shí)習(xí)。他的研究方向聚焦于 AI 搜索,在頂級(jí)國(guó)際會(huì)議如 ACL、WWW 等發(fā)表了多篇論文。
推理大模型(Large Reasoning Model)極大的促進(jìn)了自然語(yǔ)言處理領(lǐng)域的發(fā)展,而信息檢索領(lǐng)域的核心問(wèn)題之一是文檔排序,如何利用強(qiáng)大的推理大模型通過(guò)主動(dòng)推理來(lái)判斷文檔的相關(guān)性,進(jìn)而再對(duì)文檔進(jìn)行排序是一個(gè)值得探索的方向。
在本次工作中,我們提出了ReasonRank,ReasonRank 在包括 BRIGHT、R2MED在內(nèi)的多個(gè)榜單,擊敗了 UMASS 大學(xué),Waterloo 大學(xué),meta 在內(nèi)的多個(gè)大學(xué)和機(jī)構(gòu),于 2025 年 8 月 9 日榮登榜單第一名。我們更小尺寸的 ReasonRank-7B 也遠(yuǎn)遠(yuǎn)超越了其他 32B 大小的推理型排序大模型,同時(shí)相比 pointwise 排序器具備明顯的效率優(yōu)勢(shì)。此外,我們的論文還獲得了 Huggingface paper 日榜第一名。
![]()
圖 1:8 月 9 日,ReasonRank 在BRIGHT benchmark 上榮登榜單第一名
![]()
![]()
論文標(biāo)題:ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability論文鏈接:https://arxiv.org/pdf/2508.07050代碼倉(cāng)庫(kù):https://github.com/8421BCD/ReasonRank/開(kāi)源數(shù)據(jù) & 模型:https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2
研究動(dòng)機(jī):復(fù)雜推理型訓(xùn)練數(shù)據(jù)的缺乏
近來(lái),test-time reasoning 已經(jīng)被證明能夠提升文檔排序器的排序效果。其通過(guò)在給出最終排序結(jié)果前,先顯式進(jìn)行一系列推理過(guò)程(查詢理解,文檔比較等等)。然而,由于推理密集型(reasoning-intensive)排序訓(xùn)練數(shù)據(jù)的稀缺,現(xiàn)有推理型排序器均依賴 MSMARCO 這種傳統(tǒng) web 搜索數(shù)據(jù)進(jìn)行訓(xùn)練。
這些數(shù)據(jù)主要側(cè)重簡(jiǎn)單的語(yǔ)義或詞匹配,導(dǎo)致模型在面臨復(fù)雜搜索場(chǎng)景(如 StackExchange 復(fù)雜查詢、代碼類查詢、數(shù)學(xué)類查詢等)時(shí)泛化能力受限。而使用人工標(biāo)注構(gòu)造推理密集型排序訓(xùn)練數(shù)據(jù)代價(jià)又是非常高的。
方法設(shè)計(jì):數(shù)據(jù)合成 + 兩階段訓(xùn)練
為破解推理密集型排序訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題,我們提出了基于 DeepSeek-R1 的自動(dòng)化數(shù)據(jù)合成框架,生成了 13K 高質(zhì)量的推理密集型 listwise 排序訓(xùn)練數(shù)據(jù)。基于合成的訓(xùn)練數(shù)據(jù),我們進(jìn)一步設(shè)計(jì)了一個(gè)兩階段的訓(xùn)練框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 階段,不同于以往僅使用排序指標(biāo)作為獎(jiǎng)勵(lì)(reward),我們基于 listwise 排序中滑動(dòng)窗口策略的特性設(shè)計(jì)了 multi-view ranking reward,其更適合 listwise 排序。
1. 數(shù)據(jù)合成
傳統(tǒng)模型在復(fù)雜排序任務(wù)上表現(xiàn)差,主要是由于缺少面向復(fù)雜推理搜索場(chǎng)景的訓(xùn)練數(shù)據(jù)的缺失。根據(jù)已有的 IR benchmarks,我們將復(fù)雜搜索查詢分為四大類并收集了對(duì)應(yīng)領(lǐng)域的用戶查詢:
復(fù)雜問(wèn)答型查詢代碼類查詢數(shù)學(xué)類查詢網(wǎng)頁(yè)搜索類查詢
![]()
有了查詢,如何挖掘高質(zhì)量的候選文檔列表以及構(gòu)造訓(xùn)練 label 是一個(gè)關(guān)鍵問(wèn)題,其直接影響模型訓(xùn)練的效果。
在本文,我們提出利用強(qiáng)大的 DeepSeek-R1 從海量的 web 頁(yè)面和已有的文檔 corpus 挖掘其相關(guān)文檔以及不相關(guān)文檔(包含難負(fù)例)。在這個(gè)過(guò)程,我們還給 R1 提供了 query 的人工標(biāo)注的正確答案來(lái)提高挖掘的準(zhǔn)確性,相比傳統(tǒng)蒸餾,這樣能夠進(jìn)一步提升 R1 相關(guān)性判斷的準(zhǔn)確性。
這樣我們便得到了文檔的 pointwise 訓(xùn)練標(biāo)簽(相關(guān) / 不相關(guān))。為了訓(xùn)練最終的 listwise 排序器,我們繼續(xù)利用 DeepSeek-R1 對(duì)候選文檔進(jìn)行 listwise 排序,得到 listwise 訓(xùn)練標(biāo)簽(包含推理鏈以及最終的 gold ranking list)。
為了提升訓(xùn)練數(shù)據(jù)的質(zhì)量,我們進(jìn)一步設(shè)計(jì)了一個(gè)自一致性(self-consistency)數(shù)據(jù)過(guò)濾機(jī)制。
我們利用得到的 pointwise 標(biāo)簽對(duì) listwise 標(biāo)簽中的 gold ranking list 計(jì)算排序指標(biāo) NDCG@10,小于閾值 α 的數(shù)據(jù)將被過(guò)濾掉(表明教師模型 R1 判斷不一致,相應(yīng)數(shù)據(jù)樣本被丟棄),最終我們得到 13K 高質(zhì)量的多領(lǐng)域訓(xùn)練數(shù)據(jù)集。
2. 兩階段訓(xùn)練
![]()
階段一:冷啟動(dòng) SFT
在獲得高質(zhì)量的推理密集型訓(xùn)練數(shù)據(jù)后,我們首先采用監(jiān)督微調(diào)對(duì)大模型進(jìn)行 “冷啟動(dòng)” 訓(xùn)練,通過(guò) R1 的推理鏈顯式引導(dǎo)模型學(xué)習(xí)如何對(duì)一組文檔進(jìn)行對(duì)比、推理和排序。具體而言,輸入由用戶查詢和對(duì)應(yīng)的候選文檔列表組成,輸出為 listwise label(也即 R1 生成的推理鏈和 gold ranking list)。
階段二:多視角排序 reward 的強(qiáng)化學(xué)習(xí)
多視角排序 reward
1) 召回視角(Recall@10):
現(xiàn)有方法在強(qiáng)化學(xué)習(xí)訓(xùn)練排序任務(wù)中,通常只采用單輪的 NDCG@10 作為獎(jiǎng)勵(lì)信號(hào)。然而,我們認(rèn)為這種單輪獎(jiǎng)勵(lì)對(duì)于多輪滑動(dòng)窗口的 listwise 排序任務(wù)而言是次優(yōu)的。這是因?yàn)榛瑒?dòng)窗口策略要求模型在排序時(shí)進(jìn)行多輪、序列化的局部決策:每一步窗口內(nèi)的前 10 個(gè)文檔才會(huì)被傳遞給下一個(gè)排序窗口,并通過(guò)滑動(dòng)窗口不斷迭代,實(shí)現(xiàn)整體排序。此時(shí),單獨(dú)優(yōu)化每一窗口的 NDCG 指標(biāo),并不一定能夠帶來(lái)全局最優(yōu)的排序效果。基于上述觀察,我們?cè)趶?qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)設(shè)計(jì)中,額外引入了 Recall@10 指標(biāo)來(lái)確保重要文檔不會(huì)在滑動(dòng)過(guò)程中被遺漏,有助于后續(xù)窗口獲得更優(yōu)的排序基礎(chǔ)。
2) 排序相似度視角(RBO):
此外,相較于基于 pointwise 標(biāo)簽計(jì)算 NDCG@10,我們認(rèn)為 listwise 訓(xùn)練標(biāo)簽的 gold ranking list 能夠提供更細(xì)粒度的排序信號(hào)。因此,我們引入 RBO(Rank-biased Overlap)指標(biāo),作為補(bǔ)充排序獎(jiǎng)勵(lì),用于衡量當(dāng)前排序結(jié)果與金標(biāo)準(zhǔn)排序的相似性。
我們將 NDCG@10、Recall@10 和 RBO 結(jié)合,構(gòu)建了多視角排序獎(jiǎng)勵(lì):
![]()
格式 reward
為了保證正確的輸出格式,我們考慮了兩種格式:
(1)輸出格式:保證輸出內(nèi)容嵌套在
和 < answer > 標(biāo)簽中;
(2)答案格式:
標(biāo)簽內(nèi)的排序列表要滿足特定的輸出格式(例如:[4] > [2] > …)。
最終,我們的強(qiáng)化學(xué)習(xí) reward 計(jì)算如下,我們使用 GRPO 算法進(jìn)行 RL 優(yōu)化。
![]()
核心實(shí)驗(yàn) 1:多個(gè) benchmarks 上效果實(shí)現(xiàn)SOTA
為充分評(píng)估 ReasonRank 在不同推理型搜索任務(wù)上的效果,我們選取了兩個(gè)推理型 IR benchmark:
BRIGHT:包含 12 個(gè)推理密集型搜索任務(wù),涉及復(fù)雜問(wèn)答型檢索,代碼類檢索,定理類檢索等等R2MED:包含 8 個(gè)面向醫(yī)療類的復(fù)雜查詢檢索數(shù)據(jù)集,覆蓋問(wèn)答參考文獻(xiàn)檢索、臨床證據(jù)檢索和臨床病例檢索
![]()
![]()
從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn):ReasonRank 顯著優(yōu)于已有的排序器。ReasonRank(32B)在 BRIGHT 和 R2MED 上分別超越最好的 baselines 4-5 個(gè)點(diǎn);且 ReasonRank(7B)甚至優(yōu)于所有的 32B 的 baselines。
![]()
此外,我們還在傳統(tǒng) IR benchmark BEIR 上開(kāi)展了實(shí)驗(yàn),結(jié)果證明了其良好的泛化性。
核心實(shí)驗(yàn) 2:效率優(yōu)勢(shì)
![]()
我們還在 BRIGHT 上測(cè)試了 ReasonRank 的排序效率,并與推理型 pointwise 排序器 Rank1 比較。在以往,pointwise 排序器被認(rèn)為是最高效的。然而,推理場(chǎng)景下,我們發(fā)現(xiàn)我們的listwise 排序器 ReasonRank 效率顯著高于 pointwise 排序器 Rank1。這種高效性來(lái)自于 Rank1 需要為每個(gè)段落生成推理鏈,而 ReasonRank 一次處理 20 個(gè)段落,只生成一條推理鏈,大大減少了輸出的 token 數(shù)量。
核心實(shí)驗(yàn) 3:消融實(shí)驗(yàn)
![]()
我們還開(kāi)展了詳盡的消融實(shí)驗(yàn),結(jié)果證明了我們構(gòu)造的多領(lǐng)域數(shù)據(jù)集相比于單領(lǐng)域(MSMARCO)的效果優(yōu)勢(shì)以及我們兩階段訓(xùn)練框架和 multi-view ranking reward 設(shè)計(jì)的合理性。
總結(jié)與未來(lái)展望
我們?cè)诒疚奶岢隽硕囝I(lǐng)域面向推理型排序的訓(xùn)練數(shù)據(jù),解決了訓(xùn)練數(shù)據(jù)上的難題。并設(shè)計(jì)了合理的 SFT 和 RL 訓(xùn)練方法,充分激發(fā)了推理型排序器的效果。未來(lái),如何基于大模型的推理能力繼續(xù)提升搜索排序器的效果,我們認(rèn)為仍有多個(gè)方向值得探索:
引入非推理型數(shù)據(jù):未來(lái)可以在訓(xùn)練過(guò)程中融合非推理型數(shù)據(jù),使模型能夠靈活適應(yīng)不同難度的搜索場(chǎng)景,在推理與非推理模式間自如切換,提升排序器的通用性和實(shí)用性。
探索基于全排序(full ranking)的推理型重排序方法:已有的工作已經(jīng)證明 LLM 一次排序全部候選文檔的能力。未來(lái)可以結(jié)合 LLM 強(qiáng)大的全排序能力,研究基于推理的全局排序方法,替代當(dāng)前的滑動(dòng)窗口策略,以提升模型在大規(guī)模文檔排序任務(wù)中的效率和表現(xiàn)。
嘗試多樣化模型骨干:后續(xù)可嘗試以 Llama 3.1、以及推理型 LRM(例如 Qwen3)等更多不同類型的大語(yǔ)言模型作為 ReasonRank 的基礎(chǔ),進(jìn)一步驗(yàn)證方法的通用性和有效性。





京公網(wǎng)安備 11011402013531號(hào)