![]()
在大語言模型(LLM)的研究浪潮中,絕大多數工作都聚焦于優化模型的輸出分布 —— 擴大模型規模、強化分布學習、優化獎勵信號…… 然而,如何將這些輸出分布真正轉化為高質量的生成結果—— 即解碼(decoding)階段,卻沒有得到足夠的重視。
北京大學林宙辰、王奕森團隊的論文《Language Ranker: A Lightweight Ranking framework for LLM Decoding》提出了一種全新的視角:將大模型的解碼過程類比為推薦系統中的排序階段(Ranking Stage)。這一視角揭示了現有解碼方法的局限,并據此提出了高效、輕量的改進方案。
![]()
論文標題:Language Ranker: A Lightweight Ranking framework for LLM Decoding論文鏈接:https://www.arxiv.org/abs/2510.21883
一、重新理解 LLM:從 “生成” 到 “推薦”
論文指出,LLM 可以被看作一種特殊的推薦系統,它把輸入當作 “用戶信息”,在龐大的候選響應空間中為每位用戶挑選最合適的響應。
如下圖所示,大模型的關鍵組件與推薦系統可一一對應:
模型骨架 (LM backbone) 從輸入中提取用戶特征,相當于推薦系統的特征工程(Feature Engineering);語言頭(LM Head)根據用戶特征生成初步的響應分布,相當于推薦系統的召回層(Retriever);解碼方法(Decoding Method)則是根據響應分布選出 “最合適的一條響應”,相當于推薦系統的排序層(Ranker)。
![]()
圖表 1 大模型的關鍵組件與推薦系統一一對應
通過將大模型的解碼過程類比為推薦系統的排序階段,我們能夠更清晰地看到現有方法的局限。
在推薦系統中,排序層(Ranker)通常經過精心設計,結構復雜,用于在召回的候選項中進行細粒度優化;而在大模型中,主流的解碼方法,如貪婪解碼、束搜索(Beam Search)、自一致性(Self-consistency)等,大多僅依賴固定規則,缺乏學習能力,因而要么提升有限,要么只在少數任務(如數學問題)中有效。
與此同時,基于獎勵模型的重排序方法雖然具備一定的學習能力,卻存在明顯的冗余。它們在排序階段重新進行特征提取,相當于 “重復做了一遍特征工程”。這種重復造輪子的做法不僅計算成本高昂,而且在訓練與推理中都帶來巨大的資源浪費,嚴重限制了大模型在解碼優化方向上的可擴展性與普適性。
二、Language Ranker:輕量級重排序框架
針對上述局限,論文借鑒推薦系統的設計思路,提出了Language Ranker 框架。其核心思想是:不再依賴龐大的獎勵模型(Reward Model),而是直接復用主模型已提取的隱藏層特征,通過一個極小的學習模塊完成候選響應的重排序。
該模塊僅包含不到 0.5M 參數(比 GPT-2 還小 200 多倍),卻在數學推理、代碼生成、函數調用等多項任務上取得了接近甚至超越 7B 級獎勵模型的性能。
如下圖所示,Language Ranker 包含三步:
1. 候選召回:由主模型生成多條候選響應;
2. 特征提取:從模型中部(約底部 60% 層)提取最后一個 token 的隱藏狀態,作為表示特征;
3. 候選排序:基于提取的特征,通過輕量 Transformer 或 MLP 計算相關性進行重排序。
![]()
圖表 2 Language Ranker 框架
實驗發現,這種 “共享特征工程” 的設計避免了傳統獎勵模型重復特征提取浪費,在保持高性能的同時,大幅降低了計算成本,實現了以最小代價獲得接近最優結果。
此外,Language Ranker 還具備以下特性:
極低的訓練與推理開銷:支持 CPU 級別訓練與部署;即插即用:不改變 LLM 結構即可提升響應質量;模塊可分性:主模型與 Ranker 可以獨立在不同設備上運行。
這些優勢使得一個主模型可以靈活搭配多個 Ranker,甚至為不同用戶定制個性化 Ranker,實現真正的個性化能力增強。
![]()
圖表 3 一個 LLM 可以配備任意個 ranker,從而增強模型不同方面的能力,實現個性化
三、實驗結果:小 Ranker,大提升
1. 主結果:不到 0.5 M 參數的 Ranker 媲美大規模獎勵模型
在所有任務中,Language Ranker 僅需不到 0.5 M 參數,就能達到甚至超過大規模獎勵模型(Reward Model)表現。例如:
在兩個 8B 級別模型上,Language Ranker 幾乎在所有任務中都超越了基于 8B 模型訓練的大規模獎勵模型。在 Qwen 2.5-32B 上,Ranker 以 0.36 M 參數取得了與 32 B 規模獎勵模型幾乎持平的表現;相比傳統規則式解碼策略,Language Ranker 在所有任務上均大幅提升。
![]()
圖表 4 Language Ranker 在數學、代碼、工具調用任務上的表現
2. 速度與資源效率:CPU 也能訓練的 Ranker
在 MBPP 任務上,Language Ranker 即使用 CPU 也僅需 67 秒即可訓練完成,而即使是 GPT-2 級別的獎勵模型也需要超過 1 小時。
Ranker 具備 CPU 可訓練性,意味著它可以在邊緣設備上獨立更新,支持個性化的持續學習。
![]()
圖表 5 CPU 可訓練
3. 遷移泛化:跨任務與跨模型皆可適配
跨領域:在 MATH 內部七類子任務間遷移時,性能下降均 < 2 %,表明良好泛化;跨任務:在數學與代碼的遷移性實驗中,遷移的 Ranker 仍舊大幅超過任務內訓練的 GPT-2 Reward Model。
單個 Ranker 即可跨任務工作,顯著降低模型管理與部署成本。此外,一個主模型還可以配備多個 Ranker,展現出方法突出的覆蓋性與靈活性。
![]()
圖表 6 跨領域泛化性分析
![]()
圖表 7 跨任務泛化性分析
4.Ranker Scaling Law:采樣越多,性能越強
![]()
圖表 8 Ranker Scaling Law
隨著候選響應數量從 1 增加至 100,Language Ranker 在三項任務上均持續提升:
在 MATH 任務中,準確率從 25% 穩步上升至 56%;在 MBPP 中,從 42% 上升至 59%;在 xLAM 函數調用中,從 11% 提升至 47%。
這展現出本文方法同樣遵循規模定律,稱之為 Ranker Scaling Law,即更多采樣可帶來穩定性能增益。
四、總結與展望
Language Ranker 以 “推薦系統視角” 重新定義了大語言模型的解碼過程,提出了一種輕量、高效且通用的排序框架。它摒棄了傳統獎勵模型高昂的計算代價,通過共享主模型的隱藏層特征,僅以不到 0.5M 參數實現與數千倍規模獎勵模型相當的性能。該方法無需額外訓練主模型,也能在 CPU 上快速完成學習,顯著降低推理與部署門檻。實驗結果顯示,Language Ranker 在數學、代碼生成、函數調用和指令跟隨等多任務中均取得優異表現,并在跨任務、跨模型遷移中保持穩定泛化能力。更重要的是,這一框架天然支持個性化擴展:同一主模型可搭配不同 Ranker,以滿足多樣化場景需求。展望未來,Language Ranker 不僅是解碼階段優化的新范式,更是邁向個性化智能體的重要一步。它讓我們看到,大模型的智能邊界不止于參數規模,更在于如何高效地 “選出” 最優答案,為構建高效、靈活、可持續演化的語言智能系統提供了新的方向。





京公網安備 11011402013531號