![]()
這項(xiàng)令人矚目的研究由香港科技大學(xué)的唐一軒和楊毅團(tuán)隊(duì)完成,發(fā)表于2025年12月的arXiv預(yù)印本服務(wù)器,論文編號為2512.02807v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
過去,要讓AI大語言模型變得更聰明、更貼合人類需求,就像訓(xùn)練一只寵物狗一樣——需要大量的人類反饋來告訴它什么是對的,什么是錯(cuò)的。這個(gè)過程不僅費(fèi)時(shí)費(fèi)力,還會遇到各種問題。人類的評判標(biāo)準(zhǔn)往往主觀且不一致,而且收集足夠的高質(zhì)量標(biāo)注數(shù)據(jù)成本高昂。更關(guān)鍵的是,現(xiàn)有的獎(jiǎng)勵(lì)模型容易被"鉆空子",就像考試時(shí)學(xué)生可能找到作弊方法一樣。
香港科技大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)非常有趣的現(xiàn)象:AI模型在生成回答時(shí),其內(nèi)部的"神經(jīng)活動"竟然能夠反映回答質(zhì)量的好壞。這就像是觀察一個(gè)人說話時(shí)的面部表情和肢體語言,就能判斷他說的話是否可信一樣。研究團(tuán)隊(duì)通過一個(gè)叫做"穩(wěn)定秩"的數(shù)學(xué)概念,成功從模型的內(nèi)部狀態(tài)中提取出了質(zhì)量信號,不再需要人類的直接監(jiān)督。
一、什么是"穩(wěn)定秩"——AI內(nèi)部的"數(shù)學(xué)體檢報(bào)告"
穩(wěn)定秩聽起來很復(fù)雜,但實(shí)際上可以用一個(gè)簡單的比喻來理解。當(dāng)AI模型生成一段文字時(shí),它的內(nèi)部會產(chǎn)生大量的數(shù)字表示,就像一個(gè)人在思考時(shí)大腦中會有各種神經(jīng)元活動一樣。穩(wěn)定秩就是測量這些數(shù)字表示的"分布均勻程度"的指標(biāo)。
設(shè)想你有一個(gè)裝滿彈珠的盒子,每個(gè)彈珠代表AI在思考某個(gè)詞匯時(shí)的"激活強(qiáng)度"。如果所有彈珠都堆積在盒子的一個(gè)角落,這就像AI的思考過程過于單一,缺乏豐富性;如果彈珠均勻分布在整個(gè)盒子里,這表示AI的思考過程涉及了多個(gè)維度,更加全面和深入。穩(wěn)定秩就是衡量這種"分布均勻程度"的數(shù)學(xué)工具。
在數(shù)學(xué)上,穩(wěn)定秩的計(jì)算公式是把所有激活值的平方和除以最大激活值的平方。當(dāng)這個(gè)比值接近1時(shí),說明只有一個(gè)方向占主導(dǎo)地位,就像所有彈珠都擠在一個(gè)角落;當(dāng)比值較大時(shí),說明激活強(qiáng)度比較均勻地分布在多個(gè)方向上,就像彈珠均勻分布在整個(gè)盒子里。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn),高質(zhì)量的回答往往對應(yīng)著較高的穩(wěn)定秩值。這背后的原理可以這樣理解:當(dāng)AI生成連貫、準(zhǔn)確且信息豐富的回答時(shí),它需要協(xié)調(diào)多個(gè)不同的知識領(lǐng)域和語言技能,這種復(fù)雜的協(xié)調(diào)過程會在內(nèi)部表示中體現(xiàn)為多維度的激活模式。相反,當(dāng)AI生成低質(zhì)量回答(比如重復(fù)、胡言亂語或不連貫的內(nèi)容)時(shí),其內(nèi)部表示往往會"塌縮"到少數(shù)幾個(gè)維度,導(dǎo)致穩(wěn)定秩較低。
二、驗(yàn)證實(shí)驗(yàn)——讓AI自己"判斷作業(yè)質(zhì)量"
為了驗(yàn)證這個(gè)想法是否靠譜,研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的實(shí)驗(yàn)。他們使用了一個(gè)叫做RewardBench的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含了近3000對問答,每一對都有一個(gè)好回答和一個(gè)差回答,就像是老師批改作業(yè)時(shí)的標(biāo)準(zhǔn)答案對比。
實(shí)驗(yàn)的設(shè)計(jì)很像讓AI當(dāng)"閱卷老師"。研究團(tuán)隊(duì)讓多個(gè)不同規(guī)模的AI模型(包括Qwen2.5、Qwen3、Llama-3.1、Phi-3.5等)對這些問答對進(jìn)行評判,但不是通過讓AI直接說"這個(gè)回答好還是差",而是通過計(jì)算每個(gè)回答的穩(wěn)定秩,然后看穩(wěn)定秩高的回答是否真的比穩(wěn)定秩低的回答質(zhì)量更好。
結(jié)果令人驚喜。在Qwen3-8B模型上,僅僅使用穩(wěn)定秩就能達(dá)到84.04%的準(zhǔn)確率,這個(gè)成績甚至超過了一些需要大量訓(xùn)練數(shù)據(jù)的傳統(tǒng)方法。更重要的是,這種方法在小模型上表現(xiàn)尤其出色——在Qwen2.5-1.5B這個(gè)相對較小的模型上,穩(wěn)定秩方法比其他方法高出了10個(gè)百分點(diǎn)以上。
這個(gè)發(fā)現(xiàn)特別有意義,因?yàn)閭鹘y(tǒng)的基于提示的評估方法在小模型上往往表現(xiàn)不佳。小模型缺乏足夠的指令理解能力,很難按照復(fù)雜的評分標(biāo)準(zhǔn)進(jìn)行評判。而穩(wěn)定秩方法不依賴模型的指令理解能力,而是直接從內(nèi)部幾何結(jié)構(gòu)中提取信號,因此對模型規(guī)模的要求更低。
三、實(shí)戰(zhàn)應(yīng)用——"最佳答案篩選器"
研究團(tuán)隊(duì)還測試了穩(wěn)定秩在實(shí)際應(yīng)用中的表現(xiàn)。他們設(shè)計(jì)了一個(gè)"Best-of-N"的場景:讓AI模型對同一個(gè)問題生成多個(gè)不同的回答(比如16個(gè)),然后使用穩(wěn)定秩來選擇其中質(zhì)量最高的一個(gè),就像是從多份草稿中挑選最佳版本。
在數(shù)學(xué)推理和科學(xué)問題回答方面,這種方法表現(xiàn)得相當(dāng)出色。以Llama-3.2-1B模型為例,使用穩(wěn)定秩篩選后,平均準(zhǔn)確率提升了20.5%。這就像是給學(xué)生提供了一個(gè)"作業(yè)質(zhì)量檢查器",能夠自動從多次嘗試中挑選出最好的答案。
特別值得注意的是,穩(wěn)定秩篩選的效果遠(yuǎn)遠(yuǎn)超過了隨機(jī)選擇。在某些情況下,隨機(jī)選擇甚至?xí)尳Y(jié)果變差,因?yàn)殡S機(jī)可能會選中質(zhì)量很低的回答。而穩(wěn)定秩篩選則能夠可靠地識別出高質(zhì)量回答,避免了這種風(fēng)險(xiǎn)。
四、核心創(chuàng)新——SR-GRPO訓(xùn)練方法
基于穩(wěn)定秩這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)開發(fā)了一種全新的AI訓(xùn)練方法,叫做"穩(wěn)定秩群體相對策略優(yōu)化"(SR-GRPO)。這個(gè)方法的核心思想是讓AI在學(xué)習(xí)過程中不斷追求更高的穩(wěn)定秩,從而自動提升回答質(zhì)量。
這個(gè)訓(xùn)練過程可以比作培養(yǎng)一個(gè)優(yōu)秀的演講者。傳統(tǒng)方法需要觀眾不斷提供反饋,告訴演講者哪里講得好,哪里需要改進(jìn)。而SR-GRPO方法則是教會演講者通過觀察自己的"內(nèi)在狀態(tài)"(比如思維的清晰度、邏輯的連貫性)來自我評估和改進(jìn)。
具體的訓(xùn)練過程是這樣的:對于每個(gè)訓(xùn)練問題,模型會生成多個(gè)候選回答,然后計(jì)算每個(gè)回答的穩(wěn)定秩。穩(wěn)定秩高的回答會被認(rèn)為是好的,并獲得正向獎(jiǎng)勵(lì);穩(wěn)定秩低的回答則被認(rèn)為是差的,獲得負(fù)向獎(jiǎng)勵(lì)。通過這種方式,模型逐漸學(xué)會生成具有高穩(wěn)定秩的回答。
關(guān)鍵的技術(shù)細(xì)節(jié)在于,穩(wěn)定秩的計(jì)算是基于一個(gè)"凍結(jié)"的參考模型進(jìn)行的。這就像是有一個(gè)固定的"評判標(biāo)準(zhǔn)尺子",確保在訓(xùn)練過程中評判標(biāo)準(zhǔn)不會發(fā)生變化。如果使用正在訓(xùn)練的模型本身來計(jì)算穩(wěn)定秩,模型可能會學(xué)會操控自己的內(nèi)部表示來獲得虛高的穩(wěn)定秩分?jǐn)?shù),而不是真正提升回答質(zhì)量。
五、實(shí)驗(yàn)結(jié)果——數(shù)據(jù)說話
研究團(tuán)隊(duì)在兩個(gè)不同的模型上測試了SR-GRPO的效果:Qwen2.5-1.5B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B。實(shí)驗(yàn)涵蓋了三大類任務(wù):STEM科學(xué)問題、數(shù)學(xué)推理問題和開放式對話。
在STEM任務(wù)上,SR-GRPO顯示了顯著的改進(jìn)。以Qwen2.5-1.5B模型為例,GPQA(研究生水平的科學(xué)問答)任務(wù)的準(zhǔn)確率從19.0%提升到21.2%,MMLU-redux(大學(xué)水平的多學(xué)科問答)基本保持穩(wěn)定在47.7%。雖然提升幅度看似不大,但在這些高難度的學(xué)術(shù)問題上,每一個(gè)百分點(diǎn)的提升都是很有價(jià)值的。
在數(shù)學(xué)推理方面,改進(jìn)更加明顯。MATH500(競賽級數(shù)學(xué)問題)的準(zhǔn)確率從48.0%躍升到52.4%,提升了4.4個(gè)百分點(diǎn)。更令人驚喜的是,在AMC23(美國數(shù)學(xué)競賽)問題上,準(zhǔn)確率從35.0%大幅提升到37.5%。這些結(jié)果表明,SR-GRPO特別擅長提升需要邏輯推理和結(jié)構(gòu)化思維的任務(wù)性能。
在開放式對話質(zhì)量方面,WildBench評測顯示SR-GRPO也帶來了顯著改善。該評測使用GPT-4o作為評委,對模型生成的對話進(jìn)行評分。Qwen2.5-1.5B的Elo評分從1036.2提升到1062.4,增長了26.2分,這在對話質(zhì)量評測中是一個(gè)相當(dāng)可觀的進(jìn)步。
特別值得強(qiáng)調(diào)的是,SR-GRPO在所有測試中都超越了使用傳統(tǒng)獎(jiǎng)勵(lì)模型的方法。傳統(tǒng)獎(jiǎng)勵(lì)模型方法在某些任務(wù)上甚至出現(xiàn)了性能下降,比如在GPQA任務(wù)上從19.0%降到15.7%,這說明通用的偏好數(shù)據(jù)可能并不適用于專業(yè)化的推理任務(wù)。
六、深入理解——穩(wěn)定秩到底捕捉了什么
為了理解穩(wěn)定秩為什么有效,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析,探索穩(wěn)定秩與各種文本質(zhì)量指標(biāo)之間的關(guān)系。他們發(fā)現(xiàn)穩(wěn)定秩主要捕捉了三個(gè)重要的質(zhì)量維度。
第一個(gè)維度是語義連貫性。研究發(fā)現(xiàn),穩(wěn)定秩與"進(jìn)展得分"呈正相關(guān)關(guān)系,這個(gè)指標(biāo)衡量的是文章中每個(gè)句子是否在前一個(gè)句子的基礎(chǔ)上有所發(fā)展。同時(shí),穩(wěn)定秋與"問答對齊一致性"也呈正相關(guān),這意味著高穩(wěn)定秩的回答能夠始終保持與問題的相關(guān)性。相反,穩(wěn)定秩與"連貫性標(biāo)準(zhǔn)差"呈強(qiáng)負(fù)相關(guān),這表明穩(wěn)定秩偏向于避免句子間突然的主題跳躍。
第二個(gè)維度是信息密度與簡潔性。出人意料的是,穩(wěn)定秩與文本長度呈負(fù)相關(guān)關(guān)系。token數(shù)量和句子數(shù)量都與穩(wěn)定秩呈負(fù)相關(guān),這與許多獎(jiǎng)勵(lì)模型傾向于偏愛更長回答的問題形成了鮮明對比。但穩(wěn)定秩同時(shí)與詞匯多樣性和壓縮比呈正相關(guān),這說明它偏愛信息密度高、用詞精確的回答,而不是冗長重復(fù)的文本。
第三個(gè)維度是推理結(jié)構(gòu)的識別。在對話語標(biāo)記的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的模式。大多數(shù)話語標(biāo)記(如"此外"、"首先"、"如果"等)與穩(wěn)定秩呈負(fù)相關(guān),這表明過度依賴明確連接詞的回答可能質(zhì)量較低。然而,"然而"和"因?yàn)?這兩類表示對比和因果關(guān)系的標(biāo)記與穩(wěn)定秩呈正相關(guān)。這說明穩(wěn)定秩能夠識別出真正重要的邏輯轉(zhuǎn)折點(diǎn),而不是流水賬式的敘述結(jié)構(gòu)。
這些發(fā)現(xiàn)揭示了穩(wěn)定秩作為質(zhì)量指標(biāo)的深層機(jī)制:它偏愛那些在語義上連貫、信息上精煉、邏輯上嚴(yán)密的回答,這恰好符合我們對高質(zhì)量文本的直覺期待。
七、技術(shù)優(yōu)勢——為什么穩(wěn)定秩方法更勝一籌
穩(wěn)定秩方法相比傳統(tǒng)方法有幾個(gè)顯著優(yōu)勢。首先是計(jì)算效率。穩(wěn)定秩的計(jì)算只需要進(jìn)行一次前向傳播并計(jì)算簡單的矩陣范數(shù),計(jì)算復(fù)雜度只有O(Td),其中T是序列長度,d是隱藏維度。這個(gè)開銷相比transformer的前向傳播來說幾乎可以忽略不計(jì)。
其次是魯棒性。研究團(tuán)隊(duì)測試了不同輸入長度對性能的影響,發(fā)現(xiàn)即使將輸入截?cái)嗟?12個(gè)token,穩(wěn)定秩的性能也只有輕微下降。這說明穩(wěn)定秩捕捉的是文本的核心語義結(jié)構(gòu),而不是依賴于表面的長度特征。
第三是格式無關(guān)性。研究團(tuán)隊(duì)測試了六種不同的輸入格式,發(fā)現(xiàn)穩(wěn)定秩的性能在不同格式間的差異不超過3個(gè)百分點(diǎn)。這種魯棒性大大簡化了實(shí)際應(yīng)用中的配置工作。
最重要的是可擴(kuò)展性。由于穩(wěn)定秋不需要任何標(biāo)注數(shù)據(jù),它可以輕松擴(kuò)展到新的領(lǐng)域和任務(wù)。傳統(tǒng)的獎(jiǎng)勵(lì)模型需要為每個(gè)新領(lǐng)域收集大量偏好數(shù)據(jù),而穩(wěn)定秩方法則可以直接應(yīng)用到任何文本生成任務(wù)上。
八、對比分析——穩(wěn)定秩vs其他方法
研究團(tuán)隊(duì)還比較了穩(wěn)定秩與其他幾種內(nèi)在維度指標(biāo)的性能。他們測試了條件數(shù)(最大奇異值與最小奇異值的比值)、PCA95%方差(需要多少個(gè)主成分才能解釋95%的方差)以及有效秩(基于奇異值分布熵的度量)。
結(jié)果顯示穩(wěn)定秩在所有類別上都明顯優(yōu)于其他指標(biāo)。在整體準(zhǔn)確率上,穩(wěn)定秩達(dá)到84.04%,而PCA95%方差只有61.91%,有效秩為54.50%,條件數(shù)更是只有36.04%。特別是在困難的數(shù)學(xué)和安全類別上,穩(wěn)定秩的優(yōu)勢更加明顯。
這種優(yōu)勢的原因在于穩(wěn)定秩獨(dú)特的設(shè)計(jì)。條件數(shù)過于敏感于極值,容易受到異常值影響;有效秩的熵權(quán)重和PCA的離散計(jì)數(shù)方法都不太適合捕捉質(zhì)量差異;而穩(wěn)定秩通過Frobenius范數(shù)聚合整個(gè)奇異值譜的信息,既保持了對整體結(jié)構(gòu)的敏感性,又具有良好的魯棒性。
九、局限性與未來展望
盡管穩(wěn)定秩方法表現(xiàn)出色,但研究團(tuán)隊(duì)也誠實(shí)地指出了一些局限性。首先,穩(wěn)定秩與質(zhì)量指標(biāo)的相關(guān)性雖然顯著,但強(qiáng)度中等(相關(guān)系數(shù)在0.2-0.4之間)。這說明穩(wěn)定秩捕捉的是質(zhì)量的一個(gè)重要方面,但并非全部。
其次,穩(wěn)定秩方法在代碼生成任務(wù)上的表現(xiàn)相對較弱。當(dāng)輸入被截?cái)嗟?28個(gè)token時(shí),代碼類別的準(zhǔn)確率從87.91%驟降到24.80%,這說明代碼的質(zhì)量判斷可能更依賴于完整的程序邏輯結(jié)構(gòu)。
另外,目前的研究主要集中在英文文本上,穩(wěn)定秩在其他語言上的表現(xiàn)還需要進(jìn)一步驗(yàn)證。不同語言的語法結(jié)構(gòu)和表達(dá)習(xí)慣可能會影響穩(wěn)定秩的有效性。
未來的研究方向包括:探索穩(wěn)定秩與其他質(zhì)量信號的組合使用、開發(fā)針對特定領(lǐng)域(如代碼、數(shù)學(xué)、創(chuàng)意寫作)的優(yōu)化版本、以及將穩(wěn)定秩方法擴(kuò)展到多模態(tài)任務(wù)中。
說到底,這項(xiàng)研究為AI大語言模型的訓(xùn)練開辟了一條全新的道路。通過直接從模型內(nèi)部幾何結(jié)構(gòu)中提取質(zhì)量信號,我們不再需要完全依賴昂貴的人工標(biāo)注或容易被操控的外部獎(jiǎng)勵(lì)模型。穩(wěn)定秩就像是AI模型的"內(nèi)在指南針",能夠幫助它們在生成過程中自主地追求更高的質(zhì)量。
這種方法的價(jià)值不僅在于提升了模型性能,更在于它展示了一種全新的思路:與其試圖從外部告訴AI什么是好的,不如教會它從內(nèi)部感知什么是好的。這種內(nèi)在的質(zhì)量感知能力,可能是未來AI系統(tǒng)走向真正智能的重要一步。雖然目前穩(wěn)定秋方法還有一些局限性,但它已經(jīng)證明了內(nèi)在幾何結(jié)構(gòu)作為質(zhì)量信號的巨大潛力。
隨著這一研究的深入,我們有理由期待未來的AI系統(tǒng)將變得更加自主、高效和可靠。對于普通用戶而言,這意味著更好的AI助手、更準(zhǔn)確的自動生成內(nèi)容以及更少的"AI胡說八道"現(xiàn)象。而對于AI研究界,這項(xiàng)工作提供了一個(gè)全新的研究方向,可能會催生出更多創(chuàng)新的訓(xùn)練方法和評估技術(shù)。
Q&A
Q1:穩(wěn)定秩是什么,為什么能判斷AI回答質(zhì)量?
A:穩(wěn)定秩是一個(gè)數(shù)學(xué)概念,用來測量AI模型內(nèi)部數(shù)字表示的"分布均勻程度"。當(dāng)AI生成高質(zhì)量回答時(shí),它需要協(xié)調(diào)多個(gè)知識領(lǐng)域,這會在內(nèi)部產(chǎn)生多維度的激活模式,導(dǎo)致穩(wěn)定秋值較高;而低質(zhì)量回答往往對應(yīng)單一或混亂的思維模式,穩(wěn)定秩值較低。
Q2:SR-GRPO訓(xùn)練方法比傳統(tǒng)方法好在哪里?
A:SR-GRPO最大的優(yōu)勢是不需要人工標(biāo)注數(shù)據(jù),能夠讓AI通過監(jiān)測自身的內(nèi)部狀態(tài)來自動提升質(zhì)量。實(shí)驗(yàn)顯示,在數(shù)學(xué)推理任務(wù)上,SR-GRPO比傳統(tǒng)獎(jiǎng)勵(lì)模型方法提升了10-19個(gè)百分點(diǎn),而且訓(xùn)練成本更低,適用范圍更廣。
Q3:普通人什么時(shí)候能用到這項(xiàng)技術(shù)?
A:這項(xiàng)技術(shù)主要用于改進(jìn)AI大語言模型的訓(xùn)練過程,普通用戶不會直接接觸到穩(wěn)定秩計(jì)算。但隨著這種方法的應(yīng)用,未來的AI助手、聊天機(jī)器人和自動寫作工具的回答質(zhì)量會變得更好,出現(xiàn)胡言亂語的情況會大幅減少。





京公網(wǎng)安備 11011402013531號