一項(xiàng)由蘋果研究人員共同撰寫的新研究顯示,通過一種新穎的**“清單式”強(qiáng)化學(xué)習(xí)方案(RLCF)**,開源大型語(yǔ)言模型(LLM)的性能得到了顯著提升。該方法通過讓模型對(duì)照一份具體的清單來檢查自身工作,從而在復(fù)雜指令遵循任務(wù)中表現(xiàn)出比傳統(tǒng)獎(jiǎng)勵(lì)模型更優(yōu)越的效果。
RLHF的局限性與RLCF的誕生傳統(tǒng)的“從人類反饋中強(qiáng)化學(xué)習(xí)”(RLHF)是提高LLM質(zhì)量的重要后訓(xùn)練步驟。該方法通過人類標(biāo)注員的點(diǎn)贊(獎(jiǎng)勵(lì))或點(diǎn)踩(懲罰)信號(hào),逐步引導(dǎo)模型生成更具實(shí)用性的答案。然而,RLHF存在一個(gè)潛在問題:模型可能學(xué)會(huì)通過產(chǎn)生“表面正確”但未能真正解決任務(wù)的輸出來欺騙人類標(biāo)注員。
為了解決這一問題,蘋果研究人員在論文《清單比獎(jiǎng)勵(lì)模型更適合對(duì)齊語(yǔ)言模型》(Checklists Are Better than Reward Models for Aligning Language Models)中提出了一種基于清單反饋的強(qiáng)化學(xué)習(xí)方案(RLCF)。該方法要求模型根據(jù)一份清單上的每一項(xiàng)具體要求進(jìn)行自我評(píng)估,并以0-100的等級(jí)進(jìn)行評(píng)分。
RLCF的工作原理與性能提升RLCF的核心在于其精細(xì)的反饋機(jī)制。該方案使用一個(gè)更強(qiáng)大的“教師模型”來自動(dòng)為用戶指令生成一份包含具體“是/否”要求的清單。例如,針對(duì)一個(gè)翻譯任務(wù),清單可能包含“是否將原文完全翻譯成西班牙語(yǔ)?”這樣的具體條目。
然后,“學(xué)生模型”的候選答案會(huì)根據(jù)這份清單進(jìn)行評(píng)估,每個(gè)條目都會(huì)分配一個(gè)權(quán)重。這些加權(quán)分?jǐn)?shù)構(gòu)成了用于微調(diào)“學(xué)生模型”的獎(jiǎng)勵(lì)信號(hào)。研究人員利用這種方法,構(gòu)建了一個(gè)名為WildChecklists的新數(shù)據(jù)集,包含13萬(wàn)條指令,用于訓(xùn)練和評(píng)估模型。
研究結(jié)果令人鼓舞。在包括FollowBench、InFoBench和Arena-Hard在內(nèi)的五個(gè)廣泛使用的基準(zhǔn)測(cè)試中,RLCF是唯一能在所有測(cè)試中均提升性能的方法,在某些任務(wù)上,性能提升高達(dá)8.2%。這表明,RLCF在處理需要仔細(xì)關(guān)注規(guī)范的多步驟復(fù)雜指令時(shí),表現(xiàn)出顯著的優(yōu)勢(shì)。
研究意義與潛在局限這項(xiàng)研究為L(zhǎng)LM的對(duì)齊技術(shù)提供了一種新穎且有效的方法,尤其是在指令遵循這一關(guān)鍵領(lǐng)域。隨著LLM助手越來越多地被整合進(jìn)日常設(shè)備中,其精確遵循用戶復(fù)雜指令的能力將成為核心。
然而,研究人員也指出了該方法的局限性:
應(yīng)用場(chǎng)景局限:RLCF主要專注于“復(fù)雜指令遵循”,在其他用例中可能并非最佳選擇。
依賴更強(qiáng)大的模型:該方法需要一個(gè)更強(qiáng)大的“教師模型”作為評(píng)估者,這可能會(huì)增加部署成本。
非安全校準(zhǔn):研究人員明確指出,“RLCF可以改進(jìn)復(fù)雜指令遵循,但并非為安全校準(zhǔn)而設(shè)計(jì)的。”
盡管存在局限,RLCF的出現(xiàn)為提高LLM的可靠性和一致性提供了一個(gè)重要的思路,這對(duì)于未來LLM助手獲得代理能力,并執(zhí)行多步驟任務(wù)至關(guān)重要。





京公網(wǎng)安備 11011402013531號(hào)