![]()
這項由中科院計算技術(shù)研究所的倪世宇、畢克平、郭嘉豐、唐明昊等研究人員與華為團隊合作完成的重要研究,發(fā)表于2025年10月的預(yù)印本論文(arXiv:2510.17509v1),為解決大語言模型的誠信對齊難題提供了突破性方案。有興趣深入了解的讀者可以通過論文編號arXiv:2510.17509v1查詢完整論文。
當(dāng)前的大語言模型就像一個博學(xué)但有時過于自信的朋友,它們在回答問題時往往表現(xiàn)得信心滿滿,即使對答案并不確定。這種現(xiàn)象被稱為"過度自信"問題,就好比一個學(xué)生明明對某道題沒有把握,卻在考試時寫得非常肯定。這不僅會誤導(dǎo)用戶,更可能在關(guān)鍵決策中造成嚴(yán)重后果。
研究團隊發(fā)現(xiàn),現(xiàn)有的解決方案主要分為兩大類:一類是不需要額外訓(xùn)練的方法,比如通過分析模型生成文本的概率來判斷其置信度,或者讓模型多次回答同一問題來看答案的一致性;另一類則需要大量人工標(biāo)注的正確答案來訓(xùn)練模型表達(dá)準(zhǔn)確的置信度。第二類方法雖然效果更好,但成本極高,就像為了教會孩子區(qū)分對錯,需要為每道題都提供標(biāo)準(zhǔn)答案一樣費時費力。
面對這個困境,研究團隊提出了一個巧妙的解決方案,他們稱之為"EliCal"(先激發(fā)后校準(zhǔn))框架。這個方法的核心思想是:如果能先用便宜的方式教會模型表達(dá)置信度,那么后續(xù)只需要少量的正確答案就能完成精確校準(zhǔn)。
一、兩階段訓(xùn)練:化繁為簡的智慧策略
EliCal框架的工作原理就像訓(xùn)練一個優(yōu)秀的醫(yī)生診斷疾病。第一階段相當(dāng)于讓醫(yī)學(xué)生大量觀察病例,學(xué)會根據(jù)癥狀的一致性來判斷自己的診斷信心。如果一個患者的多個癥狀都指向同一種疾病,那就更有信心;如果癥狀相互矛盾,就應(yīng)該更謹(jǐn)慎。這個階段使用的是"自一致性"信號,類似于讓模型對同一問題回答多次,看答案是否保持一致。
具體來說,研究人員發(fā)現(xiàn)當(dāng)模型對某個問題的多次回答高度一致時,它答對的概率也更高。這種現(xiàn)象為第一階段的訓(xùn)練提供了免費的監(jiān)督信號。通過大規(guī)模的自一致性訓(xùn)練,模型學(xué)會了內(nèi)化這種判斷規(guī)律,能夠在單次回答時就表達(dá)出準(zhǔn)確的置信度,而不需要反復(fù)生成多個答案。
第二階段則像是給這位已經(jīng)具備基本判斷能力的醫(yī)生提供少量的確診案例,幫助其校準(zhǔn)判斷標(biāo)準(zhǔn)。這時只需要很少的人工標(biāo)注數(shù)據(jù),就能讓模型的置信度表達(dá)與實際準(zhǔn)確性完美對齊。
二、創(chuàng)新架構(gòu):在不損害原有能力的前提下增強誠信
為了確保訓(xùn)練過程不會損害模型原有的問答能力,研究團隊采用了一種巧妙的技術(shù)架構(gòu)。他們沒有直接修改模型的核心參數(shù),而是使用了低秩適應(yīng)(LoRA)技術(shù),這就像在原有的精密機械上安裝一個小巧的傳感器,既能獲得新的感知能力,又不會影響原有功能。
具體實現(xiàn)上,研究團隊在模型的最后一層添加了一個線性頭部,專門用于輸出置信度分?jǐn)?shù)。這個設(shè)計使得模型能夠在回答問題之前就給出置信度預(yù)測,避免了傳統(tǒng)方法需要多次采樣的計算開銷。整個訓(xùn)練過程使用均方誤差作為損失函數(shù),確保模型學(xué)會準(zhǔn)確預(yù)測自己的表現(xiàn)。
三、HonestyBench基準(zhǔn):構(gòu)建全面評估體系
為了支持大規(guī)模研究和公平比較,研究團隊還構(gòu)建了一個名為HonestyBench的綜合基準(zhǔn)數(shù)據(jù)集。這個數(shù)據(jù)集整合了十個廣泛使用的開放式問答數(shù)據(jù)集,包含超過56萬個訓(xùn)練樣本和7萬個評估樣本,覆蓋了單跳問答、多跳推理和模板生成等多種問題類型。
HonestyBench的獨特之處在于為每個模型-問題對提供了詳細(xì)的標(biāo)注信息。研究團隊使用三個代表性的開源大語言模型(Qwen2.5-7B-Instruct、Qwen2.5-14B-Instruct和Llama3-8B-Instruct)生成了大量回答,并對每個回答進(jìn)行了正確性和自一致性標(biāo)注。這種設(shè)計使得研究者能夠在統(tǒng)一標(biāo)準(zhǔn)下比較不同方法的效果。
數(shù)據(jù)集還特別設(shè)計了域內(nèi)和域外兩種評估場景。域內(nèi)評估使用訓(xùn)練數(shù)據(jù)集的測試集,而域外評估則引入了五個額外的問答數(shù)據(jù)集,包括SQuAD、WebQuestions等知名基準(zhǔn)。這種設(shè)計能夠全面測試方法的泛化能力,確保研究結(jié)果的可靠性。
四、實驗驗證:用數(shù)據(jù)說話的效果證明
研究團隊進(jìn)行了大規(guī)模的實驗驗證,結(jié)果令人印象深刻。在對比各種訓(xùn)練方法時,他們發(fā)現(xiàn)EliCal僅使用1000個正確性標(biāo)注(約占全部監(jiān)督數(shù)據(jù)的0.18%)就能達(dá)到使用全部56萬個標(biāo)注數(shù)據(jù)訓(xùn)練的校準(zhǔn)方法約98%的性能。這個結(jié)果就像用一把鑰匙就能打開原本需要一大串鑰匙才能打開的門。
更重要的是,EliCal在未見過的MMLU任務(wù)上表現(xiàn)出了優(yōu)異的泛化能力。MMLU是一個多選題基準(zhǔn),其問題格式與訓(xùn)練時使用的開放式問答完全不同。即使在這種挑戰(zhàn)性場景下,EliCal訓(xùn)練的模型仍然顯著優(yōu)于僅使用校準(zhǔn)方法訓(xùn)練的模型,這證明了該方法學(xué)到的是更本質(zhì)的置信度表達(dá)能力,而非特定任務(wù)的擬合。
研究團隊還發(fā)現(xiàn),傳統(tǒng)的訓(xùn)練方法在數(shù)據(jù)量有限時往往表現(xiàn)不佳,甚至不如最好的無訓(xùn)練方法。這就像試圖用很少的例子教會孩子復(fù)雜的概念,往往事倍功半。相比之下,EliCal通過兩階段設(shè)計有效解決了這個問題,在各種數(shù)據(jù)規(guī)模下都表現(xiàn)出色。
五、技術(shù)細(xì)節(jié):精心設(shè)計的實現(xiàn)方案
在技術(shù)實現(xiàn)上,研究團隊展現(xiàn)了精湛的工程能力。他們使用強大的Qwen2.5-32B-Instruct模型來評估答案的正確性和語義一致性,確保標(biāo)注質(zhì)量的可靠性。對于答案生成,他們采用了貪婪搜索生成主答案,同時使用溫度采樣生成20個候選答案來計算自一致性信號。
置信度的計算基于語義一致性比例,即主答案與候選答案中語義相同的比例。這種方法避免了簡單的詞匯匹配可能帶來的誤判,能夠更準(zhǔn)確地反映模型的真實置信度。所有的語義一致性判斷都通過精心設(shè)計的提示詞完成,確保評估的準(zhǔn)確性和一致性。
訓(xùn)練過程采用了AdamW優(yōu)化器和均方誤差損失函數(shù),批次大小設(shè)為16,梯度累積步數(shù)為8。研究團隊還使用了專門的SFTTrainer進(jìn)行訓(xùn)練,所有的檢查點選擇都基于域內(nèi)測試集的表現(xiàn),確保模型選擇的客觀性。
六、深入分析:洞察方法成功的關(guān)鍵因素
通過深入的消融實驗,研究團隊揭示了EliCal成功的關(guān)鍵因素。他們發(fā)現(xiàn),置信度激發(fā)階段的訓(xùn)練數(shù)據(jù)規(guī)模對最終效果有重要影響。隨著訓(xùn)練數(shù)據(jù)的增加,模型的置信度表達(dá)能力逐步提升,最終接近自一致性方法的上限。這證明了大語言模型確實具備學(xué)習(xí)內(nèi)在置信度表達(dá)的能力。
研究團隊還測試了僅使用線性頭部的簡化版本,發(fā)現(xiàn)雖然這種設(shè)計參數(shù)更少,訓(xùn)練更快,但表現(xiàn)略遜于完整的LoRA版本。這說明適度的參數(shù)增加和模型交互對于學(xué)習(xí)復(fù)雜的置信度模式是必要的。
在評估指標(biāo)方面,除了廣泛使用的AUROC(接收者操作特征曲線下面積)外,研究團隊還采用了ECE(期望校準(zhǔn)誤差)和對齊度等多種指標(biāo)。結(jié)果顯示EliCal在各種指標(biāo)上都表現(xiàn)出色,證明了方法的全面性和可靠性。
特別值得關(guān)注的是,EliCal學(xué)會的置信度表達(dá)能夠直接用于二元決策。通過設(shè)定合適的閾值,模型可以判斷是否應(yīng)該回答某個問題,這對于實際應(yīng)用中的可靠性控制具有重要意義。就像一個負(fù)責(zé)任的專家會在不確定時選擇承認(rèn)"不知道",而不是給出可能錯誤的答案。
說到底,這項研究解決的是讓AI系統(tǒng)變得更加誠實可信的根本問題。在AI技術(shù)日益普及的今天,模型的誠信對齊不僅是技術(shù)問題,更是關(guān)系到AI安全和可信度的重要議題。EliCal框架通過巧妙的兩階段設(shè)計,在大幅降低標(biāo)注成本的同時實現(xiàn)了優(yōu)異的性能,為構(gòu)建更可靠的AI系統(tǒng)提供了重要技術(shù)路徑。
這種方法的意義遠(yuǎn)超技術(shù)層面。當(dāng)AI助手能夠準(zhǔn)確判斷自己的知識邊界時,它們就能在確定的問題上提供可靠幫助,在不確定的問題上尋求外部援助或坦誠告知用戶其局限性。這將大大提升人們對AI系統(tǒng)的信任,推動AI技術(shù)在關(guān)鍵應(yīng)用領(lǐng)域的安全部署。
研究團隊承諾將開源所有代碼、HonestyBench數(shù)據(jù)集和訓(xùn)練好的模型,這將為后續(xù)研究提供寶貴資源。他們的工作為實現(xiàn)真正可信的通用人工智能邁出了重要一步,值得學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。
Q&A
Q1:EliCal框架的兩階段訓(xùn)練具體是怎么工作的?
A:EliCal的第一階段通過自一致性信號訓(xùn)練模型表達(dá)置信度,就像讓模型學(xué)會根據(jù)多次回答的一致性來判斷自信程度。第二階段使用少量正確答案標(biāo)注來精確校準(zhǔn)這種置信度表達(dá),確保模型的自信程度與實際準(zhǔn)確性保持一致。
Q2:為什么EliCal只需要很少的標(biāo)注數(shù)據(jù)就能達(dá)到好效果?
A:因為EliCal將置信度學(xué)習(xí)分為兩個步驟:先用免費的自一致性信號教會模型基本的置信度表達(dá)能力,然后只需少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào)校準(zhǔn)。這就像先讓學(xué)生掌握基本概念,再用少量練習(xí)題精確調(diào)整,比從零開始訓(xùn)練效率高得多。
Q3:HonestyBench數(shù)據(jù)集有什么特殊之處?
A:HonestyBench整合了10個問答數(shù)據(jù)集,包含超過56萬訓(xùn)練樣本和7萬評估樣本,為每個問題都提供了正確性和自一致性雙重標(biāo)注。它還設(shè)計了域內(nèi)外兩種評估場景,能夠全面測試方法的泛化能力,是目前最大規(guī)模的誠信對齊評估基準(zhǔn)。





京公網(wǎng)安備 11011402013531號