?Meta 研究人員揭開大語言模型黑箱，修復 AI 推理缺陷

IP屬地中國·北京 編輯：楊凌霄 Chinaz 時間：2025-10-31 10:17:35

近日，meta 的人工智能研究團隊與愛丁堡大學合作，開發了一種新技術，能夠預測大型語言模型（LLM）推理的正確性，并在發現錯誤時進行修復。這種名為電路基礎推理驗證(CRV)的方法，旨在深入觀察 LLM 的內部 “推理電路”，以便在模型解決問題時檢測出計算錯誤的跡象。
研究表明，CRV 可以通過構建并觀察模型內部激活的計算圖，以高準確率檢測到 LLM 的推理錯誤。這一突破性的發現意味著研究人員可以利用深層次的內部信息，對模型的錯誤推理進行針對性的干預。
鏈式思維推理（CoT）作為一種提升 LLM 在復雜任務上表現的方法，已經被廣泛應用，但它的可靠性依然存在問題。現有的驗證方法主要分為兩類:“黑箱” 方法通過分析最終生成的 token 或置信度分數來驗證;“灰箱” 方法則試圖觀察模型的內部狀態，然而這些方法并不能解釋計算失敗的根本原因。
CRV 采用了一種 “白箱” 驗證方法，認為模型在執行任務時會使用專門的神經元子圖。通過替換標準的稠密層為訓練過的 “轉碼器”，研究人員使目標 LLM 變得可解釋，從而可以觀察到其內部工作原理。接著，CRV 會構建一個 “歸因圖”，映射信息在模型各個部分之間的因果流動，并提取出描述圖特性的 “結構指紋”。最終，訓練一個 “診斷分類器” 來預測推理步驟是否正確。
研究團隊在 Llama3.1模型上進行了實驗，結果表明，CRV 在各種數據集和指標上均優于其他驗證方法，展現了其強大的有效性。同時，研究發現，不同推理任務中的錯誤簽名具有領域特異性，這意味著不同類型的推理依賴于不同的內部電路。
最重要的是，CRV 不僅僅是相關性分析，它提供了一種透明的計算視圖，使得預測的失敗可以追溯到特定組件，研究人員因此可以通過抑制錯誤特征，實時修正模型的推理路徑。
劃重點:

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

太空“4S店”要開張：Starfish驗證“單眼”衛星交會PRO操作

太狠了！奧特曼親手「干掉」GPT-5.2，OpenAI祭出最強編程AI

AI時代，尋找超級創業者！徐匯區發布政策扶持一個人賽過一群人的“大牛”

小米澎湃OS 3上線2026年元旦限定水印，三種版式自由選擇

郭臺銘，關鍵時刻，還是靠了祖國大陸

港股無人礦卡第一股誕生！大疆教父李澤湘敲鐘，紅杉百度聯手押注

全站最新

太空“4S店”要開張：Starfish驗證“單眼”衛星交會PRO操作

太狠了！奧特曼親手「干掉」GPT-5.2，OpenAI祭出最強編程AI

AI時代，尋找超級創業者！徐匯區發布政策扶持一個人賽過一群人的“大牛”

小米澎湃OS 3上線2026年元旦限定水印，三種版式自由選擇

熱門推薦

太空“4S店”要開張：Starfish驗證“單眼”衛星交會PRO操作

太狠了！奧特曼親手「干掉」GPT-5.2，OpenAI祭出最強編程AI

AI時代，尋找超級創業者！徐匯區發布政策扶持一個人賽過一群人的“大牛”

小米澎湃OS 3上線2026年元旦限定水印，三種版式自由選擇

郭臺銘，關鍵時刻，還是靠了祖國大陸

港股無人礦卡第一股誕生！大疆教父李澤湘敲鐘，紅杉百度聯手押注

科技范兒·在現場｜“AI+智能座艙”讓每次出發都是“懂你的陪伴”

一份報告，勾勒AI邁向2049之路

消息稱納德拉整頓微軟管理層：不適應AI高壓節奏就走人

TIGIT的轉機還會出現嗎？

明年新能源汽車銷量將超2000萬輛

增長神話暫停，理想“尖子生”光環失效？

華人博士在英國做出顛覆性人機交互“皮膚”，已用于汽車、醫療

美國眾議院通過《Speed Act》 2026年?AI基建有望邁入加速階段

站在2025年底，小紅書商業正跨過一個新門檻