近日,meta 的人工智能研究團隊與愛丁堡大學合作,開發了一種新技術,能夠預測大型語言模型(LLM)推理的正確性,并在發現錯誤時進行修復。這種名為電路基礎推理驗證(CRV)的方法,旨在深入觀察 LLM 的內部 “推理電路”,以便在模型解決問題時檢測出計算錯誤的跡象。
研究表明,CRV 可以通過構建并觀察模型內部激活的計算圖,以高準確率檢測到 LLM 的推理錯誤。這一突破性的發現意味著研究人員可以利用深層次的內部信息,對模型的錯誤推理進行針對性的干預。
鏈式思維推理(CoT)作為一種提升 LLM 在復雜任務上表現的方法,已經被廣泛應用,但它的可靠性依然存在問題。現有的驗證方法主要分為兩類:“黑箱” 方法通過分析最終生成的 token 或置信度分數來驗證;“灰箱” 方法則試圖觀察模型的內部狀態,然而這些方法并不能解釋計算失敗的根本原因。
CRV 采用了一種 “白箱” 驗證方法,認為模型在執行任務時會使用專門的神經元子圖。通過替換標準的稠密層為訓練過的 “轉碼器”,研究人員使目標 LLM 變得可解釋,從而可以觀察到其內部工作原理。接著,CRV 會構建一個 “歸因圖”,映射信息在模型各個部分之間的因果流動,并提取出描述圖特性的 “結構指紋”。最終,訓練一個 “診斷分類器” 來預測推理步驟是否正確。
研究團隊在 Llama3.1模型上進行了實驗,結果表明,CRV 在各種數據集和指標上均優于其他驗證方法,展現了其強大的有效性。同時,研究發現,不同推理任務中的錯誤簽名具有領域特異性,這意味著不同類型的推理依賴于不同的內部電路。
最重要的是,CRV 不僅僅是相關性分析,它提供了一種透明的計算視圖,使得預測的失敗可以追溯到特定組件,研究人員因此可以通過抑制錯誤特征,實時修正模型的推理路徑。
劃重點:





京公網安備 11011402013531號