![]()
近年來,針對視覺語言大模型(LVLMs)中物體幻覺的緩解方法逐漸受到廣泛關注。在現有工作中,基于注意力調控的解碼優化方法在抑制幻覺任務上取得一定進展,但仍普遍存在如下問題:
多數方法獨立作用于視覺或文本單一模態的注意力,忽視了雙模態注意力交互失衡這一核心誘因。缺乏對解碼過程中跨模態依賴關系的量化衡量,導致干預機制粗放,缺乏理論指導。
為了解決上述問題,該論文提出 Owl,一種基于因果關系的雙路徑注意力干預框架,用于緩解視覺語言大模型中的物體幻覺。
論文的作者包括電子科技大學的余柳(第一作者)、陳忠昊、匡平(通訊作者)、馮志坤、周帆、 王嵐和奧克蘭大學的 Gillian Dobbie 教授。
![]()
論文標題:Causally-Grounded Dual-Path Attention Intervention for Object Hallucination Mitigation in LVLMs論文地址:https://arxiv.org/pdf/2511.09018
首先,該論文提出一個結構因果模型(如圖 1),將分解后的視覺與文本注意力形式化為關鍵的中介變量,視覺 / 文本輸入、視覺 / 文本注意力、視覺 / 文本先驗以及語言輸出等關鍵變量。模型清晰地表明,視覺與文本先驗這兩個混雜因子,會通過扭曲對應的注意力(中介變量)來影響輸出,最終導致幻覺。
![]()
圖1 Owl 的結構因果模型
其次,該論文提出了 VTACR 指標,通過計算當前生成 token 對所有視覺 token 的平均注意力與對所有文本 token 的平均注意力之比,來量化模型在每一解碼層對兩種模態的依賴程度,為細粒度的注意力干預提供了可量化的信號指導。
![]()
![]()
![]()
最后,提出了雙路徑對比注意力干預方法,通過構建一個視覺增強路徑與一個文本增強路徑,并利用對比解碼策略放大二者差異,從而動態糾正注意力偏差,在抑制幻覺的同時保持了生成的流暢性與豐富性。
![]()
圖2 Owl幻覺緩解框架
在推理過程中,Owl 框架首先對語言解碼器的注意力進行分層分解,將每個解碼層的注意力權重明確劃分為視覺注意力和文本注意力兩部分。基于從大量樣本統計得到的 VTACR 分布,框架自適應地沿著兩條路徑調制注意力:在視覺增強路徑中,提升對圖像 token 的關注并抑制文本歷史的影響;在文本增強路徑中,則強化文本依賴并削弱視覺信號。通過這種雙路徑對比解碼策略,模型能夠顯著放大忠實預測與幻覺內容之間的差異,從而在抑制幻覺對象的同時,有效保留正確的預測結果。
實驗結果
該論文在三個代表性的 LVLMs 上評估了 Owl 方法:LLaVA-1.5、MiniGPT-4 和 Shikra。對比基線包括傳統解碼策略(如集束搜索、貪心解碼)以及當前先進的抗幻覺方法,如 VCD、PAI、OPERA 和 CausalMM,確保評估的全面性與公平性。
在 CHAIR 基準上,Owl 在句子級與實例級幻覺指標上均顯著優于所有基線。例如,在 LLaVA-1.5 上,Owl 將句子級幻覺降低 17.6%,實例級降低 21.4%,同時生成了更長的文本,說明 Owl 在抑制幻覺的同時未犧牲內容豐富度。
![]()
表1 CHAIR基準實驗結果
為驗證 Owl 是否影響基本理解能力,該論文在五個 VQA 任務上進行了測試。圖 3 結果顯示,Owl 在多數任務上性能持平甚至略有提升,如在 VizWiz 上提升 7.6%,說明 Owl 方法在抑制幻覺的同時,反而增強了模型在復雜視覺場景下的理解能力。
![]()
圖3 不同視覺語言模型在五個 VQA 基準和三個常見基準上的性能比較
該論文也使用 GPT-4V 對生成內容進行人工對齊評估,圖 4 展示了 Owl 在 “Correctness” 和 “Detailedness” 上均有提升。以 LLaVA-1.5 為例,正確性提升 20.1%,詳細度提升 11.3%,說明生成內容不僅更忠實于圖像,也更具信息量。
![]()
圖4 在 MSCOCO 數據集上使用 GPT-4V 進行的幻覺評估
論文展示了多個典型幻覺案例,Owl 通過雙路徑對比解碼,有效抑制了這類錯誤,生成結果更貼合圖像真實內容。圖 5 揭示了 Owl 的內部工作機制:通過對比解碼策略,它像一位精準的編輯,在模型生成每個詞的瞬間,抑制由語言慣性引發的 “幻覺詞匯”(紅色),并提升忠于圖像的 “正確詞匯”(綠色)的優先級。圖 6 則展示了 Owl 的最終成效:在面對多種易混淆的真實場景時,相比其他模型常 “無中生有”,Owl 能像一位嚴謹的偵探,始終堅守視覺證據,輸出穩定而準確的結果。
![]()
圖5 模型生成的Top-4 token邏輯值可視化
![]()
圖6 POPE基準的定性案例對比
第一作者信息
余柳,電子科技大學博士生,在 ACL、AAAI、SIGIR、MM 等高水平會議和期刊發表論文 10 余篇,研究方向包括生成式 AI 的內生安全、幻覺和偏見的緩解負責任的 AI,社交網絡、信息傳播、虛假信息檢測等。





京公網安備 11011402013531號