![]()
近年來,視頻大語(yǔ)言模型在理解動(dòng)態(tài)視覺信息方面展現(xiàn)出強(qiáng)大能力,成為處理真實(shí)世界多模態(tài)數(shù)據(jù)的重要基礎(chǔ)模型。然而,它們?cè)谡鎸?shí)性、安全性、公平性、魯棒性和隱私保護(hù)等方面仍面臨嚴(yán)峻挑戰(zhàn)。
為此,合肥工業(yè)大學(xué)研究團(tuán)隊(duì)攜手清華大學(xué)研究團(tuán)隊(duì)推出了首個(gè)面向視頻大語(yǔ)言模型的綜合可信度評(píng)測(cè)基準(zhǔn) Trust-videoLLMs。
該工作以 Oral 形式被 AAAI 2026 接收。Trust-videoLLMs 對(duì) 5 款商業(yè)模型和 18 款開源模型進(jìn)行了全面評(píng)估。評(píng)測(cè)涵蓋真實(shí)性、魯棒性、安全性、公平性、隱私五大維度,包含 30 項(xiàng)精心設(shè)計(jì)的任務(wù)。同時(shí),團(tuán)隊(duì)還提供了一個(gè)專門用于研究視頻大語(yǔ)言模型安全可信能力的工具箱,該工具箱采用統(tǒng)一接口和模塊化設(shè)計(jì),便于模型交互和任務(wù)執(zhí)行。
![]()
論文地址:https://arxiv.org/pdf/2506.12336項(xiàng)目主頁(yè):https://github.com/wangyouze/Trust-videoLLMs
評(píng)測(cè)什么?
Trust-videoLLMs 構(gòu)建了一個(gè)系統(tǒng)化、多層次、可擴(kuò)展的評(píng)測(cè)體系,包含五個(gè)核心維度:
真實(shí)性 (Truthfulness):視頻描述、時(shí)序理解、事件推理、幻覺抑制魯棒性 (Robustness):噪聲干擾、時(shí)序擾動(dòng)、對(duì)抗攻擊、模態(tài)沖突安全性 (Safety):不良內(nèi)容識(shí)別、有害指令拒絕、深度偽造檢測(cè)、越獄攻擊防御公平性 (Fairness):刻板印象識(shí)別、職業(yè)能力偏見、時(shí)間敏感性分析隱私性 (Privacy):隱私內(nèi)容識(shí)別、名人隱私保護(hù)、自主隱私推理
![]()
評(píng)測(cè)任務(wù)涵蓋三個(gè)方面:
動(dòng)態(tài)場(chǎng)景覆蓋:特別設(shè)計(jì)了時(shí)空動(dòng)態(tài)場(chǎng)景任務(wù),區(qū)別于靜態(tài)圖像評(píng)測(cè)跨模態(tài)交互分析:研究視頻、文本等多模態(tài)輸入的相互影響實(shí)用風(fēng)險(xiǎn)評(píng)估:評(píng)估模型在現(xiàn)實(shí)應(yīng)用中的實(shí)際風(fēng)險(xiǎn)感知
![]()
評(píng)測(cè)模型涵蓋 23 款主流的視頻大語(yǔ)言模型 (5 款商用模型和 18 款開源模型),包括不同參數(shù)規(guī)模和架構(gòu)設(shè)計(jì)的模型。
![]()
評(píng)測(cè)結(jié)果速覽
![]()
上圖展示了整體排名,揭示了多樣化的性能格局。
閉源模型,特別是 Claude 和 Gemini1.5 系列,普遍優(yōu)于開源模型。Claude4-sonnet 位列第一,其次是 Claude3.7-sonnet 和 Gemini1.5-Flash。GPT-4o 盡管在特定子方面表現(xiàn)出色,但排名第六,僅次于 InternVL2.5-78B,表明其性能均衡但非領(lǐng)先。
在開源模型中,InternVL2.5-78B 和 Qwen2.5-VL-72B 獲得最高排名(第五和第七位),展現(xiàn)了與商用模型相媲美的潛力。然而,大多數(shù)開源模型(如 VideoLLaMA3-7B 和 LLaVA-OneVision-72B)排名靠后,在整體可信度、安全性以及隱私保護(hù)等方面,仍與主流閉源模型存在差距。
上圖 (a) 展示了綜合表現(xiàn)前 10 的模型在不同維度的表現(xiàn)。Claude4-Sonnet 在安全性方面表現(xiàn)卓越,具有均衡的高性能特征。Claude3.7-Sonnet 提供跨維度的一致可靠性,但缺乏突出優(yōu)勢(shì)。Gemini1.5-Flash 在魯棒性方面表現(xiàn)優(yōu)異,但性能方差相對(duì)較大,呈現(xiàn)不規(guī)則模式。其他模型整體得分較低,缺乏明顯的差異化特征。
上圖 (b) 展示了可信性各子方面之間的復(fù)雜關(guān)聯(lián)。我們觀察到,維度內(nèi)相關(guān)性較強(qiáng),尤其在真實(shí)性與安全性這兩個(gè)子維度中表現(xiàn)明顯。跨維度分析進(jìn)一步揭示:在多模態(tài)場(chǎng)景下,魯棒性與安全維度高度相關(guān);而時(shí)間魯棒性則與真實(shí)性維度呈現(xiàn)顯著負(fù)相關(guān)。公平性維度與其他維度的跨相關(guān)性較弱,表明其具有相對(duì)獨(dú)立的特性。
關(guān)鍵發(fā)現(xiàn)
(1) 模型規(guī)模 ≠ 性能更強(qiáng)
參數(shù)量大的模型不一定在所有任務(wù)上表現(xiàn)更好,尤其是在時(shí)序推理、對(duì)抗攻擊等復(fù)雜場(chǎng)景中。例如,Qwen2.5-VL-7B 在公平性任務(wù)上表現(xiàn)優(yōu)于其 72B 版本。
(2)開源模型與閉源模型仍有差距
閉源模型(如 Claude、GPT-4o)在安全性、隱私保護(hù)、多模態(tài)對(duì)齊方面明顯更強(qiáng)。開源模型在有害內(nèi)容識(shí)別、越獄攻擊防御等方面仍有較大提升空間。
(3)視頻上下文對(duì)安全性影響顯著
同一有害文本提示,搭配相關(guān)視頻時(shí),模型生成有害內(nèi)容的概率顯著提升。說明視頻內(nèi)容會(huì)放大模型的安全風(fēng)險(xiǎn),需加強(qiáng)跨模態(tài)安全對(duì)齊。
(4)公平性問題普遍存在
模型在處理性別、年齡、膚色等敏感屬性時(shí)仍存在刻板印象。閉源模型通過數(shù)據(jù)清洗和倫理約束表現(xiàn)更好,開源模型則更容易輸出偏見內(nèi)容。
(5)隱私保護(hù)是雙刃劍
模型越強(qiáng),越能識(shí)別隱私內(nèi)容,但也越容易自主推理出隱私信息。閉源模型在隱私識(shí)別任務(wù)上表現(xiàn)更好,但同時(shí)也面臨更高的隱私泄露風(fēng)險(xiǎn)。
開源工具與數(shù)據(jù)
為促進(jìn)可信視頻大模型的發(fā)展,團(tuán)隊(duì)同步開源了:
評(píng)測(cè)框架 Trust-videoLLMs:https://github.com/wangyouze/Trust-videoLLMs大規(guī)模視頻數(shù)據(jù)集(6955 個(gè)視頻,覆蓋多場(chǎng)景多任務(wù))統(tǒng)一評(píng)估工具箱(支持模型接入、任務(wù)執(zhí)行、自動(dòng)評(píng)分)
作者信息
一作:王有澤,合肥工業(yè)大學(xué)四年級(jí)博士生,主要研究方向?yàn)槎嗄B(tài)對(duì)抗魯棒性、多模態(tài)大模型安全可信,曾在 ACM MM, TMM, TCSVT 等頂級(jí)會(huì)議和期刊上發(fā)表論文。
通訊作者:胡文波,合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院副教授,黃山青年學(xué)者。主要研究方向?yàn)闄C(jī)器學(xué)習(xí),包括貝葉斯概率機(jī)器學(xué)習(xí)、人工智能安全以及科學(xué)人工智能。





京公網(wǎng)安備 11011402013531號(hào)