AIGC檢測為何頻頻“看走眼”？問題可能出在數(shù)據(jù)源頭

IP屬地中國·北京 量子位 時(shí)間：2025-11-30 14:10:32

騰訊優(yōu)圖投稿量子位 | 公眾號 QbitAI
在AIGC技術(shù)飛速發(fā)展的背景下，只需一行簡單的prompt就可生成高逼真內(nèi)容，然而，這一技術(shù)進(jìn)步也帶來了嚴(yán)重的安全隱患：虛假新聞、身份欺詐、版權(quán)侵犯等問題日益突出。AI生成圖像檢測也成為了AIGC時(shí)代的基礎(chǔ)安全能力。
然而在實(shí)際應(yīng)用中，存在一個(gè)“尷尬”現(xiàn)象：檢測器往往在“考場”（公開基準(zhǔn)數(shù)據(jù)集）上分?jǐn)?shù)耀眼，一旦換到“戰(zhàn)場”（全新模型或數(shù)據(jù)分布），性能會(huì)大幅下降。
近日，騰訊優(yōu)圖實(shí)驗(yàn)室聯(lián)合華東理工大學(xué)、北京大學(xué)等研究團(tuán)隊(duì)在A生成圖像檢測（AI-Generated Image Detection）泛化問題上展開研究，提出Dual Data Alignment（雙重?cái)?shù)據(jù)對齊，DDA）方法，從數(shù)據(jù)層面系統(tǒng)性抑制“偏差特征”，顯著提升檢測器在跨模型、跨數(shù)據(jù)域場景下的泛化能力。
目前，相關(guān)論文《Dual Data Alignment Makes AI-Generated Image Detector Easier Generalizable》已被NeurIPS 2025接收為Spotlight（錄取率 Top 3.2%）。

發(fā)現(xiàn)：AI圖像檢測器其實(shí)只是在“識(shí)別訓(xùn)練集”
研究團(tuán)隊(duì)認(rèn)為問題的根源可能在于訓(xùn)練數(shù)據(jù)本身的構(gòu)造方式，使得檢測器并沒有真正學(xué)會(huì)區(qū)分真假的本質(zhì)特征，而是“走了捷徑”，依賴于一些與真?zhèn)伪旧頍o關(guān)的“偏差特征”（Biased Features）來做出判斷。
這些偏差特征是真實(shí)圖像與AI生成圖像在訓(xùn)練數(shù)據(jù)收集過程中產(chǎn)生的系統(tǒng)性差異。具體來說：
真實(shí)圖像：來源渠道復(fù)雜，清晰度與畫質(zhì)參差不齊；分辨率分布分散；幾乎都以JPEG 格式存儲(chǔ)，并帶有不同程度的壓縮痕跡。AI生成圖像：呈現(xiàn)出高度統(tǒng)一的模式，分辨率常集中在256×256、512×512、1024×1024等固定檔位；并且大多以PNG等無損格式存儲(chǔ)；畫面干凈，沒有明顯壓縮痕跡。
在這樣的數(shù)據(jù)構(gòu)成下，檢測模型可能會(huì)去學(xué)習(xí)“投機(jī)策略”，例如PNG≈假圖，JPEG≈真圖。這種“捷徑”可以在某些標(biāo)準(zhǔn)測試集（如GenImage）上甚至可以達(dá)到100%的檢測準(zhǔn)確率，然而一旦對AI生成的PNG圖像進(jìn)行簡單的JPEG壓縮，使其在格式和壓縮痕跡上接近真實(shí)圖像，這類檢測器的性能就會(huì)出現(xiàn)“斷崖式下跌”。
對比真實(shí)圖像和AI生成圖像，兩者可能存在格式偏差、語義偏差和尺寸偏差：

解法和思路
針對這一問題，研究團(tuán)隊(duì)認(rèn)為如果數(shù)據(jù)本身帶有系統(tǒng)性偏差，模型設(shè)計(jì)的再復(fù)雜也難免“學(xué)偏”。因此提出了DDA（雙重?cái)?shù)據(jù)對齊，Dual Data Alignment）方法，通過重構(gòu)和對齊訓(xùn)練數(shù)據(jù)來消除偏差。其核心操作分為三步：

像素域?qū)R（Pixel Alignment）
使用VAE（變分自編碼器）技術(shù)對每一張真實(shí)圖像進(jìn)行重建，得到一張內(nèi)容一致、分辨率統(tǒng)一的AI生成圖像。這一步操作消除了內(nèi)容和分辨率上的偏差。

頻率域?qū)R（Frequency Alignment）
僅僅像素域?qū)R是不夠的，由于真實(shí)圖像大多經(jīng)過JPEG壓縮，其高頻信息（細(xì)節(jié)紋理）是受損的；而VAE在重建圖像時(shí)，反而會(huì)“補(bǔ)全”這些細(xì)節(jié)，創(chuàng)造出比真實(shí)圖像更豐富的高頻信息，這本身又成了一種新的偏差。
△可視化對比真實(shí)圖像（JPEG75）和AI生成圖像（PNG）的高頻分量
實(shí)驗(yàn)也證實(shí)了這一點(diǎn)：當(dāng)研究者將一幅重建圖像中“完美”的高頻部分，替換為真實(shí)圖像中“受損”的高頻部分后，檢測器對VAE重建圖的檢出率會(huì)大幅下降。
△對比VAE重建圖和VAE重建圖（高頻分量對齊真實(shí)圖像）的檢出率
因此，關(guān)鍵的第二步是對重建圖執(zhí)行與真實(shí)圖完全相同的JPEG壓縮，使得兩類圖像在頻率域上對齊。

Mixup
最后采用Mixup將真實(shí)圖像與經(jīng)過對齊的生成圖像在像素層面進(jìn)行混合，進(jìn)一步增強(qiáng)真圖和假圖的對齊程度。

經(jīng)過上述步驟，就能得到一組在像素和頻率特征上都高度一致的“真/假”數(shù)據(jù)集，促進(jìn)模型學(xué)習(xí)更泛化的“區(qū)分真假”的特征。
實(shí)驗(yàn)效果
傳統(tǒng)的學(xué)術(shù)評測往往是為每個(gè)Benchmark單獨(dú)訓(xùn)練一個(gè)檢測器評估。這種評測方式與真實(shí)應(yīng)用場景不符。
為了更真實(shí)地檢驗(yàn)方法的泛化能力，研究團(tuán)隊(duì)提出了一種嚴(yán)格的評測準(zhǔn)則：只訓(xùn)練一個(gè)通用模型，然后用它直接在所有未知的、跨域的測試集上評估。
在這一嚴(yán)格的評測標(biāo)準(zhǔn)下，DDA（基于COCO數(shù)據(jù)重建）實(shí)驗(yàn)效果如下。
綜合表現(xiàn)：在一個(gè)包含11個(gè)不同Benchmark的全面測試中，DDA在其中 10個(gè) 上取得了領(lǐng)先表現(xiàn)。安全下限（min-ACC）：對于安全產(chǎn)品而言，決定短板的“最差表現(xiàn)”往往比平均分更重要。在衡量模型最差表現(xiàn)的min-ACC指標(biāo)上，DDA比第二名高出了27.5個(gè)百分點(diǎn)。In-the-wild測試：在公認(rèn)高難度的真實(shí)場景“In-the-wild”數(shù)據(jù)集Chameleon上，檢測準(zhǔn)確率達(dá)到82.4%。跨架構(gòu)泛化：DDA訓(xùn)練的模型不僅能檢測主流的Diffusion模型生成的圖像，其學(xué)到的本質(zhì)特征還能有效泛化至GAN和自回歸模型等完全不同，甚至沒有用到VAE的生成架構(gòu)。

無偏的訓(xùn)練數(shù)據(jù)助力泛化性提升
在AI生成圖像日益逼真的今天，如何準(zhǔn)確識(shí)別“真”與“假”變得尤為關(guān)鍵。
但AIGC檢測模型的泛化性問題，有時(shí)并不需要設(shè)計(jì)復(fù)雜的模型結(jié)構(gòu)，而是需要回歸數(shù)據(jù)本身，從源頭消除那些看似微小卻足以致命的“偏見”。
“雙重?cái)?shù)據(jù)對齊”提供了一個(gè)新的技術(shù)思路，通過提供更“高質(zhì)量”的數(shù)據(jù)，迫使這些模型最終學(xué)習(xí)正確的知識(shí)，并專注于真正重要的特征，從而獲得更強(qiáng)的泛化能力。
論文地址：https://arxiv.org/pdf/2505.14359
GitHub：https://github.com/roy-ch/Dual-Data-Alignment

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統(tǒng)雙腎格柵

從深圳出發(fā)，向全球進(jìn)發(fā)：元化智能一年12證書寫手術(shù)機(jī)器人“中國速度”

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

微軟聯(lián)手 Kimi 打造 Office 自動(dòng)化 Agent，AI 云巨頭開啟本土化“自我修正”

YouTube 封禁兩家發(fā)布虛假電影預(yù)告的 AI 頻道

亞馬遜組建全新AI組織，AWS元老Peter DeSantis掛帥，全面整合大模型、芯片與量子計(jì)算

LeCun再創(chuàng)業(yè)！新公司估值247億，CEO卻不是他！

被無數(shù)人看衰的Manus，8個(gè)月狂飆1億美元ARR！創(chuàng)全球最快紀(jì)錄，AI代理時(shí)代徹底引爆

國內(nèi)首個(gè)國標(biāo) VLA 大模型開源!北京人形 XR-1讓機(jī)器人真正“會(huì)干活”

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉(zhuǎn)型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

華曙高科：中科院等離子所引入大尺寸銅合金打印設(shè)備為國家聚變能源裝備研發(fā)提供技術(shù)支撐

云宇星空大模型正式發(fā)布，上海市規(guī)劃資源局與商湯大裝置聯(lián)合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統(tǒng)雙腎格柵

從深圳出發(fā)，向全球進(jìn)發(fā)：元化智能一年12證書寫手術(shù)機(jī)器人“中國速度”

《自然》雜志展望2026年值得關(guān)注的科學(xué)事件

無人駕駛“警車”現(xiàn)身上海街頭 | 新民視頻小羊探案