生成式人工智能的出現,將人類帶入一個機器生成內容與人類原創內容深度交織的世界。
以 Sora、Midjourney為代表的AIGC模型,展示了人類通向通用人工智能(AGI)的想象力,也讓虛假影像以前所未有的速度涌入公共空間,而人類的識別速度卻遠遠落后于造假的節奏。
在此背景下,“以AI辨AI”似乎成為一種可行的思路。我們好奇,人工智能能否輔助核查員和讀者完成核查工作?大模型如何定義“真實”的邊界?
為了解答這些疑問,“澎湃明查”發起挑戰,將ChatGPT、Gemini、DeepSeek、豆包等熱門模型請上了實驗臺。
背景
大語言模型的“讀圖”能力日新月異、突飛猛進。
從OpenAI的GPT-5,到xAI開發的Grok,再到國產模型豆包,如今的人工智能大模型已經能夠判斷圖像中的文字、場景乃至情緒,并給出近乎人類水準的描述。
AI似乎已經擁有了“眼睛”。但它們擁有人類的頭腦嗎?它們會被圖像欺騙嗎?它們能判斷一張圖片是否經過編輯嗎?能識別AI生成的圖片嗎?
帶著這些問題,我們對市場上已經具備初步識圖能力的主流大模型——ChatGPT-5、Grok-4和豆包(Doubao)進行了測試。我們為模型們準備了10張圖片,其中5張為AI生成圖像,5張為實際拍攝的照片(包含2張經過編輯的圖片),均源自澎湃明查過往的核查案例。
對于每一張圖片,我們有針對性地向大模型們提了三個問題:
這張圖片是真實拍攝的,還是經過后期編輯的?
這張圖片是由AI生成的嗎?
這張圖片是否呈現了網傳說法中所描述的內容?
問題的背后隱含著這場測試的真實目的——驗證人工智能能否穩定地、真實地對圖片使用的背景做出準確判斷。以下是測試結果。
明查
是真懂,還是幻覺?
AI會說謊,這不是秘密。隨著OpenAI等公司穩步改進其人工智能系統,大模型的功能變得比以前更強大了,但也更容易產生“幻覺”(即大模型自信地編造內容)了。例如,OpenAI o3在運行PersonQA基準測試(涉及回答有關公眾人物的問題)時,出現“幻覺”的概率達到了33%,比之前的推理系統o1的“幻覺”發生率高出兩倍多,而o4-mini的“幻覺”發生率則達到了48%。
為了防止人工智能是“蒙對”而非真的讀懂了圖片,我們首先對模型的回答一致性(魯棒性)進行了評價。使用的方法叫“變著法子提問”——如果模型能夠提供統一、穩定的回答,那么,無論答對答錯,至少在一致性的維度上,這就是一款“立場堅定”的好模型。
3款模型中,表現最靠譜的當數國產大模型“豆包”。在回答與10張圖片相關的30個問題時,豆包都提供了前后一致的回答。即便是在回答錯誤的情況下,豆包也將錯誤的答案強調了一遍又一遍。
![]()
![]()
被測試模型中相對不可靠的是馬斯克引領的團隊開發的Grok。例如在識別一張聲稱顯示“樺加沙臺風前被‘五花大綁’的雕塑”的AI生成的虛假圖片時,Grok先是通過搜索,查證到此圖可能是使用AI工具生成的假圖。但在變換提問方式后,Grok又表示圖片“顯示的是2025年9月臺風樺加沙來臨前,深圳證券交易所前的公牛雕塑被繩子‘五花大綁’以防被強風吹倒的場景”。
![]()
即便如此,在回答與10張圖片相關的問題時,Grok對其中8張圖片的判斷還是呈現了具有邏輯一致性的回答。
ChatGpt-5在測試中答錯了一題——在被問到一張反映了“在立陶宛維爾紐斯大教堂參與彌撒、為失蹤士兵祈禱的人們”的真實拍攝的照片“是否經過后期處理”時,模型先聲稱此圖片是“經過后期合成處理”的,而后被問到“圖片是否由AI生成”時,又表示“圖片看起來是真實拍攝的”。
一番角逐后,我們為三款大模型進行賦分。“豆包”以“從一而終”的表現獲得了滿分。
![]()
魔法能打敗魔法嗎?
本輪測試的另一個重要目的,是檢驗大模型判斷由AI生成圖片的能力。
在理想的情況下,我們希望模型能對那些由AI生成的圖片做出準確判斷;而對于那些并非由AI生成的圖片,也不要進行誤判。
經過測試,我們發現,對于那些具有明顯AIGC特征,如存在畸形手指等不合理細節的圖片,模型較易分辨出其為AI生成。例如,在評估“西藏地震中被壓在廢墟下的小男孩”一圖時,參與實驗的所有模型都能準確識別出其為AI生成。ChatGPT在回答“這張圖片是真實拍攝的還是經過后期編輯的”的問題時,便給出了“該圖片可能為AI生成”的判斷,并且給出了“皮膚與質地異常”“眼球反光過度”“毛線帽與毛衣的紋理過于均勻”等具體的判別理由。Grok提示了圖片左手“有畸形跡象”,并且提供了展示真實救援場景的照片供用戶參考。
![]()
而對于那些經Photoshop等軟件編輯的真實圖片,或是由AI生成后仍存在編輯痕跡的圖片,大模型則很難進行區分。例如,在測試一張生成展示了“太平洋上漂浮著的塑料垃圾”的圖片時,ChatGPT和Grok都將圖片判作了由AI生成的圖片,但這張圖片其實是通過后期技術將兩張真實拍攝的照片拼合而成的。
![]()
ChatGPT將這一圖片判作了由AI生成的圖片,而這張圖片其實是通過后期技術將兩張真實拍攝的照片拼合而成的。
特別值得一提的是豆包。在測試中我們發現,該模型似乎通過了所有圖片的考核,并提供了具有參考價值的依據,但這些依據主要來自中文網絡,包括“澎湃明查”以往發布過的文章。在補充測試中,我們發現,對于那些存在AI生成痕跡但未在中文網絡發表、成稿的案例,如網傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應援”的AI生成圖片,豆包則無法做出準確判斷,這或許意味著,該模型對圖片相關信息的檢索、整合能力要強于其本身的讀圖、判別能力。
![]()
![]()
豆包將網傳“民眾舉著縮寫為JIBA的牌子為日本首相高市早苗應援”的AI生成圖片判斷為真實圖片。
綜合以上線索,我們對3款模型的AI識別能力評價如下。
![]()
綜合能力哪家強?
最后,我們對3款大模型的綜合辨圖能力進行了打分。這一評價維度并非對上述評分結果的簡單加總,而是審視了大模型對3個問題的回答后,依據模型能否對圖片的真實性做出準確判斷并提供翔實的判斷依據所做的綜合評價。
![]()
3款模型中,豆包對圖片產生的背景和使用的語境的判斷是最為準確的,且在回答的一致性上的表現可圈可點。但豆包提供的判別依據往往簡短,更像是對既有與圖片相關的核查稿件的概述,缺乏更為詳盡的核查步驟的展開或對圖片進行進一步核查的提示。此外,豆包對于那些未成稿圖片案例的判斷并不十分準確。
![]()
相較而言,Grok的專家模式會將其思考過程做詳細的呈現,甚至會引用與圖片語境相關的真實圖片進行對比,更利于激發用戶的思考。但就圖片判斷的準確度和模型本身的幻覺度而言,現階段Grok給出的答案并不可靠,只能選擇性地參考。
![]()
總體上,ChatGPT的圖像辨識能力最為突出,既能作出較為可靠的判斷,也能清晰展示推理路徑。只不過,ChatGPT在任何一個評價維度上的表現都不是完美的。對于希望借助AI判斷圖片真偽的用戶而言,理解模型“怎么想”往往比相信它“怎么說”更重要——模型的結論可供參考,但最終判斷仍需人類完成。
![]()
海報設計 白浪





京公網安備 11011402013531號