大模型無法真正理解視頻，GPT-4o正確率僅36%，南洋理工大團隊提出新基準

IP屬地中國·北京 編輯：江紫萱 時間：2025-08-01 20:24:09

Video-TT團隊投稿
量子位 | 公眾號 QbitAI
視頻大型語言模型（Video LLMs）的發展日新月異，它們似乎能夠精準描述視頻內容、準確的回答相關問題，展現出足以亂真的人類級理解力。
但有一個非常本質的問題始終縈繞著研究者的心頭：這些模型是真的“理解”了視頻，還是僅僅在進行一種高級的“模式匹配”？
為了解決上述問題，來自南洋理工大學S-Lab的研究者們提出了一個全新的、極具挑戰性的基準測試——Video Thinking Test（簡稱Video-TT）。
其核心目標簡單而深刻：將“看”與“想”的能力分離，精準測量AI在視頻內容上的真實理解和推理水平。
研究團隊有三項關鍵發現：
（1）人類在視頻理解的“準確率”和“魯棒性”上遠超SOTA級模型（50%），差距顯著。
（2）開源模型在“魯棒性”上遠遜GPT-4o（SOTA模型之一）。
（3）GPT-4o的短板在于：對模糊或非常規內容識別能力弱；對多場景區分、定位、計算能力有困難；世界知識對應能力欠缺，無法理解意圖、社會動態等深層信息。
Video-TT圖靈測試集由南洋理工大學S-Lab科研團隊聯合獨立研究員共同研發完成。主要作者包括南洋理工大學博士生張元瀚、董宇昊，二人的研究方向聚焦多模態模型；通訊作者為南洋理工大學助理教授劉子緯。
Video-TT的問題定位
人類的智慧核心在于其正確性（Correctness）和魯棒性（Robustness）。
正確性意味著我們能準確地解讀信息，而魯棒性則保證了我們在面對信息干擾、歧義或不同表述時，依然能保持正確的判斷。這兩者結合，才構成了真正可靠的理解能力。
現有的視頻理解基準測試（Benchmark）在衡量AI是否達到人類級智慧上存在著一些根本性的缺陷。它們往往無法區分模型是因為“沒看清”而犯錯（即關鍵視頻幀采樣不足），還是因為“沒想明白”而出錯（即缺乏真正的推理能力）。
這種混淆使得我們很難評估AI在視頻理解上的真實水平。
在Video-TT出現之前，視頻理解領域已有相應的評測標準，但這些標準普遍存在一定局限性，導致AI的真實能力無法被準確衡量。
問題一：長視頻評測的“幀采樣悖論”
近期，許多研究都聚焦于長視頻理解。然而由于計算資源限制，模型無法處理視頻的每一幀，只能“跳著看”（稀疏采樣）。
這就帶來一個問題：當模型答錯時，我們無法確定是它能力不行，還是運氣不好，恰好錯過了包含答案的關鍵幀。
如下圖所示，在一些長視頻評測中（如VideoMME-Long），即便是強大的GPT-4o，其性能也可能因為采樣幀數的限制而大幅下降。這種下降反映的更多是“采樣策略”的失敗，而非“理解能力”的不足。
問題二：短視頻評測的“天花板幻覺”
與長視頻相對，短視頻評測（如VideoMME-Short）由于時長較短，模型可以幾乎“看完”所有幀。在這種情況下，一些頂尖模型的表現接近甚至達到了人類水平（上圖左側），這容易給人一種“短視頻理解問題已被基本解決”的錯覺。
然而，事實遠非如此。Video-TT的研究者們認為，即便在信息密集的短視頻中，依然存在大量需要深度推理和復雜認知才能解決的挑戰。簡單地提升準確率分數，并不能證明AI擁有了與人類同等的智慧。
Video-TT的破局創新點在于，它選擇了1000條全新的YouTube短視頻（避免數據污染），并精心設計問題的標注，確保答案能在有限的、統一的80幀內找到。
這樣一來，所有模型都在同一起跑線上“看”素材，評測的焦點便從“如何有效采樣”轉移到了“能否深刻理解”上，從而撥開迷霧，直擊AI的“思考”核心。
突出“思考”能力的問題設計
要衡量“思考”，就必須提出能夠激發“思考”的問題。Video-TT的設計原則是，一個復雜的問題并非由其類型決定（如“物體顏色”vs“情節理解”），而是由其背后的上下文、原因和場景決定。
研究團隊從“認知科學”和“影視敘事學”中汲取靈感，構建了兩個核心的復雜性維度：視覺復雜度和敘事復雜度。
維度一：視覺復雜度（Visual Complexity）
這部分關注的是視頻畫面的內在挑戰，共包含四個方面：
模糊與非常規內容（Unclear&Unusual Content）
視頻中是否存在干擾、模糊、遮擋，或者出現了與我們日常認知相悖的物體或現象？
運動速度（Movement Speed）
物體或鏡頭的移動是否過快，導致難以識別或追蹤？
時空布局（Spatial-temporal Arrangement）
場景中物體的位置關系和互動是否復雜？是否存在大量的時空信息需要處理？
視錯覺（Illusions）
視頻是否利用了拍攝技巧或內容本身來制造錯覺，挑戰觀眾的直覺？
維度二：敘事復雜度（Narrative Complexity）
這部分關注的是視頻作為一種“故事”的表達方式，其內在的邏輯和深度，同樣包含四個方面：
復雜情節（Complex Plot）
故事線是否存在反轉或意想不到的結局？
敘事剪輯（Narrative Editing）
是否使用了蒙太奇等復雜的剪輯手法來講述故事，而非平鋪直敘？
技術性剪輯（Technical Editing）
是否存在難以察覺的、與內容融為一體的特效或后期處理？
世界知識（World Knowledge）
理解視頻是否需要依賴超越畫面本身的世界常識、文化背景或社會規范？
例如，上圖中的Q-8提問“視頻中的女士在模仿什么行為？”，這需要觀眾擁有關于“特定活動”（被子彈擊中后倒下）的世界知識才能正確回答。這些問題迫使模型超越簡單的物體識別，進入真正的推理（Reasoning）層面。
AI思考的“魯棒”檢驗
擁有了能讓AI“思考”的難題還不夠，我們還需要知道它的思考有多“魯棒”（Robustness）。一個魯棒的模型，不應該因為用戶表述的方法稍有改變就給出截然不同的答案。
為此，Video-TT為每一個核心難題（Primary Question）都配備了四種“自然對抗性問題”（Natural Adversarial Questions），形成一套完整的測試體系。
這五種問題類型分別是：
核心問題（Primary Open

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

緊急“剎車”：寶馬5系旅行車中期改款被曝回歸傳統雙腎格柵

從深圳出發，向全球進發：元化智能一年12證書寫手術機器人“中國速度”

全站最新

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造

30年果粉兌換禮品卡后被封號：用了25年的Apple ID被永久停用

熱門推薦

喜茶“瘦身”：不拼門店數，改拼什么？

不做線上，不做廣告，這家超市如何成為美國“坪效之王”？

波司登代工大學羽絨服，找回漲價的體面

安克創新的AB面：創始人分紅過億，存貨卻壓垮現金流

雷軍、何小鵬、張一鳴和賈躍亭都來跨界AI機器人，宇樹科技能否守得住護城河？

微軟聯手 Kimi 打造 Office 自動化 Agent，AI 云巨頭開啟本土化“自我修正”

YouTube 封禁兩家發布虛假電影預告的 AI 頻道

亞馬遜組建全新AI組織，AWS元老Peter DeSantis掛帥，全面整合大模型、芯片與量子計算

LeCun再創業！新公司估值247億，CEO卻不是他！

被無數人看衰的Manus，8個月狂飆1億美元ARR！創全球最快紀錄，AI代理時代徹底引爆

國內首個國標 VLA 大模型開源!北京人形 XR-1讓機器人真正“會干活”

從垂直整合到開放共享，比亞迪書寫中國汽車升級轉型范本

AMD銳龍9 9955HX對比英特爾酷睿Ultra 9 275HX，五款游戲輪番測

華曙高科：中科院等離子所引入大尺寸銅合金打印設備為國家聚變能源裝備研發提供技術支撐

云宇星空大模型正式發布，上海市規劃資源局與商湯大裝置聯合打造