![]()
新智元報道
編輯:LRST
當前大模型在最基礎的感知、物理常識等12項核心認知上普遍落后人類10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知識的極少。團隊公開首個系統評測框架和題庫,呼吁先把「三歲孩子都懂」的常識打牢,再談更高層的智能。
最近,一篇被Yann LeCun轉發的ICML 2025研究結果顯示,在CoreCognition基準1,503題大考中,230個主流模型紛紛暴露對于世界模型的「常識性盲區」。
再大的多模態語言模型,也缺少人類嬰兒就有的「核心知識」地基,即使高層推理再花哨,也架不住地基塌陷。
![]()
從下面這張震撼的對比表中,我們可以看到模型在12項「幼兒園」測試中,集體翻車。
Object Permanence:人類88.1%,最強模型InternVL3-78B僅74.1%,差距14%;
Perspective Taking:人類91.99%,最強模型QVQ-72B-Preview也僅83.25%,差距9%;
Intuitive Physics:人類91.52%,最強模型GPT-o1僅75.45%,差距超16%,各大模型普遍落后10-30%不等。
![]()
來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員聯合認知科學領域科學家,花費一年時間構造并開源了業界首個核心認知基準CoreCognition。
其中包含1,503道精選題目從感知運動到形式運算12項核心能力,每個概念95+樣本,全面覆蓋人類認知各個發展階段。
![]()
論文鏈接:https://arxiv.org/pdf/2410.10855
項目網站:https://williamium3000.github.io/core-knowledge/
開源數據集:https://huggingface.co/datasets/williamium/CoreCognition
此外,聯合團隊還維持了三個高標準:
判別性(缺乏目標核心知識的模型必然選錯答案)
最小混淆(避免依賴物體識別等無關能力)
最小文本捷徑(答案不能僅通過文本推導獲得)
12名標注員協作完成數據集構建,經過雙輪交叉驗證和20人Amazon Mechanical Turk人工校驗。
230個模型大考,涵蓋GPT、Claude、Qwen等主流商業模型及開源模型;11種提示策略,全方位測試模型真實能力。
![]()
![]()
據悉,團隊不僅構建了均衡答案位置和混合答案解析的完整評測基礎設施,而且還計劃開源一個支持這230個模型的MLLM統一測試框架,亮點是極易上手。
只需幾行代碼就能復現本文章及其他熱門數據的全部實驗結果!
「概念黑客」雙重盲盒
捅破捷徑學習的遮羞布
更絕的是團隊獨創的Concept Hacking方法,專門用來識破模型是「真懂」還是「假懂」
核心思路:給每道題做一個保持所有無關細節完全相同,只把核心概念反轉的「孿生題」
![]()
例如其中的Perspective Taking測試
原版題:圖像順時針旋轉90°后,看起來像鴨子還是兔子?→ 測試真正的perspective taking轉換理解
孿生版:同樣的旋轉操作,但正確答案相反 → 測試是否只是在套用固定模板
人類表現:兩題都答對(真正理解空間旋轉后的形狀變化)
模型表現:原版答對,孿生版直接翻車(暴露對「鴨兔錯覺」的刻板印象依賴)
把MLLM的「高級智能」拆解標題
Finding 1:核心知識缺失——高層推理沒地基
![]()
實驗里,模型在低階任務上集體表現不佳。這說明它們的高級推理/感知沒有扎根于人類嬰幼兒就具備的核心知識。面對不同表述方式和背景變化時無法表現出robust且穩定高水平的能力。
Finding 2:能力之間「各玩各的」
![]()
關聯性矩陣顯示了模型能力間的「分裂」現象:低階能力如Permanence、Continuity與對應高階能力如Perspective Taking、Conservation幾乎零相關。人類認知發展是下層搭積木,上層蓋高樓,層層遞進;
模型現狀是高樓直接懸空,缺乏發育鏈條支撐。這種能力間的斷裂意味著任何基礎認知的擾動,都可能讓整個「智能大廈」瞬間散架。
Finding 3:核心知識在更多任務上管用
![]()
統計發現,除了Perspective和 Intuitive Physics,10項核心能力得分與26個公開基準(除了偏向檢驗OCR能力的ChartQA)強正相關。
換句話說:核心知識越好,高層任務越穩。
而作為人類高級推理的基礎Perspective和Intuitive Physics能力,在基準測試評估結果中展現的低相關性,與我們之前在關系矩陣中觀察到的結果一致,正是核心知識缺陷的體現。
Finding 4:壞消息——參數多目前并不能「長出」核心知識
![]()
把219個模型從1B拉到110B,低階能力曲線幾乎一條水平線;perspective taking甚至隨規模下降。
過往「大力出奇跡」的經驗,在核心知識面前直接失靈。一個尚未解決卻又可能幫助構建世界模型的關鍵課題是從「如何scale」變成「如何scale出core-knowledge」。
Finding 5:規模越大,捷徑越香
Concept Hacking結果顯示:大模型在孿生題上的表現相對小模型整體并無提升,甚至有些更加糟糕,說明scaling無法解決在核心知識問題上的「捷徑依賴」。
直觀感受:模型不是「長大變聰明」,而是長大變滑頭。
![]()
通過定量分析發現,模型可以分為四類:
核心知識型:控制題和操作題都答對(接近人類,但數量極少)
捷徑依賴型:控制題對,操作題錯(最常見,包括GPT-4o等明星模型)
核心缺陷型:控制題就答錯,操作題表現無意義
盲猜型:兩題都靠運氣
研究啟示
認知指令可帶來短期提升
推理增強也救不了(10/12 任務無提升):問題不在「用沒用好」,而在「底子有沒有」,「預訓練缺失」仍是最大嫌疑。
有趣的是,團隊發現認知指令提示——直接告訴模型「這是perspective taking任務」等概念描述,可瞬間帶來6%的性能提升,表明模型內部可能已經分布式地存儲了相關知識,但缺乏有效的檢索和調用機制。
然而,這種方法在實際應用中局限性明顯,因為現實場景中模型不太可能獲得如此明確的概念指導。
更令人擔憂的是,這種核心知識缺陷可能在關鍵應用中帶來風險:比如自動駕駛中對遮擋物體的理解偏差,或者機器人在復雜場景下的物理常識判斷失誤。
重新思考AI發展路徑
從「寫詩作畫」到「常識翻車」,這項研究再次提醒我們:真正的智能,不只是參數規模,更是對世界最樸素、最基礎的理解。
當我們驚嘆于大模型在高階任務上的神奇表現時,是否忽略了連三歲孩子都懂的常識?忽略了正在悄悄放大的低階核心知識空洞?
規模、推理、提示,都只是裱糊匠——地基沒打好,樓越高越危險。
或許,這正是我們重新思考AI發展路徑的契機:不是一味追求更大、更強,而是回到最初——那些讓人類智能如此穩健可靠的核心認知能力。
參考資料:
https://arxiv.org/pdf/2410.10855
![]()





京公網安備 11011402013531號