MLLM集體翻車，缺乏嬰兒級常識！業界首個核心認知基準發布，LeCun轉贊

IP屬地中國·北京 編輯：馮璃月新智元 時間：2025-08-04 18:25:26

新智元報道
編輯：LRST
當前大模型在最基礎的感知、物理常識等12項核心認知上普遍落后人類10-30%，且越大的模型越容易靠「背答案」糊弄，真正掌握核心知識的極少。團隊公開首個系統評測框架和題庫，呼吁先把「三歲孩子都懂」的常識打牢，再談更高層的智能。
最近，一篇被Yann LeCun轉發的ICML 2025研究結果顯示，在CoreCognition基準1,503題大考中，230個主流模型紛紛暴露對于世界模型的「常識性盲區」。
再大的多模態語言模型，也缺少人類嬰兒就有的「核心知識」地基，即使高層推理再花哨，也架不住地基塌陷。

從下面這張震撼的對比表中，我們可以看到模型在12項「幼兒園」測試中，集體翻車。
Object Permanence：人類88.1%，最強模型InternVL3-78B僅74.1%，差距14%；
Perspective Taking：人類91.99%，最強模型QVQ-72B-Preview也僅83.25%，差距9%；
Intuitive Physics：人類91.52%，最強模型GPT-o1僅75.45%，差距超16%，各大模型普遍落后10-30%不等。

來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員聯合認知科學領域科學家，花費一年時間構造并開源了業界首個核心認知基準CoreCognition。
其中包含1,503道精選題目從感知運動到形式運算12項核心能力，每個概念95+樣本，全面覆蓋人類認知各個發展階段。

論文鏈接：https://arxiv.org/pdf/2410.10855
項目網站：https://williamium3000.github.io/core-knowledge/
開源數據集：https://huggingface.co/datasets/williamium/CoreCognition
此外，聯合團隊還維持了三個高標準：
判別性（缺乏目標核心知識的模型必然選錯答案）
最小混淆（避免依賴物體識別等無關能力）
最小文本捷徑（答案不能僅通過文本推導獲得）
12名標注員協作完成數據集構建，經過雙輪交叉驗證和20人Amazon Mechanical Turk人工校驗。
230個模型大考，涵蓋GPT、Claude、Qwen等主流商業模型及開源模型；11種提示策略，全方位測試模型真實能力。

據悉，團隊不僅構建了均衡答案位置和混合答案解析的完整評測基礎設施，而且還計劃開源一個支持這230個模型的MLLM統一測試框架，亮點是極易上手。
只需幾行代碼就能復現本文章及其他熱門數據的全部實驗結果！
「概念黑客」雙重盲盒
捅破捷徑學習的遮羞布
更絕的是團隊獨創的Concept Hacking方法，專門用來識破模型是「真懂」還是「假懂」
核心思路：給每道題做一個保持所有無關細節完全相同，只把核心概念反轉的「孿生題」

例如其中的Perspective Taking測試
原版題：圖像順時針旋轉90°后，看起來像鴨子還是兔子？→ 測試真正的perspective taking轉換理解
孿生版：同樣的旋轉操作，但正確答案相反 → 測試是否只是在套用固定模板
人類表現：兩題都答對（真正理解空間旋轉后的形狀變化）
模型表現：原版答對，孿生版直接翻車（暴露對「鴨兔錯覺」的刻板印象依賴）
把MLLM的「高級智能」拆解標題
Finding 1：核心知識缺失——高層推理沒地基

實驗里，模型在低階任務上集體表現不佳。這說明它們的高級推理/感知沒有扎根于人類嬰幼兒就具備的核心知識。面對不同表述方式和背景變化時無法表現出robust且穩定高水平的能力。
Finding 2：能力之間「各玩各的」

關聯性矩陣顯示了模型能力間的「分裂」現象：低階能力如Permanence、Continuity與對應高階能力如Perspective Taking、Conservation幾乎零相關。人類認知發展是下層搭積木，上層蓋高樓，層層遞進；
模型現狀是高樓直接懸空，缺乏發育鏈條支撐。這種能力間的斷裂意味著任何基礎認知的擾動，都可能讓整個「智能大廈」瞬間散架。
Finding 3：核心知識在更多任務上管用

統計發現，除了Perspective和 Intuitive Physics，10項核心能力得分與26個公開基準（除了偏向檢驗OCR能力的ChartQA）強正相關。
換句話說：核心知識越好，高層任務越穩。
而作為人類高級推理的基礎Perspective和Intuitive Physics能力，在基準測試評估結果中展現的低相關性，與我們之前在關系矩陣中觀察到的結果一致，正是核心知識缺陷的體現。
Finding 4：壞消息——參數多目前并不能「長出」核心知識

把219個模型從1B拉到110B，低階能力曲線幾乎一條水平線；perspective taking甚至隨規模下降。
過往「大力出奇跡」的經驗，在核心知識面前直接失靈。一個尚未解決卻又可能幫助構建世界模型的關鍵課題是從「如何scale」變成「如何scale出core-knowledge」。
Finding 5：規模越大，捷徑越香
Concept Hacking結果顯示：大模型在孿生題上的表現相對小模型整體并無提升，甚至有些更加糟糕，說明scaling無法解決在核心知識問題上的「捷徑依賴」。
直觀感受：模型不是「長大變聰明」，而是長大變滑頭。

通過定量分析發現，模型可以分為四類：
核心知識型：控制題和操作題都答對（接近人類，但數量極少）
捷徑依賴型：控制題對，操作題錯（最常見，包括GPT-4o等明星模型）
核心缺陷型：控制題就答錯，操作題表現無意義
盲猜型：兩題都靠運氣
研究啟示
認知指令可帶來短期提升
推理增強也救不了（10/12 任務無提升）：問題不在「用沒用好」，而在「底子有沒有」，「預訓練缺失」仍是最大嫌疑。
有趣的是，團隊發現認知指令提示——直接告訴模型「這是perspective taking任務」等概念描述，可瞬間帶來6%的性能提升，表明模型內部可能已經分布式地存儲了相關知識，但缺乏有效的檢索和調用機制。
然而，這種方法在實際應用中局限性明顯，因為現實場景中模型不太可能獲得如此明確的概念指導。
更令人擔憂的是，這種核心知識缺陷可能在關鍵應用中帶來風險：比如自動駕駛中對遮擋物體的理解偏差，或者機器人在復雜場景下的物理常識判斷失誤。
重新思考AI發展路徑
從「寫詩作畫」到「常識翻車」，這項研究再次提醒我們：真正的智能，不只是參數規模，更是對世界最樸素、最基礎的理解。
當我們驚嘆于大模型在高階任務上的神奇表現時，是否忽略了連三歲孩子都懂的常識？忽略了正在悄悄放大的低階核心知識空洞？
規模、推理、提示，都只是裱糊匠——地基沒打好，樓越高越危險。
或許，這正是我們重新思考AI發展路徑的契機：不是一味追求更大、更強，而是回到最初——那些讓人類智能如此穩健可靠的核心認知能力。
參考資料：
https://arxiv.org/pdf/2410.10855

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

藍色起源完成里程碑任務：殘障人士搭乘“新謝潑德”抵達太空邊緣

小米17 Ultra為何提前發布盧偉冰解釋原因

全站最新

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

熱門推薦

上市15天，摩爾線程劍指英偉達腹地

朱光耀：中美AI實力對比，中國具備三項優勢

新型發電領域的“超級跑車”來了！發電效率提升的秘密藏在這里

盧偉冰公布小米17 Ultra手機首張樣片

藍色起源完成里程碑任務：殘障人士搭乘“新謝潑德”抵達太空邊緣

小米17 Ultra為何提前發布盧偉冰解釋原因

車型確定了！定速巡航、剎車失靈司機：退車退款賠5萬

“討薪”成功，馬斯克成世界首位7000億美元富豪

華杉稱要把華與華做成世界第一，羅永浩：忽悠鄉鎮老板還可以

字節跳動全年500億美元利潤？知情人士回應

字節漲薪、騰訊「挖人」，阿里、百度、小米齊變陣

跟著蜜雪冰城賣啤酒的人，賺到錢了嗎？

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網無法訪問，創刊至今已32年