亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當前位置: 首頁 ? 資訊 ? 新科技 ? 正文

MLLM集體翻車,缺乏嬰兒級常識!業界首個核心認知基準發布,LeCun轉贊

IP屬地 中國·北京 編輯:馮璃月 新智元 時間:2025-08-04 18:25:26


新智元報道

編輯:LRST

當前大模型在最基礎的感知、物理常識等12項核心認知上普遍落后人類10-30%,且越大的模型越容易靠「背答案」糊弄,真正掌握核心知識的極少。團隊公開首個系統評測框架和題庫,呼吁先把「三歲孩子都懂」的常識打牢,再談更高層的智能。

最近,一篇被Yann LeCun轉發的ICML 2025研究結果顯示,在CoreCognition基準1,503題大考中,230個主流模型紛紛暴露對于世界模型的「常識性盲區」。

再大的多模態語言模型,也缺少人類嬰兒就有的「核心知識」地基,即使高層推理再花哨,也架不住地基塌陷。


從下面這張震撼的對比表中,我們可以看到模型在12項「幼兒園」測試中,集體翻車。

Object Permanence:人類88.1%,最強模型InternVL3-78B僅74.1%,差距14%;

Perspective Taking:人類91.99%,最強模型QVQ-72B-Preview也僅83.25%,差距9%;

Intuitive Physics:人類91.52%,最強模型GPT-o1僅75.45%,差距超16%,各大模型普遍落后10-30%不等。


來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員聯合認知科學領域科學家,花費一年時間構造并開源了業界首個核心認知基準CoreCognition。

其中包含1,503道精選題目從感知運動到形式運算12項核心能力,每個概念95+樣本,全面覆蓋人類認知各個發展階段。


論文鏈接:https://arxiv.org/pdf/2410.10855

項目網站:https://williamium3000.github.io/core-knowledge/

開源數據集:https://huggingface.co/datasets/williamium/CoreCognition

此外,聯合團隊還維持了三個高標準:

判別性(缺乏目標核心知識的模型必然選錯答案)

最小混淆(避免依賴物體識別等無關能力)

最小文本捷徑(答案不能僅通過文本推導獲得)

12名標注員協作完成數據集構建,經過雙輪交叉驗證和20人Amazon Mechanical Turk人工校驗。

230個模型大考,涵蓋GPT、Claude、Qwen等主流商業模型及開源模型;11種提示策略,全方位測試模型真實能力。



據悉,團隊不僅構建了均衡答案位置和混合答案解析的完整評測基礎設施,而且還計劃開源一個支持這230個模型的MLLM統一測試框架,亮點是極易上手

只需幾行代碼就能復現本文章及其他熱門數據的全部實驗結果!

「概念黑客」雙重盲盒

捅破捷徑學習的遮羞布

更絕的是團隊獨創的Concept Hacking方法,專門用來識破模型是「真懂」還是「假懂」

核心思路給每道題做一個保持所有無關細節完全相同,只把核心概念反轉的「孿生題」


例如其中的Perspective Taking測試

原版題:圖像順時針旋轉90°后,看起來像鴨子還是兔子?→ 測試真正的perspective taking轉換理解

孿生版:同樣的旋轉操作,但正確答案相反 → 測試是否只是在套用固定模板

人類表現兩題都答對(真正理解空間旋轉后的形狀變化)

模型表現原版答對,孿生版直接翻車(暴露對「鴨兔錯覺」的刻板印象依賴)

把MLLM的「高級智能」拆解標題

Finding 1:核心知識缺失——高層推理沒地基


實驗里,模型在低階任務上集體表現不佳。這說明它們的高級推理/感知沒有扎根于人類嬰幼兒就具備的核心知識。面對不同表述方式和背景變化時無法表現出robust且穩定高水平的能力。

Finding 2:能力之間「各玩各的」


關聯性矩陣顯示了模型能力間的「分裂」現象:低階能力如Permanence、Continuity與對應高階能力如Perspective Taking、Conservation幾乎零相關。人類認知發展是下層搭積木,上層蓋高樓,層層遞進;

模型現狀是高樓直接懸空,缺乏發育鏈條支撐。這種能力間的斷裂意味著任何基礎認知的擾動,都可能讓整個「智能大廈」瞬間散架。

Finding 3:核心知識在更多任務上管用


統計發現,除了Perspective和 Intuitive Physics,10項核心能力得分與26個公開基準(除了偏向檢驗OCR能力的ChartQA)強正相關。

換句話說:核心知識越好,高層任務越穩。

而作為人類高級推理的基礎Perspective和Intuitive Physics能力,在基準測試評估結果中展現的低相關性,與我們之前在關系矩陣中觀察到的結果一致,正是核心知識缺陷的體現。

Finding 4:壞消息——參數多目前并不能「長出」核心知識


把219個模型從1B拉到110B,低階能力曲線幾乎一條水平線;perspective taking甚至隨規模下降。

過往「大力出奇跡」的經驗,在核心知識面前直接失靈。一個尚未解決卻又可能幫助構建世界模型的關鍵課題是從「如何scale」變成「如何scale出core-knowledge」。

Finding 5:規模越大,捷徑越香

Concept Hacking結果顯示:大模型在孿生題上的表現相對小模型整體并無提升,甚至有些更加糟糕,說明scaling無法解決在核心知識問題上的「捷徑依賴」。

直觀感受:模型不是「長大變聰明」,而是長大變滑頭。


通過定量分析發現,模型可以分為四類:

核心知識型控制題和操作題都答對(接近人類,但數量極少)

捷徑依賴型控制題對,操作題錯(最常見,包括GPT-4o等明星模型)

核心缺陷型控制題就答錯,操作題表現無意義

盲猜型兩題都靠運氣

研究啟示

認知指令可帶來短期提升

推理增強也救不了(10/12 任務無提升):問題不在「用沒用好」,而在「底子有沒有」,「預訓練缺失」仍是最大嫌疑。

有趣的是,團隊發現認知指令提示——直接告訴模型「這是perspective taking任務」等概念描述,可瞬間帶來6%的性能提升,表明模型內部可能已經分布式地存儲了相關知識,但缺乏有效的檢索和調用機制。

然而,這種方法在實際應用中局限性明顯,因為現實場景中模型不太可能獲得如此明確的概念指導。

更令人擔憂的是,這種核心知識缺陷可能在關鍵應用中帶來風險:比如自動駕駛中對遮擋物體的理解偏差,或者機器人在復雜場景下的物理常識判斷失誤。

重新思考AI發展路徑

從「寫詩作畫」到「常識翻車」,這項研究再次提醒我們:真正的智能,不只是參數規模,更是對世界最樸素、最基礎的理解。

當我們驚嘆于大模型在高階任務上的神奇表現時,是否忽略了連三歲孩子都懂的常識?忽略了正在悄悄放大的低階核心知識空洞?

規模、推理、提示,都只是裱糊匠——地基沒打好,樓越高越危險。

或許,這正是我們重新思考AI發展路徑的契機:不是一味追求更大、更強,而是回到最初——那些讓人類智能如此穩健可靠的核心認知能力。

參考資料:

https://arxiv.org/pdf/2410.10855


免責聲明:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。

国产色视频在线| 3d动漫精品啪啪一区二区三区免费 | 久久久久久久久电影| 国产精品久久久99| 免费黄色在线播放| 亚洲精品白虎| 91久久久久久久久| 久久久免费精品| 亚洲欧美另类国产| 欧美日韩在线电影| 一级特黄大欧美久久久| 国产盗摄女厕一区二区三区 | 任你操这里只有精品| 欧美日韩亚洲一区二区三区在线观看 | 国产精华一区| 97免费视频在线| 尤物九九久久国产精品的特点| 日韩欧美高清视频| 国产精品电影一区二区三区| 亚洲一级在线观看| 国产精品久久久久一区二区三区共| 久久激情五月激情| 午夜在线视频观看| 国产精品热久久| 夜夜爽妓女8888视频免费观看| 激情高潮到大叫狂喷水| 国内精品免费视频| 色婷婷一区二区三区av免费看| 亚洲视频sss| 蜜桃麻豆www久久国产精品| 成人亚洲激情网| 国产精品美腿一区在线看| 久久久视频在线| 97国产超碰| 18禁免费观看网站| 久久美女福利视频| 能在线观看的av网站| 精品一二三四五区| 国产素人在线观看| 97伦伦午夜电影理伦片| 人妻大战黑人白浆狂泄| 波多野结衣电影在线播放| 秋霞电影网一区二区| 日本va欧美va欧美va精品| 国产精品电影院| 亚洲国产私拍精品国模在线观看| 精品少妇一区二区三区| 日韩成人性视频| 亚洲欧美日韩久久久久久| 国产精品18久久久久久麻辣| 国产精品自在线| 91网免费观看| 可以在线看的黄色网址| 美女福利视频在线观看| 麻豆视频在线免费看| 久久久国产精品人人片| 在线观看 亚洲| 一区二区三区日| 日韩在线视频免费| 日本午夜一本久久久综合| 樱花草国产18久久久久| 日韩欧美国产网站| 久久久久久999| 青草全福视在线| 亚洲性生活网站| 亚洲 欧美 成人| 欧美一区二区三区成人片在线| 国产精品国产三级国产普通话99 | 久久久久免费| 国产一区二区三区香蕉| 91麻豆蜜桃一区二区三区| 中文字幕一区三区| 有码中文亚洲精品| 亚洲黄色成人久久久| 精品无码在线观看| 中文字幕日韩一级| 97精品人妻一区二区三区| 26uuu精品一区二区| 亚洲精品国产精品自产a区红杏吧| 91沈先生作品| 国产精品一级黄片| 精品在线免费观看视频| 9色porny自拍视频一区二区| 亚洲另类在线制服丝袜| 欧美三级中文字幕在线观看| 国产精品久久久久免费a∨大胸| www一区二区www免费| 黄色性视频网站| 福利一区二区三区四区| 亚洲精品久久久久久动漫器材一区 | **性色生活片久久毛片| 欧美日韩精品二区第二页| 亚洲国产日韩欧美在线动漫| 国产精品69页| 日韩免费高清视频| 亚洲第一福利视频在线| 欧美在线高清视频| 精品偷拍一区二区三区在线看 | 三级久久三级久久久| 特级毛片www| 国产精品萝li| 97久久国产精品| 欧美成人乱码一二三四区免费| 国产美女www爽爽爽视频| 日本道精品一区二区三区| 中文字幕欧美在线| 91视频国产精品| 手机在线成人av| 伊人网av在线| 久久婷婷成人综合色| 欧美三级韩国三级日本三斤| 国产综合动作在线观看| 免费观看污网站| 国产麻豆9l精品三级站| 欧美视频一区二区三区在线观看| 国产精品福利视频| 久草免费新视频| 国产成人精品亚洲777人妖| av磁力番号网| 久久人人超碰精品| 中国日韩欧美久久久久久久久| jizz中文字幕| 精品国产依人香蕉在线精品| 99在线精品视频| 国产一区二区三区在线观看免费 | 另类人妖一区二区av| 久久久久综合一区二区三区| 在线精品一区二区三区| 欧美一级艳片视频免费观看| 狠狠爱一区二区三区| 欧美精品一区二区三区在线 | 欧美一级欧美三级在线观看 | 伊人久久一区二区| 粉嫩高潮美女一区二区三区| 日韩精品一区二| 青青草精品在线视频| 91免费在线看| 欧美在线观看网址综合| 国产99在线免费| 91久久综合亚洲鲁鲁五月天| 裸体一区二区三区| av成人观看| 欧美三级理论片| 亚洲视频在线观看免费| 欧美视频在线观看网站| 精品国产三级a在线观看| 日本婷婷久久久久久久久一区二区| 亚洲欧洲国产日韩精品| 亚洲h视频在线观看| 日韩中文字幕91| 91久久精品www人人做人人爽| av免费观看网| 北京富婆泄欲对白| 91九色02白丝porn| 538在线视频观看| 91狠狠综合久久久久久| 美美哒免费高清在线观看视频一区二区 | 日韩一级片网站| 欧美性猛交bbbbb精品| 国产亚洲一区在线播放| 国产真实乱偷精品视频| 999精品在线视频| a级片在线播放| 天天av天天翘天天综合网 | 久久免费高清视频| 欧美成人一区二区三区高清| 久久福利电影| 激情综合色综合久久| 色久综合一二码| 亚洲欧美日韩一区二区在线| 欧美一级片久久久久久久| 99久久久久成人国产免费| 国产精品久久久久aaaa九色| av黄色一级片| 1卡2卡3卡精品视频| www国产精品com| 亚洲最大色网站| 波多野结衣视频网站| 日韩精品免费一线在线观看| 精品国偷自产一区二区三区| 亚洲主播在线观看| 日韩高清av电影| 亚洲乱码中文字幕综合| 色婷婷精品国产一区二区三区| 中文字幕免费高| 国产精品一区二区视频| 国产精品高清在线观看| 日本视频一区二区三区| www.99r| 成人app下载| 日韩女优av电影在线观看| 日本少妇激情舌吻| 国产永久免费网站| 高跟丝袜欧美一区| 久久国产美女视频| 国产黄色特级片| 亚洲欧美国产日韩天堂区| xxxx 国产| 亚洲美女精品成人在线视频| 国产成人久久精品77777综合| 91视频免费网站| 国产精品美女久久久久久久网站| 国产精品久久久久99| 欧美一区二区三区成人片在线| 国产精品日韩高清| 亚洲成人av影片| 97在线视频国产| 国产亚洲精品中文字幕| 欧美日韩成人免费观看| 在线91免费看| 欧美最猛性xxxxx免费| 国产午夜福利精品| 久久久国产一区二区三区| av毛片久久久久**hd| 久久这里只有精品国产| 91成人福利在线| 欧美中文字幕在线观看视频| 一区二区三区中文在线| 天天躁日日躁aaaa视频| 性xxxx视频播放免费| 欧美一级视频免费在线观看| 国产91精品在线观看| 性插视频在线观看| 男女性高潮免费网站| 国产日产欧美a一级在线| 黄色免费一级视频| 国产精品一区二区三区在线| 激情综合五月网| 国产精品日韩欧美综合| 色偷偷88欧美精品久久久| 亚洲成人一二三区| 波多野结衣爱爱视频| 麻豆网址在线观看| 男人舔女人下部高潮全视频 | 欧美日韩在线中文| 国产精品99一区| 日韩欧美一区二区三区| 亚洲国产精品久久人人爱潘金莲 | 欧美黑人一区二区| 欧美日韩在线视频一区二区三区| 综合欧美一区二区三区| 特一级黄色录像| 中文字幕一区综合| 日韩精品一区二区三区在线播放| 国产精品怡红院| 日本三区在线观看| 欧美精品123| 亚洲午夜激情免费视频| 黄色国产在线观看| 一本久道综合色婷婷五月| 欧美日韩免费高清| 秋霞在线观看一区二区三区| 在线看成人av电影| 国产高清不卡无码视频| 欧美日韩激情一区二区| 欧美色中文字幕| 成人国产精品免费网站| 久久嫩草捆绑紧缚| 日日夜夜精品网站| 国产精品入口夜色视频大尺度| 色一情一乱一乱一91av| 国产精品午夜久久| www.天天色| 亚洲人成无码网站久久99热国产| 91麻豆swag| 亚洲精品中文字幕在线观看| 超碰在线人人干| 天堂www中文在线资源| 国产精品欧美性爱| 污版视频在线观看| 正在播放亚洲1区| 国产精品你懂的在线| 精东粉嫩av免费一区二区三区| 亚洲精品福利网站| av一区二区三区黑人| 日韩欧亚中文在线| 日韩在线观看免费全集电视剧网站 | 国产精品老熟女视频一区二区| 在线黄色免费看| 久久亚洲精品一区| 亚洲精品视频免费在线观看| 91蝌蚪porny成人天涯| 日韩国产欧美在线观看| 欧美日韩大片在线观看| 日本高清视频免费观看| 国产成人在线免费| 亚洲xxx在线| 久久精品观看| 国产 欧美在线| av图片在线观看| 噼里啪啦国语在线观看免费版高清版 | 成人欧美一区二区三区在线观看 | 国产高清精品在线观看| www.夜夜爱| 日本a视频在线观看| 国产精品久久久久高潮| 国产欧美日韩综合精品二区| 999国产在线| 色女孩综合网| 日韩精品一区二区三区四区五区 | 国产精品久久久久久免费观看| 3d动漫啪啪精品一区二区免费| 亚洲精品女av网站| 国产精品免费在线| 国产精品视频一| 欧美不卡在线视频| 国产一区二区美女视频| 亚洲欧美中文字幕在线一区| 亚洲综合视频1区| 疯狂撞击丝袜人妻| 国产精品资源网| 欧美mv日韩mv| 国内自拍欧美激情| www黄色在线| 久久精品国产av一区二区三区| 色婷婷久久综合中文久久蜜桃av| 中文字幕观看视频| 中文字幕在线观看视频免费| 亚洲乱码国产乱码精品精软件| 久久电影网电视剧免费观看| 中文字幕一区二区三区在线乱码| 91在线短视频| 日韩精彩视频| 国产九九在线视频| 秋霞电影网一区二区| 国产精品一色哟哟哟| 亚洲福中文字幕伊人影院| 亚洲人成电影在线| 国产成人av一区二区三区| 日韩中文字幕国产精品| 热久久免费国产视频| 手机福利在线视频| 豆国产97在线 | 亚洲| 久久久国产一区二区三区四区小说 | 国产精品女人毛片| 欧美性做爰猛烈叫床潮| 亚洲欧美制服中文字幕| 最近2019年手机中文字幕| av一区和二区| √天堂资源在线| 久久字幕精品一区| 激情综合一区二区三区| 99国产精品久久| 五月天中文字幕一区二区| 国产精品亚洲美女av网站| 亚洲欧洲综合网| 日韩一级免费视频| 伊人开心综合网| 亚洲欧美日韩一区在线| 欧美aaaaa喷水| 一区二区三区在线视频看| www.色就是色.com| 日韩在线观看视频网站| 欧美性大战久久| 97人人干人人| 午夜精品久久久久99蜜桃最新版| 色婷婷综合中文久久一本| 免费在线观看的毛片| 国产日产精品1区| 91热精品视频| 极品人妻videosss人妻| 国产sm精品调教视频网站| 欧美日韩国产免费一区二区| 久久影院中文字幕| 一本久道中文无码字幕av| 国产原创视频在线| 久久蜜桃一区二区| 91精品久久久久久久久不口人| 女人扒开屁股爽桶30分钟| 亚洲黄色一区二区| 亚洲三级视频在线观看| 欧美日本在线视频中文字字幕| 久久精品ww人人做人人爽| 日韩欧美高清在线| www插插插无码免费视频网站| 黄色网址中文字幕| 日韩有码在线视频| 欧美多人猛交狂配| 日韩毛片中文字幕| 国产伦精品一区二区三区精品| 国产精品美女久久久久aⅴ国产馆| 国产亚洲精品美女久久久| 欧美午夜性视频| 成人毛片在线播放| 欧美在线制服丝袜| 成人激情视频在线播放| 国产肥白大熟妇bbbb视频| 国产欧美日韩另类一区| 国产成人+综合亚洲+天堂| 国产91美女视频| 成人高潮片免费视频| 91精品国产综合久久婷婷香蕉| 中文字幕在线亚洲三区| 成人欧美一区二区三区小说| 俄罗斯精品一区二区三区| 久久精品日韩无码| 婷婷综合久久一区二区三区| 日韩视频在线视频| av亚洲产国偷v产偷v自拍| 欧美亚洲日本国产| 免费日韩在线观看| 99在线热播精品免费| 日本亚洲导航| 国产精品怡红院| 国产精品久久久久久久久免费| 天天干视频在线| 成人欧美一区二区三区黑人| 老牛国产精品一区的观看方式| 国产97在线亚洲| 免费看国产黄色片|