![]()
在人工智能領(lǐng)域,有一個(gè)讓研究者們頭疼不已的問(wèn)題:雖然AI在文字理解和邏輯推理方面已經(jīng)表現(xiàn)得相當(dāng)出色,甚至能在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌,但一旦涉及到需要"看圖說(shuō)話"的視覺(jué)推理任務(wù),這些聰明的AI就開(kāi)始犯糊涂了。就像一個(gè)在紙上談兵方面無(wú)所不能的戰(zhàn)略家,卻在實(shí)際觀察戰(zhàn)場(chǎng)形勢(shì)時(shí)束手無(wú)策。
這項(xiàng)由羅切斯特理工學(xué)院的Md Tanvirul Alam領(lǐng)導(dǎo),聯(lián)合華盛頓大學(xué)Justin Yang Chae共同完成的突破性研究,于2025年11月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2511.20814v1),為解決這個(gè)難題提供了一個(gè)全新的解決方案。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SPHINX的合成環(huán)境系統(tǒng),專門用來(lái)訓(xùn)練和測(cè)試AI的視覺(jué)感知與推理能力。
SPHINX這個(gè)名字很有深意,它來(lái)源于古埃及神話中那個(gè)以謎語(yǔ)考驗(yàn)路人的獅身人面像。就像古老的斯芬克斯會(huì)用復(fù)雜的謎題挑戰(zhàn)智者一樣,現(xiàn)代的SPHINX系統(tǒng)也在用各種視覺(jué)推理謎題考驗(yàn)著最先進(jìn)的AI模型。研究結(jié)果令人深思:即使是目前最強(qiáng)大的GPT-5,在這些看似簡(jiǎn)單的視覺(jué)推理任務(wù)上也只能達(dá)到51.1%的準(zhǔn)確率,遠(yuǎn)低于人類75.4%的平均表現(xiàn)。
這項(xiàng)研究的創(chuàng)新之處在于,它不是簡(jiǎn)單地收集現(xiàn)有的視覺(jué)問(wèn)題,而是創(chuàng)建了一個(gè)能夠無(wú)限生成各種視覺(jué)推理題目的"題庫(kù)生成器"。這就像建造了一座永不枯竭的智力挑戰(zhàn)工廠,能夠源源不斷地產(chǎn)生新的測(cè)試題目,每道題都有標(biāo)準(zhǔn)答案,確保評(píng)估結(jié)果的準(zhǔn)確性和公正性。
一、SPHINX的獨(dú)特設(shè)計(jì)理念:像搭積木一樣構(gòu)建視覺(jué)推理題目
SPHINX系統(tǒng)的核心理念可以用搭積木來(lái)比喻。傳統(tǒng)的視覺(jué)推理測(cè)試往往是固定的題目集合,就像買來(lái)的現(xiàn)成拼圖,數(shù)量有限且無(wú)法變化。而SPHINX則更像一套萬(wàn)能積木系統(tǒng),包含了各種形狀、顏色和圖案的基礎(chǔ)組件,可以按照不同的規(guī)則組合成無(wú)窮無(wú)盡的新圖案。
這套"積木系統(tǒng)"包含三個(gè)核心組件。首先是"基礎(chǔ)圖形塊",研究團(tuán)隊(duì)稱之為Motifs,包含25種不同類型的基本視覺(jué)元素,從簡(jiǎn)單的圓形、三角形,到復(fù)雜的星形多邊形、新月形,甚至包括時(shí)鐘、齒輪等日常物品的圖形化表示。每種圖形都可以調(diào)整大小、顏色、角度等屬性,就像可以變換顏色和大小的魔法積木。
第二個(gè)組件是"畫(huà)布模板",也就是Tilings系統(tǒng)。這相當(dāng)于為積木提供不同的拼裝底板,包括方形網(wǎng)格、三角形網(wǎng)格、六邊形網(wǎng)格等五種不同的幾何排列方式。就像同樣的樂(lè)高積木可以拼在不同形狀的底板上,創(chuàng)造出完全不同的作品一樣,相同的圖形元素在不同的畫(huà)布上會(huì)產(chǎn)生截然不同的視覺(jué)效果。
第三個(gè)組件是"游戲規(guī)則",即Tasks系統(tǒng),定義了25種不同類型的視覺(jué)推理挑戰(zhàn)。這些規(guī)則就像不同的游戲玩法,比如"找對(duì)稱"游戲要求識(shí)別圖案的對(duì)稱性,"數(shù)圖形"游戲要求計(jì)算特定形狀的數(shù)量,"找規(guī)律"游戲要求預(yù)測(cè)序列中的下一個(gè)圖案。
這種模塊化設(shè)計(jì)的妙處在于,三個(gè)組件可以自由組合,產(chǎn)生幾乎無(wú)限多的題目變化。研究團(tuán)隊(duì)巧妙地將視覺(jué)外觀、空間布局和推理規(guī)則完全分離開(kāi)來(lái),這樣就能系統(tǒng)性地控制題目的難度和類型,同時(shí)確保每道題都有明確唯一的正確答案。
二、五大類視覺(jué)推理挑戰(zhàn):從幾何計(jì)算到抽象思維
SPHINX系統(tǒng)設(shè)計(jì)的25種任務(wù)可以歸納為五個(gè)主要類別,每一類都對(duì)應(yīng)著人類視覺(jué)推理的不同能力層面。
幾何推理類任務(wù)主要考驗(yàn)AI對(duì)空間關(guān)系和幾何屬性的理解能力。比如位置計(jì)數(shù)任務(wù),要求計(jì)算有多少個(gè)小圖形位于大圖形的內(nèi)部、外部或特定位置關(guān)系中。這就像在一張復(fù)雜的地圖上數(shù)房子一樣,需要準(zhǔn)確理解空間位置關(guān)系。形狀排序任務(wù)則要求按照面積、周長(zhǎng)或角度大小對(duì)幾何圖形進(jìn)行排列,類似于按大小整理不同的盤子或按重量排列不同的包裹。
計(jì)數(shù)類任務(wù)專門測(cè)試AI的精確計(jì)數(shù)能力,這看起來(lái)簡(jiǎn)單,實(shí)際上對(duì)機(jī)器來(lái)說(shuō)相當(dāng)具有挑戰(zhàn)性。韋恩圖任務(wù)要求計(jì)算重疊區(qū)域中數(shù)字的總和,就像計(jì)算不同圈子里共同好友的數(shù)量。圖形計(jì)數(shù)任務(wù)要求統(tǒng)計(jì)復(fù)雜圖形中包含的子圖形數(shù)量,比如數(shù)一數(shù)由多個(gè)三角形組成的大圖形中究竟有多少個(gè)三角形,這需要系統(tǒng)性的觀察和計(jì)算能力。
對(duì)稱性與模式識(shí)別類任務(wù)考驗(yàn)的是AI對(duì)規(guī)律性和對(duì)稱性的敏感度。鏡像識(shí)別任務(wù)要求判斷圖像具有哪種類型的對(duì)稱性,就像識(shí)別一朵花是否左右對(duì)稱或上下對(duì)稱。對(duì)稱填充任務(wù)則給出一個(gè)2×2網(wǎng)格,要求選擇合適的圖塊來(lái)完成特定的對(duì)稱模式,這類似于完成一個(gè)對(duì)稱的拼圖游戲。
序列與變換推理類任務(wù)模擬的是時(shí)間序列中的邏輯推理。變換結(jié)果識(shí)別要求預(yù)測(cè)對(duì)圖形施加特定變換(如旋轉(zhuǎn)、翻轉(zhuǎn))后的結(jié)果,就像心理旋轉(zhuǎn)測(cè)試一樣。序列旋轉(zhuǎn)任務(wù)展示一系列按固定角度旋轉(zhuǎn)的圖形,要求預(yù)測(cè)序列中缺失的那一個(gè),這考驗(yàn)的是對(duì)連續(xù)變化模式的理解能力。
拓?fù)渑c圖論推理類任務(wù)涉及連通性、路徑和網(wǎng)絡(luò)結(jié)構(gòu)的推理。最短路徑任務(wù)要求在有障礙物的網(wǎng)格中找到兩點(diǎn)間的最短路徑,就像在迷宮中尋找出路。連通組件任務(wù)要求分析顏色相同的相鄰格子組成了多少個(gè)獨(dú)立的區(qū)域,類似于分析一張地圖上有多少個(gè)獨(dú)立的湖泊或森林。
三、令人意外的測(cè)試結(jié)果:AI的"視覺(jué)盲點(diǎn)"暴露無(wú)遺
研究團(tuán)隊(duì)使用SPHINX系統(tǒng)對(duì)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言模型進(jìn)行了全面測(cè)試,結(jié)果令人深思。即使是被譽(yù)為最強(qiáng)大的GPT-5,在這些視覺(jué)推理任務(wù)上也只能達(dá)到51.1%的準(zhǔn)確率,這意味著它的表現(xiàn)甚至不如隨機(jī)猜測(cè)在某些多選題中的效果。相比之下,參與測(cè)試的人類用戶平均準(zhǔn)確率達(dá)到75.4%,顯示出人類在視覺(jué)推理方面仍然保持著顯著優(yōu)勢(shì)。
更有趣的是,不同類型任務(wù)之間的難度差異揭示了AI視覺(jué)理解的具體弱點(diǎn)。在幾何推理類任務(wù)中,GPT-5表現(xiàn)相對(duì)較好,達(dá)到74%的準(zhǔn)確率,這表明它在處理空間關(guān)系和幾何屬性方面有一定能力。然而在計(jì)數(shù)類任務(wù)中,準(zhǔn)確率急劇下降到36.6%,暴露了AI在精確計(jì)數(shù)方面的嚴(yán)重不足。
最讓研究者們感到意外的是,在一些看似簡(jiǎn)單的任務(wù)中,AI的表現(xiàn)反而更差。比如瓷磚線長(zhǎng)度測(cè)量任務(wù),要求計(jì)算彩色線條沿著網(wǎng)格邊緣的長(zhǎng)度,人類可以輕松達(dá)到86.4%的準(zhǔn)確率,而GPT-5卻只有14%的準(zhǔn)確率。這就像一個(gè)能夠解決復(fù)雜數(shù)學(xué)方程的天才,卻在數(shù)格子這樣的基礎(chǔ)任務(wù)上頻頻出錯(cuò)。
相反,在圖形計(jì)數(shù)任務(wù)中,GPT-5的表現(xiàn)(76%)竟然超過(guò)了人類(55.2%)。研究團(tuán)隊(duì)分析認(rèn)為,這可能是因?yàn)锳I在進(jìn)行系統(tǒng)性計(jì)算時(shí)不會(huì)像人類那樣因?yàn)樽⒁饬Ψ稚⒒蛴洃浵拗贫鲥e(cuò),但前提是它必須正確理解視覺(jué)信息的基礎(chǔ)結(jié)構(gòu)。
人類測(cè)試者的表現(xiàn)也展現(xiàn)出有趣的規(guī)律。研究發(fā)現(xiàn),參與者對(duì)這類視覺(jué)推理任務(wù)的熟悉程度與準(zhǔn)確率之間存在強(qiáng)烈的正相關(guān)關(guān)系。那些自報(bào)對(duì)視覺(jué)推理任務(wù)很熟悉的參與者準(zhǔn)確率可達(dá)88%,而完全不熟悉的參與者只能達(dá)到65.2%。這提示了經(jīng)驗(yàn)和訓(xùn)練在視覺(jué)推理能力發(fā)展中的重要作用。
四、強(qiáng)化學(xué)習(xí)的救贖之路:讓AI在試錯(cuò)中成長(zhǎng)
面對(duì)AI在視覺(jué)推理方面的明顯不足,研究團(tuán)隊(duì)嘗試了一種名為"可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)"(RLVR)的訓(xùn)練方法來(lái)改善模型性能。這種方法的核心思想是讓AI在大量練習(xí)中逐步提高,就像一個(gè)學(xué)生通過(guò)不斷做習(xí)題來(lái)提高解題能力。
強(qiáng)化學(xué)習(xí)訓(xùn)練的關(guān)鍵優(yōu)勢(shì)在于SPHINX系統(tǒng)能夠自動(dòng)生成無(wú)限多的練習(xí)題,并為每道題提供標(biāo)準(zhǔn)答案。這創(chuàng)造了一個(gè)完美的訓(xùn)練環(huán)境:AI可以嘗試解答各種類型的視覺(jué)推理題目,每次回答后立即獲得正確與否的反饋,然后調(diào)整自己的答題策略。這個(gè)過(guò)程就像一個(gè)永不疲倦的家教在旁邊指導(dǎo),確保每一次錯(cuò)誤都能轉(zhuǎn)化為學(xué)習(xí)的機(jī)會(huì)。
研究團(tuán)隊(duì)選擇了四個(gè)不同規(guī)模的開(kāi)源模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,分別是Qwen2.5-VL系列的3B和7B參數(shù)版本,以及Qwen3-VL系列的4B和8B參數(shù)版本。訓(xùn)練過(guò)程持續(xù)500輪,每輪都會(huì)生成多個(gè)候選答案,然后通過(guò)比較這些答案的質(zhì)量來(lái)指導(dǎo)模型改進(jìn)。
訓(xùn)練結(jié)果令人鼓舞。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型在原有測(cè)試任務(wù)上都顯現(xiàn)出明顯改進(jìn),特別是在訓(xùn)練時(shí)見(jiàn)過(guò)的20種任務(wù)類型中,所有模型都獲得了substantial gains。更重要的是,這種改進(jìn)還能遷移到訓(xùn)練時(shí)從未見(jiàn)過(guò)的5種新任務(wù)類型中,雖然改進(jìn)幅度有所降低,但仍然表現(xiàn)出可觀的泛化能力。
五、意外發(fā)現(xiàn):AI的計(jì)數(shù)困難與推理能力的深層聯(lián)系
在對(duì)訓(xùn)練前后AI模型表現(xiàn)的詳細(xì)分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些頗具啟發(fā)性的模式。最引人注目的發(fā)現(xiàn)是,AI在視覺(jué)推理中的主要困難并不在于缺乏邏輯推理能力,而在于無(wú)法準(zhǔn)確提取和計(jì)數(shù)視覺(jué)信息。
以圖形計(jì)數(shù)任務(wù)為例,研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-5經(jīng)常能夠產(chǎn)生清晰、合乎邏輯的推理步驟,比如系統(tǒng)性地枚舉所有可能的子圖形,按大小或類型進(jìn)行分類,然后逐步累加總數(shù)。然而,這些邏輯上完全正確的推理過(guò)程經(jīng)常建立在錯(cuò)誤的視覺(jué)觀察基礎(chǔ)上。AI可能會(huì)錯(cuò)誤地報(bào)告圖形中有5行而不是4行,或者數(shù)錯(cuò)了平行線的數(shù)量,導(dǎo)致最終答案雖然邏輯嚴(yán)密但結(jié)果錯(cuò)誤。
這種現(xiàn)象就像一個(gè)計(jì)算能力超強(qiáng)的會(huì)計(jì)師,能夠進(jìn)行復(fù)雜的財(cái)務(wù)計(jì)算和分析,但卻經(jīng)常看錯(cuò)賬單上的基礎(chǔ)數(shù)字,導(dǎo)致最終報(bào)告完全錯(cuò)誤。這提示了當(dāng)前視覺(jué)-語(yǔ)言模型的一個(gè)關(guān)鍵局限:它們?cè)诟邔油评砗偷蛯痈兄g存在著明顯的能力不匹配。
另一個(gè)有趣的發(fā)現(xiàn)是不同任務(wù)之間的難度對(duì)比反映了人機(jī)認(rèn)知差異。對(duì)稱性識(shí)別任務(wù)對(duì)人類來(lái)說(shuō)相對(duì)簡(jiǎn)單,因?yàn)槿祟愐曈X(jué)系統(tǒng)天生對(duì)對(duì)稱性敏感,這可能源于進(jìn)化過(guò)程中識(shí)別面部和身體的需要。然而對(duì)AI來(lái)說(shuō),對(duì)稱性識(shí)別需要精確的幾何計(jì)算和比較,反而比一些看似復(fù)雜的邏輯推理任務(wù)更困難。
六、SPHINX的更深層意義:重新定義AI能力評(píng)估標(biāo)準(zhǔn)
SPHINX系統(tǒng)的價(jià)值遠(yuǎn)遠(yuǎn)超出了單純的模型測(cè)試。它代表了AI能力評(píng)估方法的一個(gè)重要轉(zhuǎn)變:從依賴有限的靜態(tài)測(cè)試集轉(zhuǎn)向動(dòng)態(tài)生成的無(wú)窮測(cè)試空間。
傳統(tǒng)的AI評(píng)估往往使用固定的基準(zhǔn)測(cè)試集,這些測(cè)試集雖然標(biāo)準(zhǔn)化程度高,但存在一個(gè)根本性問(wèn)題:AI模型可能會(huì)"背答案"而不是真正理解問(wèn)題。就像一個(gè)學(xué)生如果事先知道考試題目,可能會(huì)表現(xiàn)得比實(shí)際能力更好,但這種表現(xiàn)并不代表真實(shí)的理解水平。
SPHINX的程序化生成機(jī)制徹底解決了這個(gè)問(wèn)題。由于題目是實(shí)時(shí)生成的,且數(shù)量幾乎無(wú)限,AI模型不可能提前"見(jiàn)過(guò)"所有題目,因此測(cè)試結(jié)果更能反映真實(shí)的推理能力。這就像一個(gè)能夠出無(wú)限多道數(shù)學(xué)題的智能出題系統(tǒng),每次考試都有新題目,確保測(cè)試的是真實(shí)的數(shù)學(xué)理解能力而不是記憶力。
更重要的是,SPHINX的模塊化設(shè)計(jì)使研究者能夠系統(tǒng)性地分析AI的能力邊界。通過(guò)調(diào)整不同的參數(shù)組合,研究者可以精確定位AI在哪些具體方面表現(xiàn)良好,在哪些方面仍有不足。這種精細(xì)化的分析有助于指導(dǎo)未來(lái)AI系統(tǒng)的改進(jìn)方向。
七、強(qiáng)化學(xué)習(xí)訓(xùn)練的意外收獲:縮短回答但提高準(zhǔn)確性
在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)觀察到了一個(gè)意外而有趣的現(xiàn)象:經(jīng)過(guò)訓(xùn)練的模型不僅準(zhǔn)確率提高了,回答也變得更加簡(jiǎn)潔。這個(gè)發(fā)現(xiàn)顛覆了"更長(zhǎng)的解釋意味著更好的推理"的常見(jiàn)假設(shè)。
訓(xùn)練前的模型往往會(huì)產(chǎn)生冗長(zhǎng)、詳細(xì)的解釋,包含大量看似合理但實(shí)際上可能有誤的推理步驟。訓(xùn)練后的模型學(xué)會(huì)了更直接、更準(zhǔn)確地回答問(wèn)題,減少了不必要的贅述。這就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生能夠快速準(zhǔn)確地診斷病情,而不需要像醫(yī)學(xué)生那樣羅列所有可能的癥狀和檢查項(xiàng)目。
這種變化可能反映了模型對(duì)任務(wù)理解的深化。當(dāng)AI真正掌握了視覺(jué)推理的要領(lǐng)時(shí),它就能夠更高效地處理問(wèn)題,而不需要通過(guò)冗長(zhǎng)的"思考過(guò)程"來(lái)掩蓋不確定性。這也為評(píng)估AI推理質(zhì)量提供了一個(gè)新的指標(biāo):在準(zhǔn)確率相同的情況下,更簡(jiǎn)潔的回答可能表明更深層的理解。
八、跨領(lǐng)域測(cè)試驗(yàn)證:SPHINX訓(xùn)練效果的廣泛適用性
為了驗(yàn)證SPHINX訓(xùn)練是否只是在特定任務(wù)上的過(guò)擬合,研究團(tuán)隊(duì)在八個(gè)不同的外部視覺(jué)推理基準(zhǔn)上測(cè)試了訓(xùn)練后的模型。這些基準(zhǔn)包括MathVista(數(shù)學(xué)視覺(jué)推理)、MathVision(數(shù)學(xué)問(wèn)題理解)、MathVerse(數(shù)學(xué)文本理解)、LogicVista(邏輯推理)、Blink(視覺(jué)感知)、MMT-Bench(多模態(tài)任務(wù))、MMVP(多模態(tài)視覺(jué)推理)和VStarBench(視頻推理)。
結(jié)果顯示,經(jīng)過(guò)SPHINX訓(xùn)練的模型在這些外部測(cè)試中也表現(xiàn)出了一致的改進(jìn),雖然改進(jìn)幅度相對(duì)較小,但覆蓋面很廣。在32個(gè)模型-測(cè)試組合中,有26個(gè)顯示出性能提升,只有3個(gè)出現(xiàn)下降,其余保持不變。這種廣泛的改進(jìn)說(shuō)明SPHINX訓(xùn)練確實(shí)增強(qiáng)了模型的通用視覺(jué)推理能力,而不只是針對(duì)特定任務(wù)的優(yōu)化。
特別值得注意的是,改進(jìn)幅度與基礎(chǔ)模型的強(qiáng)度呈正相關(guān)關(guān)系。Qwen3-VL-8B作為四個(gè)測(cè)試模型中最強(qiáng)的基礎(chǔ)模型,獲得了最大的平均改進(jìn)幅度(+2.8%)。這提示了一個(gè)重要趨勢(shì):更強(qiáng)的預(yù)訓(xùn)練模型可能更能夠從強(qiáng)化學(xué)習(xí)訓(xùn)練中受益,這為未來(lái)更大規(guī)模模型的訓(xùn)練提供了有希望的方向。
九、技術(shù)實(shí)現(xiàn)細(xì)節(jié):構(gòu)建可擴(kuò)展的視覺(jué)推理測(cè)試平臺(tái)
SPHINX系統(tǒng)的技術(shù)實(shí)現(xiàn)體現(xiàn)了軟件工程中模塊化設(shè)計(jì)的最佳實(shí)踐。整個(gè)系統(tǒng)采用了三層解耦的架構(gòu)設(shè)計(jì),每一層都可以獨(dú)立修改和擴(kuò)展,而不影響其他層的功能。
底層的Motifs系統(tǒng)實(shí)現(xiàn)了25種參數(shù)化的視覺(jué)圖形生成器。每個(gè)生成器都像一個(gè)可調(diào)節(jié)的圖形工廠,能夠根據(jù)輸入?yún)?shù)產(chǎn)生無(wú)限變化的圖形實(shí)例。比如圓弧生成器可以調(diào)節(jié)圓心位置、半徑、起始角度、掃描角度等參數(shù),產(chǎn)生從完整圓形到各種弧形的變化。這種參數(shù)化設(shè)計(jì)確保了圖形變化的可控性和系統(tǒng)性。
中層的Tilings系統(tǒng)提供了統(tǒng)一的幾何畫(huà)布接口。無(wú)論是方形網(wǎng)格、三角形網(wǎng)格還是六邊形網(wǎng)格,都通過(guò)相同的接口提供頂點(diǎn)、單元格和鄰接關(guān)系信息。這種標(biāo)準(zhǔn)化接口使得上層的任務(wù)系統(tǒng)可以無(wú)差別地在不同幾何結(jié)構(gòu)上操作,大大簡(jiǎn)化了任務(wù)實(shí)現(xiàn)的復(fù)雜度。
頂層的Tasks系統(tǒng)定義了25種不同的視覺(jué)推理挑戰(zhàn)類型。每種任務(wù)都實(shí)現(xiàn)為一個(gè)獨(dú)立的類,包含題目生成、答案計(jì)算、選項(xiàng)生成和答案驗(yàn)證等完整功能。這種面向?qū)ο蟮脑O(shè)計(jì)使得添加新任務(wù)類型變得相當(dāng)簡(jiǎn)單,只需要繼承基礎(chǔ)任務(wù)類并實(shí)現(xiàn)特定的邏輯即可。
十、人類測(cè)試的啟發(fā)性發(fā)現(xiàn):熟悉度決定推理能力
在人類基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)收集了32名參與者的完整測(cè)試數(shù)據(jù),包括每個(gè)問(wèn)題的回答時(shí)間、正確性和主觀難度評(píng)分。這些數(shù)據(jù)揭示了人類視覺(jué)推理能力的一些有趣特征。
最重要的發(fā)現(xiàn)是熟悉度與表現(xiàn)之間的強(qiáng)烈正相關(guān)關(guān)系。那些自報(bào)對(duì)視覺(jué)推理任務(wù)"非常熟悉"的參與者平均準(zhǔn)確率達(dá)到88%,而"完全不熟悉"的參與者只有65.2%。這種巨大差異提示了經(jīng)驗(yàn)和訓(xùn)練在視覺(jué)推理能力發(fā)展中的關(guān)鍵作用。
不同任務(wù)類型的人類表現(xiàn)也展現(xiàn)出認(rèn)知心理學(xué)的有趣模式。對(duì)稱性相關(guān)任務(wù)的準(zhǔn)確率分布很大,從簡(jiǎn)單的鏡像識(shí)別(高準(zhǔn)確率)到復(fù)雜的Frieze群識(shí)別(48.4%的最低準(zhǔn)確率)。這種差異反映了人類視覺(jué)系統(tǒng)的層次化處理特性:基礎(chǔ)的對(duì)稱性檢測(cè)是自動(dòng)化的,但復(fù)雜的對(duì)稱性分類需要有意識(shí)的分析處理。
時(shí)間分析數(shù)據(jù)也很有啟發(fā)性。需要mental rotation(心理旋轉(zhuǎn))的任務(wù),如瓷磚組合題,不僅準(zhǔn)確率較低,平均回答時(shí)間也最長(zhǎng),這與認(rèn)知心理學(xué)中關(guān)于空間推理認(rèn)知負(fù)荷的經(jīng)典研究結(jié)果高度一致。
說(shuō)到底,SPHINX項(xiàng)目為我們揭示了一個(gè)重要的現(xiàn)實(shí):當(dāng)前最先進(jìn)的AI在視覺(jué)推理方面仍然存在根本性的不足。雖然這些模型在文字推理和知識(shí)問(wèn)答方面已經(jīng)達(dá)到甚至超越人類水平,但在需要"眼腦并用"的綜合任務(wù)中,它們的表現(xiàn)仍然落后于普通人類。
這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展具有深遠(yuǎn)意義。它提醒我們,真正的人工智能不僅需要強(qiáng)大的語(yǔ)言理解能力,更需要準(zhǔn)確的視覺(jué)感知和空間推理能力。SPHINX系統(tǒng)提供了一個(gè)寶貴的工具,讓研究者能夠系統(tǒng)性地診斷和改進(jìn)AI的視覺(jué)推理能力。
更令人鼓舞的是,強(qiáng)化學(xué)習(xí)訓(xùn)練顯示出了改進(jìn)的可能性。雖然目前的改進(jìn)幅度還不足以完全縮小人機(jī)差距,但這種訓(xùn)練方法的有效性為未來(lái)的發(fā)展指明了方向。隨著更大規(guī)模模型和更先進(jìn)訓(xùn)練方法的出現(xiàn),我們有理由相信AI在視覺(jué)推理方面的表現(xiàn)將會(huì)持續(xù)改善。
對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究提醒我們,人類的視覺(jué)推理能力仍然是獨(dú)特而寶貴的。在AI快速發(fā)展的時(shí)代,那些需要綜合運(yùn)用視覺(jué)感知、空間想象和邏輯推理的能力仍然是人類的相對(duì)優(yōu)勢(shì)領(lǐng)域。同時(shí),SPHINX這樣的研究工具也為教育和訓(xùn)練提供了新的可能性,或許未來(lái)我們可以用類似的系統(tǒng)來(lái)幫助學(xué)生提高視覺(jué)推理能力。
有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2511.20814v1查閱完整論文,研究團(tuán)隊(duì)也在GitHub上開(kāi)源了SPHINX系統(tǒng)的代碼和數(shù)據(jù)集,為更廣泛的研究社區(qū)提供了寶貴的資源。
Q&A
Q1:SPHINX系統(tǒng)是什么,它是如何工作的?
A:SPHINX是羅切斯特理工學(xué)院開(kāi)發(fā)的AI視覺(jué)推理測(cè)試系統(tǒng)。它像一個(gè)智能題庫(kù)生成器,能無(wú)限產(chǎn)生各種視覺(jué)推理題目。系統(tǒng)包含25種基礎(chǔ)圖形、5種畫(huà)布布局和25種推理任務(wù),通過(guò)自由組合創(chuàng)造出幾乎無(wú)限的測(cè)試題目,每題都有標(biāo)準(zhǔn)答案,專門用來(lái)測(cè)試和訓(xùn)練AI的視覺(jué)推理能力。
Q2:為什么GPT-5這樣的先進(jìn)AI在SPHINX測(cè)試中表現(xiàn)不好?
A:GPT-5在SPHINX測(cè)試中只有51.1%準(zhǔn)確率,主要問(wèn)題不在邏輯推理能力,而在視覺(jué)信息提取。AI經(jīng)常能產(chǎn)生完美的推理步驟,但基礎(chǔ)視覺(jué)觀察出錯(cuò),比如數(shù)錯(cuò)圖形數(shù)量或看錯(cuò)顏色,導(dǎo)致邏輯正確但答案錯(cuò)誤。這就像計(jì)算專家看錯(cuò)了基礎(chǔ)數(shù)據(jù),再精密的計(jì)算也無(wú)濟(jì)于事。
Q3:強(qiáng)化學(xué)習(xí)訓(xùn)練能讓AI的視覺(jué)推理能力提高多少?
A:經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,AI模型在SPHINX任務(wù)中普遍獲得顯著改進(jìn),訓(xùn)練過(guò)的任務(wù)準(zhǔn)確率提升5-17%不等,甚至在未見(jiàn)過(guò)的新任務(wù)中也有2-8%的提升。更重要的是,這種改進(jìn)還能遷移到其他視覺(jué)推理基準(zhǔn)測(cè)試中,顯示出通用性的提升,證明訓(xùn)練確實(shí)增強(qiáng)了真實(shí)的推理能力。





京公網(wǎng)安備 11011402013531號(hào)