亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁(yè) ? 資訊 ? 新科技 ? 正文

切斯特理工學(xué)院SPHINX:AI實(shí)現(xiàn)復(fù)雜視覺(jué)推理

IP屬地 中國(guó)·北京 科技行者 時(shí)間:2025-11-28 22:09:43


在人工智能領(lǐng)域,有一個(gè)讓研究者們頭疼不已的問(wèn)題:雖然AI在文字理解和邏輯推理方面已經(jīng)表現(xiàn)得相當(dāng)出色,甚至能在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中獲得金牌,但一旦涉及到需要"看圖說(shuō)話"的視覺(jué)推理任務(wù),這些聰明的AI就開(kāi)始犯糊涂了。就像一個(gè)在紙上談兵方面無(wú)所不能的戰(zhàn)略家,卻在實(shí)際觀察戰(zhàn)場(chǎng)形勢(shì)時(shí)束手無(wú)策。

這項(xiàng)由羅切斯特理工學(xué)院的Md Tanvirul Alam領(lǐng)導(dǎo),聯(lián)合華盛頓大學(xué)Justin Yang Chae共同完成的突破性研究,于2025年11月發(fā)表在arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2511.20814v1),為解決這個(gè)難題提供了一個(gè)全新的解決方案。研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SPHINX的合成環(huán)境系統(tǒng),專門用來(lái)訓(xùn)練和測(cè)試AI的視覺(jué)感知與推理能力。

SPHINX這個(gè)名字很有深意,它來(lái)源于古埃及神話中那個(gè)以謎語(yǔ)考驗(yàn)路人的獅身人面像。就像古老的斯芬克斯會(huì)用復(fù)雜的謎題挑戰(zhàn)智者一樣,現(xiàn)代的SPHINX系統(tǒng)也在用各種視覺(jué)推理謎題考驗(yàn)著最先進(jìn)的AI模型。研究結(jié)果令人深思:即使是目前最強(qiáng)大的GPT-5,在這些看似簡(jiǎn)單的視覺(jué)推理任務(wù)上也只能達(dá)到51.1%的準(zhǔn)確率,遠(yuǎn)低于人類75.4%的平均表現(xiàn)。

這項(xiàng)研究的創(chuàng)新之處在于,它不是簡(jiǎn)單地收集現(xiàn)有的視覺(jué)問(wèn)題,而是創(chuàng)建了一個(gè)能夠無(wú)限生成各種視覺(jué)推理題目的"題庫(kù)生成器"。這就像建造了一座永不枯竭的智力挑戰(zhàn)工廠,能夠源源不斷地產(chǎn)生新的測(cè)試題目,每道題都有標(biāo)準(zhǔn)答案,確保評(píng)估結(jié)果的準(zhǔn)確性和公正性。

一、SPHINX的獨(dú)特設(shè)計(jì)理念:像搭積木一樣構(gòu)建視覺(jué)推理題目

SPHINX系統(tǒng)的核心理念可以用搭積木來(lái)比喻。傳統(tǒng)的視覺(jué)推理測(cè)試往往是固定的題目集合,就像買來(lái)的現(xiàn)成拼圖,數(shù)量有限且無(wú)法變化。而SPHINX則更像一套萬(wàn)能積木系統(tǒng),包含了各種形狀、顏色和圖案的基礎(chǔ)組件,可以按照不同的規(guī)則組合成無(wú)窮無(wú)盡的新圖案。

這套"積木系統(tǒng)"包含三個(gè)核心組件。首先是"基礎(chǔ)圖形塊",研究團(tuán)隊(duì)稱之為Motifs,包含25種不同類型的基本視覺(jué)元素,從簡(jiǎn)單的圓形、三角形,到復(fù)雜的星形多邊形、新月形,甚至包括時(shí)鐘、齒輪等日常物品的圖形化表示。每種圖形都可以調(diào)整大小、顏色、角度等屬性,就像可以變換顏色和大小的魔法積木。

第二個(gè)組件是"畫(huà)布模板",也就是Tilings系統(tǒng)。這相當(dāng)于為積木提供不同的拼裝底板,包括方形網(wǎng)格、三角形網(wǎng)格、六邊形網(wǎng)格等五種不同的幾何排列方式。就像同樣的樂(lè)高積木可以拼在不同形狀的底板上,創(chuàng)造出完全不同的作品一樣,相同的圖形元素在不同的畫(huà)布上會(huì)產(chǎn)生截然不同的視覺(jué)效果。

第三個(gè)組件是"游戲規(guī)則",即Tasks系統(tǒng),定義了25種不同類型的視覺(jué)推理挑戰(zhàn)。這些規(guī)則就像不同的游戲玩法,比如"找對(duì)稱"游戲要求識(shí)別圖案的對(duì)稱性,"數(shù)圖形"游戲要求計(jì)算特定形狀的數(shù)量,"找規(guī)律"游戲要求預(yù)測(cè)序列中的下一個(gè)圖案。

這種模塊化設(shè)計(jì)的妙處在于,三個(gè)組件可以自由組合,產(chǎn)生幾乎無(wú)限多的題目變化。研究團(tuán)隊(duì)巧妙地將視覺(jué)外觀、空間布局和推理規(guī)則完全分離開(kāi)來(lái),這樣就能系統(tǒng)性地控制題目的難度和類型,同時(shí)確保每道題都有明確唯一的正確答案。

二、五大類視覺(jué)推理挑戰(zhàn):從幾何計(jì)算到抽象思維

SPHINX系統(tǒng)設(shè)計(jì)的25種任務(wù)可以歸納為五個(gè)主要類別,每一類都對(duì)應(yīng)著人類視覺(jué)推理的不同能力層面。

幾何推理類任務(wù)主要考驗(yàn)AI對(duì)空間關(guān)系和幾何屬性的理解能力。比如位置計(jì)數(shù)任務(wù),要求計(jì)算有多少個(gè)小圖形位于大圖形的內(nèi)部、外部或特定位置關(guān)系中。這就像在一張復(fù)雜的地圖上數(shù)房子一樣,需要準(zhǔn)確理解空間位置關(guān)系。形狀排序任務(wù)則要求按照面積、周長(zhǎng)或角度大小對(duì)幾何圖形進(jìn)行排列,類似于按大小整理不同的盤子或按重量排列不同的包裹。

計(jì)數(shù)類任務(wù)專門測(cè)試AI的精確計(jì)數(shù)能力,這看起來(lái)簡(jiǎn)單,實(shí)際上對(duì)機(jī)器來(lái)說(shuō)相當(dāng)具有挑戰(zhàn)性。韋恩圖任務(wù)要求計(jì)算重疊區(qū)域中數(shù)字的總和,就像計(jì)算不同圈子里共同好友的數(shù)量。圖形計(jì)數(shù)任務(wù)要求統(tǒng)計(jì)復(fù)雜圖形中包含的子圖形數(shù)量,比如數(shù)一數(shù)由多個(gè)三角形組成的大圖形中究竟有多少個(gè)三角形,這需要系統(tǒng)性的觀察和計(jì)算能力。

對(duì)稱性與模式識(shí)別類任務(wù)考驗(yàn)的是AI對(duì)規(guī)律性和對(duì)稱性的敏感度。鏡像識(shí)別任務(wù)要求判斷圖像具有哪種類型的對(duì)稱性,就像識(shí)別一朵花是否左右對(duì)稱或上下對(duì)稱。對(duì)稱填充任務(wù)則給出一個(gè)2×2網(wǎng)格,要求選擇合適的圖塊來(lái)完成特定的對(duì)稱模式,這類似于完成一個(gè)對(duì)稱的拼圖游戲。

序列與變換推理類任務(wù)模擬的是時(shí)間序列中的邏輯推理。變換結(jié)果識(shí)別要求預(yù)測(cè)對(duì)圖形施加特定變換(如旋轉(zhuǎn)、翻轉(zhuǎn))后的結(jié)果,就像心理旋轉(zhuǎn)測(cè)試一樣。序列旋轉(zhuǎn)任務(wù)展示一系列按固定角度旋轉(zhuǎn)的圖形,要求預(yù)測(cè)序列中缺失的那一個(gè),這考驗(yàn)的是對(duì)連續(xù)變化模式的理解能力。

拓?fù)渑c圖論推理類任務(wù)涉及連通性、路徑和網(wǎng)絡(luò)結(jié)構(gòu)的推理。最短路徑任務(wù)要求在有障礙物的網(wǎng)格中找到兩點(diǎn)間的最短路徑,就像在迷宮中尋找出路。連通組件任務(wù)要求分析顏色相同的相鄰格子組成了多少個(gè)獨(dú)立的區(qū)域,類似于分析一張地圖上有多少個(gè)獨(dú)立的湖泊或森林。

三、令人意外的測(cè)試結(jié)果:AI的"視覺(jué)盲點(diǎn)"暴露無(wú)遺

研究團(tuán)隊(duì)使用SPHINX系統(tǒng)對(duì)當(dāng)前最先進(jìn)的視覺(jué)-語(yǔ)言模型進(jìn)行了全面測(cè)試,結(jié)果令人深思。即使是被譽(yù)為最強(qiáng)大的GPT-5,在這些視覺(jué)推理任務(wù)上也只能達(dá)到51.1%的準(zhǔn)確率,這意味著它的表現(xiàn)甚至不如隨機(jī)猜測(cè)在某些多選題中的效果。相比之下,參與測(cè)試的人類用戶平均準(zhǔn)確率達(dá)到75.4%,顯示出人類在視覺(jué)推理方面仍然保持著顯著優(yōu)勢(shì)。

更有趣的是,不同類型任務(wù)之間的難度差異揭示了AI視覺(jué)理解的具體弱點(diǎn)。在幾何推理類任務(wù)中,GPT-5表現(xiàn)相對(duì)較好,達(dá)到74%的準(zhǔn)確率,這表明它在處理空間關(guān)系和幾何屬性方面有一定能力。然而在計(jì)數(shù)類任務(wù)中,準(zhǔn)確率急劇下降到36.6%,暴露了AI在精確計(jì)數(shù)方面的嚴(yán)重不足。

最讓研究者們感到意外的是,在一些看似簡(jiǎn)單的任務(wù)中,AI的表現(xiàn)反而更差。比如瓷磚線長(zhǎng)度測(cè)量任務(wù),要求計(jì)算彩色線條沿著網(wǎng)格邊緣的長(zhǎng)度,人類可以輕松達(dá)到86.4%的準(zhǔn)確率,而GPT-5卻只有14%的準(zhǔn)確率。這就像一個(gè)能夠解決復(fù)雜數(shù)學(xué)方程的天才,卻在數(shù)格子這樣的基礎(chǔ)任務(wù)上頻頻出錯(cuò)。

相反,在圖形計(jì)數(shù)任務(wù)中,GPT-5的表現(xiàn)(76%)竟然超過(guò)了人類(55.2%)。研究團(tuán)隊(duì)分析認(rèn)為,這可能是因?yàn)锳I在進(jìn)行系統(tǒng)性計(jì)算時(shí)不會(huì)像人類那樣因?yàn)樽⒁饬Ψ稚⒒蛴洃浵拗贫鲥e(cuò),但前提是它必須正確理解視覺(jué)信息的基礎(chǔ)結(jié)構(gòu)。

人類測(cè)試者的表現(xiàn)也展現(xiàn)出有趣的規(guī)律。研究發(fā)現(xiàn),參與者對(duì)這類視覺(jué)推理任務(wù)的熟悉程度與準(zhǔn)確率之間存在強(qiáng)烈的正相關(guān)關(guān)系。那些自報(bào)對(duì)視覺(jué)推理任務(wù)很熟悉的參與者準(zhǔn)確率可達(dá)88%,而完全不熟悉的參與者只能達(dá)到65.2%。這提示了經(jīng)驗(yàn)和訓(xùn)練在視覺(jué)推理能力發(fā)展中的重要作用。

四、強(qiáng)化學(xué)習(xí)的救贖之路:讓AI在試錯(cuò)中成長(zhǎng)

面對(duì)AI在視覺(jué)推理方面的明顯不足,研究團(tuán)隊(duì)嘗試了一種名為"可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí)"(RLVR)的訓(xùn)練方法來(lái)改善模型性能。這種方法的核心思想是讓AI在大量練習(xí)中逐步提高,就像一個(gè)學(xué)生通過(guò)不斷做習(xí)題來(lái)提高解題能力。

強(qiáng)化學(xué)習(xí)訓(xùn)練的關(guān)鍵優(yōu)勢(shì)在于SPHINX系統(tǒng)能夠自動(dòng)生成無(wú)限多的練習(xí)題,并為每道題提供標(biāo)準(zhǔn)答案。這創(chuàng)造了一個(gè)完美的訓(xùn)練環(huán)境:AI可以嘗試解答各種類型的視覺(jué)推理題目,每次回答后立即獲得正確與否的反饋,然后調(diào)整自己的答題策略。這個(gè)過(guò)程就像一個(gè)永不疲倦的家教在旁邊指導(dǎo),確保每一次錯(cuò)誤都能轉(zhuǎn)化為學(xué)習(xí)的機(jī)會(huì)。

研究團(tuán)隊(duì)選擇了四個(gè)不同規(guī)模的開(kāi)源模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,分別是Qwen2.5-VL系列的3B和7B參數(shù)版本,以及Qwen3-VL系列的4B和8B參數(shù)版本。訓(xùn)練過(guò)程持續(xù)500輪,每輪都會(huì)生成多個(gè)候選答案,然后通過(guò)比較這些答案的質(zhì)量來(lái)指導(dǎo)模型改進(jìn)。

訓(xùn)練結(jié)果令人鼓舞。經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練的模型在原有測(cè)試任務(wù)上都顯現(xiàn)出明顯改進(jìn),特別是在訓(xùn)練時(shí)見(jiàn)過(guò)的20種任務(wù)類型中,所有模型都獲得了substantial gains。更重要的是,這種改進(jìn)還能遷移到訓(xùn)練時(shí)從未見(jiàn)過(guò)的5種新任務(wù)類型中,雖然改進(jìn)幅度有所降低,但仍然表現(xiàn)出可觀的泛化能力。

五、意外發(fā)現(xiàn):AI的計(jì)數(shù)困難與推理能力的深層聯(lián)系

在對(duì)訓(xùn)練前后AI模型表現(xiàn)的詳細(xì)分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些頗具啟發(fā)性的模式。最引人注目的發(fā)現(xiàn)是,AI在視覺(jué)推理中的主要困難并不在于缺乏邏輯推理能力,而在于無(wú)法準(zhǔn)確提取和計(jì)數(shù)視覺(jué)信息。

以圖形計(jì)數(shù)任務(wù)為例,研究團(tuán)隊(duì)發(fā)現(xiàn)GPT-5經(jīng)常能夠產(chǎn)生清晰、合乎邏輯的推理步驟,比如系統(tǒng)性地枚舉所有可能的子圖形,按大小或類型進(jìn)行分類,然后逐步累加總數(shù)。然而,這些邏輯上完全正確的推理過(guò)程經(jīng)常建立在錯(cuò)誤的視覺(jué)觀察基礎(chǔ)上。AI可能會(huì)錯(cuò)誤地報(bào)告圖形中有5行而不是4行,或者數(shù)錯(cuò)了平行線的數(shù)量,導(dǎo)致最終答案雖然邏輯嚴(yán)密但結(jié)果錯(cuò)誤。

這種現(xiàn)象就像一個(gè)計(jì)算能力超強(qiáng)的會(huì)計(jì)師,能夠進(jìn)行復(fù)雜的財(cái)務(wù)計(jì)算和分析,但卻經(jīng)常看錯(cuò)賬單上的基礎(chǔ)數(shù)字,導(dǎo)致最終報(bào)告完全錯(cuò)誤。這提示了當(dāng)前視覺(jué)-語(yǔ)言模型的一個(gè)關(guān)鍵局限:它們?cè)诟邔油评砗偷蛯痈兄g存在著明顯的能力不匹配。

另一個(gè)有趣的發(fā)現(xiàn)是不同任務(wù)之間的難度對(duì)比反映了人機(jī)認(rèn)知差異。對(duì)稱性識(shí)別任務(wù)對(duì)人類來(lái)說(shuō)相對(duì)簡(jiǎn)單,因?yàn)槿祟愐曈X(jué)系統(tǒng)天生對(duì)對(duì)稱性敏感,這可能源于進(jìn)化過(guò)程中識(shí)別面部和身體的需要。然而對(duì)AI來(lái)說(shuō),對(duì)稱性識(shí)別需要精確的幾何計(jì)算和比較,反而比一些看似復(fù)雜的邏輯推理任務(wù)更困難。

六、SPHINX的更深層意義:重新定義AI能力評(píng)估標(biāo)準(zhǔn)

SPHINX系統(tǒng)的價(jià)值遠(yuǎn)遠(yuǎn)超出了單純的模型測(cè)試。它代表了AI能力評(píng)估方法的一個(gè)重要轉(zhuǎn)變:從依賴有限的靜態(tài)測(cè)試集轉(zhuǎn)向動(dòng)態(tài)生成的無(wú)窮測(cè)試空間。

傳統(tǒng)的AI評(píng)估往往使用固定的基準(zhǔn)測(cè)試集,這些測(cè)試集雖然標(biāo)準(zhǔn)化程度高,但存在一個(gè)根本性問(wèn)題:AI模型可能會(huì)"背答案"而不是真正理解問(wèn)題。就像一個(gè)學(xué)生如果事先知道考試題目,可能會(huì)表現(xiàn)得比實(shí)際能力更好,但這種表現(xiàn)并不代表真實(shí)的理解水平。

SPHINX的程序化生成機(jī)制徹底解決了這個(gè)問(wèn)題。由于題目是實(shí)時(shí)生成的,且數(shù)量幾乎無(wú)限,AI模型不可能提前"見(jiàn)過(guò)"所有題目,因此測(cè)試結(jié)果更能反映真實(shí)的推理能力。這就像一個(gè)能夠出無(wú)限多道數(shù)學(xué)題的智能出題系統(tǒng),每次考試都有新題目,確保測(cè)試的是真實(shí)的數(shù)學(xué)理解能力而不是記憶力。

更重要的是,SPHINX的模塊化設(shè)計(jì)使研究者能夠系統(tǒng)性地分析AI的能力邊界。通過(guò)調(diào)整不同的參數(shù)組合,研究者可以精確定位AI在哪些具體方面表現(xiàn)良好,在哪些方面仍有不足。這種精細(xì)化的分析有助于指導(dǎo)未來(lái)AI系統(tǒng)的改進(jìn)方向。

七、強(qiáng)化學(xué)習(xí)訓(xùn)練的意外收獲:縮短回答但提高準(zhǔn)確性

在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,研究團(tuán)隊(duì)觀察到了一個(gè)意外而有趣的現(xiàn)象:經(jīng)過(guò)訓(xùn)練的模型不僅準(zhǔn)確率提高了,回答也變得更加簡(jiǎn)潔。這個(gè)發(fā)現(xiàn)顛覆了"更長(zhǎng)的解釋意味著更好的推理"的常見(jiàn)假設(shè)。

訓(xùn)練前的模型往往會(huì)產(chǎn)生冗長(zhǎng)、詳細(xì)的解釋,包含大量看似合理但實(shí)際上可能有誤的推理步驟。訓(xùn)練后的模型學(xué)會(huì)了更直接、更準(zhǔn)確地回答問(wèn)題,減少了不必要的贅述。這就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生能夠快速準(zhǔn)確地診斷病情,而不需要像醫(yī)學(xué)生那樣羅列所有可能的癥狀和檢查項(xiàng)目。

這種變化可能反映了模型對(duì)任務(wù)理解的深化。當(dāng)AI真正掌握了視覺(jué)推理的要領(lǐng)時(shí),它就能夠更高效地處理問(wèn)題,而不需要通過(guò)冗長(zhǎng)的"思考過(guò)程"來(lái)掩蓋不確定性。這也為評(píng)估AI推理質(zhì)量提供了一個(gè)新的指標(biāo):在準(zhǔn)確率相同的情況下,更簡(jiǎn)潔的回答可能表明更深層的理解。

八、跨領(lǐng)域測(cè)試驗(yàn)證:SPHINX訓(xùn)練效果的廣泛適用性

為了驗(yàn)證SPHINX訓(xùn)練是否只是在特定任務(wù)上的過(guò)擬合,研究團(tuán)隊(duì)在八個(gè)不同的外部視覺(jué)推理基準(zhǔn)上測(cè)試了訓(xùn)練后的模型。這些基準(zhǔn)包括MathVista(數(shù)學(xué)視覺(jué)推理)、MathVision(數(shù)學(xué)問(wèn)題理解)、MathVerse(數(shù)學(xué)文本理解)、LogicVista(邏輯推理)、Blink(視覺(jué)感知)、MMT-Bench(多模態(tài)任務(wù))、MMVP(多模態(tài)視覺(jué)推理)和VStarBench(視頻推理)。

結(jié)果顯示,經(jīng)過(guò)SPHINX訓(xùn)練的模型在這些外部測(cè)試中也表現(xiàn)出了一致的改進(jìn),雖然改進(jìn)幅度相對(duì)較小,但覆蓋面很廣。在32個(gè)模型-測(cè)試組合中,有26個(gè)顯示出性能提升,只有3個(gè)出現(xiàn)下降,其余保持不變。這種廣泛的改進(jìn)說(shuō)明SPHINX訓(xùn)練確實(shí)增強(qiáng)了模型的通用視覺(jué)推理能力,而不只是針對(duì)特定任務(wù)的優(yōu)化。

特別值得注意的是,改進(jìn)幅度與基礎(chǔ)模型的強(qiáng)度呈正相關(guān)關(guān)系。Qwen3-VL-8B作為四個(gè)測(cè)試模型中最強(qiáng)的基礎(chǔ)模型,獲得了最大的平均改進(jìn)幅度(+2.8%)。這提示了一個(gè)重要趨勢(shì):更強(qiáng)的預(yù)訓(xùn)練模型可能更能夠從強(qiáng)化學(xué)習(xí)訓(xùn)練中受益,這為未來(lái)更大規(guī)模模型的訓(xùn)練提供了有希望的方向。

九、技術(shù)實(shí)現(xiàn)細(xì)節(jié):構(gòu)建可擴(kuò)展的視覺(jué)推理測(cè)試平臺(tái)

SPHINX系統(tǒng)的技術(shù)實(shí)現(xiàn)體現(xiàn)了軟件工程中模塊化設(shè)計(jì)的最佳實(shí)踐。整個(gè)系統(tǒng)采用了三層解耦的架構(gòu)設(shè)計(jì),每一層都可以獨(dú)立修改和擴(kuò)展,而不影響其他層的功能。

底層的Motifs系統(tǒng)實(shí)現(xiàn)了25種參數(shù)化的視覺(jué)圖形生成器。每個(gè)生成器都像一個(gè)可調(diào)節(jié)的圖形工廠,能夠根據(jù)輸入?yún)?shù)產(chǎn)生無(wú)限變化的圖形實(shí)例。比如圓弧生成器可以調(diào)節(jié)圓心位置、半徑、起始角度、掃描角度等參數(shù),產(chǎn)生從完整圓形到各種弧形的變化。這種參數(shù)化設(shè)計(jì)確保了圖形變化的可控性和系統(tǒng)性。

中層的Tilings系統(tǒng)提供了統(tǒng)一的幾何畫(huà)布接口。無(wú)論是方形網(wǎng)格、三角形網(wǎng)格還是六邊形網(wǎng)格,都通過(guò)相同的接口提供頂點(diǎn)、單元格和鄰接關(guān)系信息。這種標(biāo)準(zhǔn)化接口使得上層的任務(wù)系統(tǒng)可以無(wú)差別地在不同幾何結(jié)構(gòu)上操作,大大簡(jiǎn)化了任務(wù)實(shí)現(xiàn)的復(fù)雜度。

頂層的Tasks系統(tǒng)定義了25種不同的視覺(jué)推理挑戰(zhàn)類型。每種任務(wù)都實(shí)現(xiàn)為一個(gè)獨(dú)立的類,包含題目生成、答案計(jì)算、選項(xiàng)生成和答案驗(yàn)證等完整功能。這種面向?qū)ο蟮脑O(shè)計(jì)使得添加新任務(wù)類型變得相當(dāng)簡(jiǎn)單,只需要繼承基礎(chǔ)任務(wù)類并實(shí)現(xiàn)特定的邏輯即可。

十、人類測(cè)試的啟發(fā)性發(fā)現(xiàn):熟悉度決定推理能力

在人類基準(zhǔn)測(cè)試中,研究團(tuán)隊(duì)收集了32名參與者的完整測(cè)試數(shù)據(jù),包括每個(gè)問(wèn)題的回答時(shí)間、正確性和主觀難度評(píng)分。這些數(shù)據(jù)揭示了人類視覺(jué)推理能力的一些有趣特征。

最重要的發(fā)現(xiàn)是熟悉度與表現(xiàn)之間的強(qiáng)烈正相關(guān)關(guān)系。那些自報(bào)對(duì)視覺(jué)推理任務(wù)"非常熟悉"的參與者平均準(zhǔn)確率達(dá)到88%,而"完全不熟悉"的參與者只有65.2%。這種巨大差異提示了經(jīng)驗(yàn)和訓(xùn)練在視覺(jué)推理能力發(fā)展中的關(guān)鍵作用。

不同任務(wù)類型的人類表現(xiàn)也展現(xiàn)出認(rèn)知心理學(xué)的有趣模式。對(duì)稱性相關(guān)任務(wù)的準(zhǔn)確率分布很大,從簡(jiǎn)單的鏡像識(shí)別(高準(zhǔn)確率)到復(fù)雜的Frieze群識(shí)別(48.4%的最低準(zhǔn)確率)。這種差異反映了人類視覺(jué)系統(tǒng)的層次化處理特性:基礎(chǔ)的對(duì)稱性檢測(cè)是自動(dòng)化的,但復(fù)雜的對(duì)稱性分類需要有意識(shí)的分析處理。

時(shí)間分析數(shù)據(jù)也很有啟發(fā)性。需要mental rotation(心理旋轉(zhuǎn))的任務(wù),如瓷磚組合題,不僅準(zhǔn)確率較低,平均回答時(shí)間也最長(zhǎng),這與認(rèn)知心理學(xué)中關(guān)于空間推理認(rèn)知負(fù)荷的經(jīng)典研究結(jié)果高度一致。

說(shuō)到底,SPHINX項(xiàng)目為我們揭示了一個(gè)重要的現(xiàn)實(shí):當(dāng)前最先進(jìn)的AI在視覺(jué)推理方面仍然存在根本性的不足。雖然這些模型在文字推理和知識(shí)問(wèn)答方面已經(jīng)達(dá)到甚至超越人類水平,但在需要"眼腦并用"的綜合任務(wù)中,它們的表現(xiàn)仍然落后于普通人類。

這個(gè)發(fā)現(xiàn)對(duì)AI發(fā)展具有深遠(yuǎn)意義。它提醒我們,真正的人工智能不僅需要強(qiáng)大的語(yǔ)言理解能力,更需要準(zhǔn)確的視覺(jué)感知和空間推理能力。SPHINX系統(tǒng)提供了一個(gè)寶貴的工具,讓研究者能夠系統(tǒng)性地診斷和改進(jìn)AI的視覺(jué)推理能力。

更令人鼓舞的是,強(qiáng)化學(xué)習(xí)訓(xùn)練顯示出了改進(jìn)的可能性。雖然目前的改進(jìn)幅度還不足以完全縮小人機(jī)差距,但這種訓(xùn)練方法的有效性為未來(lái)的發(fā)展指明了方向。隨著更大規(guī)模模型和更先進(jìn)訓(xùn)練方法的出現(xiàn),我們有理由相信AI在視覺(jué)推理方面的表現(xiàn)將會(huì)持續(xù)改善。

對(duì)于普通人來(lái)說(shuō),這項(xiàng)研究提醒我們,人類的視覺(jué)推理能力仍然是獨(dú)特而寶貴的。在AI快速發(fā)展的時(shí)代,那些需要綜合運(yùn)用視覺(jué)感知、空間想象和邏輯推理的能力仍然是人類的相對(duì)優(yōu)勢(shì)領(lǐng)域。同時(shí),SPHINX這樣的研究工具也為教育和訓(xùn)練提供了新的可能性,或許未來(lái)我們可以用類似的系統(tǒng)來(lái)幫助學(xué)生提高視覺(jué)推理能力。

有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)arXiv:2511.20814v1查閱完整論文,研究團(tuán)隊(duì)也在GitHub上開(kāi)源了SPHINX系統(tǒng)的代碼和數(shù)據(jù)集,為更廣泛的研究社區(qū)提供了寶貴的資源。

Q&A

Q1:SPHINX系統(tǒng)是什么,它是如何工作的?

A:SPHINX是羅切斯特理工學(xué)院開(kāi)發(fā)的AI視覺(jué)推理測(cè)試系統(tǒng)。它像一個(gè)智能題庫(kù)生成器,能無(wú)限產(chǎn)生各種視覺(jué)推理題目。系統(tǒng)包含25種基礎(chǔ)圖形、5種畫(huà)布布局和25種推理任務(wù),通過(guò)自由組合創(chuàng)造出幾乎無(wú)限的測(cè)試題目,每題都有標(biāo)準(zhǔn)答案,專門用來(lái)測(cè)試和訓(xùn)練AI的視覺(jué)推理能力。

Q2:為什么GPT-5這樣的先進(jìn)AI在SPHINX測(cè)試中表現(xiàn)不好?

A:GPT-5在SPHINX測(cè)試中只有51.1%準(zhǔn)確率,主要問(wèn)題不在邏輯推理能力,而在視覺(jué)信息提取。AI經(jīng)常能產(chǎn)生完美的推理步驟,但基礎(chǔ)視覺(jué)觀察出錯(cuò),比如數(shù)錯(cuò)圖形數(shù)量或看錯(cuò)顏色,導(dǎo)致邏輯正確但答案錯(cuò)誤。這就像計(jì)算專家看錯(cuò)了基礎(chǔ)數(shù)據(jù),再精密的計(jì)算也無(wú)濟(jì)于事。

Q3:強(qiáng)化學(xué)習(xí)訓(xùn)練能讓AI的視覺(jué)推理能力提高多少?

A:經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練后,AI模型在SPHINX任務(wù)中普遍獲得顯著改進(jìn),訓(xùn)練過(guò)的任務(wù)準(zhǔn)確率提升5-17%不等,甚至在未見(jiàn)過(guò)的新任務(wù)中也有2-8%的提升。更重要的是,這種改進(jìn)還能遷移到其他視覺(jué)推理基準(zhǔn)測(cè)試中,顯示出通用性的提升,證明訓(xùn)練確實(shí)增強(qiáng)了真實(shí)的推理能力。

免責(zé)聲明:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

全站最新

熱門推薦

久久久精品亚洲| 中文字幕一区二区三区四区五区人| 亚洲一区亚洲二区亚洲三区| 波多野结衣一区二区三区在线观看| 国产精品免费一区二区三区观看| 麻豆av一区二区三区| 香蕉视频在线网址| 丁香婷婷激情网| 韩国三级hd两男一女| 麻豆网址在线观看| 日本va欧美va国产激情| 国产特级黄色片| 国产一区二区三区精品视频 | 中文字幕视频网| 精品人妻无码一区二区色欲产成人 | 怡红院一区二区| 老司机成人免费视频| 中文字幕第三页| 麻豆国产一区二区| 国产精品久久看| 欧美视频三区在线播放| 国产丝袜一区二区| 97视频在线播放| 国产91精品入口17c| 欧美不卡在线播放| 亚洲午夜久久久久久久久红桃| 日韩免费一级片| 天天操天天干天天插| 91在线观看免费视频| 精品美女国产在线| 国产亚洲欧美一区| 成人一区二区电影| 极品美女扒开粉嫩小泬| 精品伦精品一区二区三区视频密桃| 国产又粗又长又大视频| 久久综合久久99| 91精品国产高清一区二区三区 | 另类成人小视频在线| 亚洲精品第1页| 国产一区二区三区三区在线观看| 亚洲最大成人在线| 9久久婷婷国产综合精品性色 | 欧美性猛交xxxx乱| 免费国产黄色片| 一区二区三区成人| 色老头一区二区三区在线观看| 热99精品只有里视频精品| 国产日产亚洲精品| 亚洲国产成人精品无码区99| 国产性生活一级片| 性欧美疯狂猛交69hd| 玖玖玖国产精品| 久久看人人爽人人| 日韩一区二区电影| 久久久精品视频成人| 欧美国产一二三区| 欧美xxxx黑人| 一区二区三区黄| 国产麻豆成人精品| 亚洲国产综合人成综合网站| 亚洲人成网站免费播放| 粉嫩av四季av绯色av第一区| 国内自拍视频一区| av激情在线观看| 蜜臀av国产精品久久久久| 婷婷一区二区三区| 中文字幕综合在线| 欧美人xxxxx| 久久撸在线视频| 久久久国产高清| 99riav一区二区三区| 91精品国产免费| 国产精品视频久| 亚洲高清在线免费观看| 激情小说中文字幕| 国产成人午夜精品5599| 欧美一区二区三区精品| 成人久久久久爱| 性chinese极品按摩| 五月婷婷亚洲综合| 天堂av在线免费| 一本到一区二区三区| 欧美一级电影久久| 国产亚洲精品久久久久久久| 91大神福利视频| 国产美女在线精品| 欧美一区二区福利视频| 亚洲一区二区免费在线| 日日夜夜精品视频免费观看| 久草视频在线资源| 国产亚洲精品精品精品| 丝袜诱惑制服诱惑色一区在线观看| 亚洲成av人影院在线观看网| 久热精品视频在线观看| 亚洲国产精品自拍| 亚洲一二在线观看| 亚洲欧洲一区二区| 欧美一区二区三区爽爽爽| 国产suv精品一区二区三区| 精品视频1区2区| 99se婷婷在线视频观看| 最新版天堂资源在线| 人妻精品一区一区三区蜜桃91| 日韩欧美福利视频| 亚洲一区二区自拍| 亚洲熟妇一区二区三区| 视频一区视频二区中文| 欧美一区二区精品在线| 久久综合毛片| 在线观看日本中文字幕| 99热在这里有精品免费| 久久久久www| 欧美日韩一道本| 国产免费的av| 欧美日韩国产一二三| 欧美一区少妇| 日本三级网站在线观看| 一区二区在线观看不卡| 91性高湖久久久久久久久_久久99| 久久久久久久久免费看无码| 久久久精品天堂| 97色伦亚洲国产| 影音先锋资源av| 不卡一区二区中文字幕| 亚洲欧美国产日韩中文字幕| 无码日本精品xxxxxxxxx| ,一级淫片a看免费| 欧美日韩另类在线| 精品一区二区三区国产| 久久9999久久免费精品国产| 亚洲一区二区三区四区五区黄| 国产精品96久久久久久又黄又硬 | 国产一区二区免费在线| 九九九久久国产免费| 极品人妻一区二区| 99精品国产91久久久久久 | 在哪里可以看毛片| 亚洲欧洲在线观看av| 国产福利一区二区三区在线观看| 538精品视频| 中文字幕一区二区三区蜜月| 91免费国产视频| 性の欲びの女javhd| 五月天网站亚洲| 色婷婷精品国产一区二区三区| 中文字幕免费观看视频| 在线不卡一区二区| 俄罗斯av网站| 奇米精品一区二区三区四区| 久久久久久有精品国产| 午夜理伦三级做爰电影| 一区二区三区波多野结衣在线观看 | 天天影视色综合| 国产日韩v精品一区二区| 懂色一区二区三区av片| 一本到在线视频| 亚洲成人精品视频| 高清一区二区视频| 白白色亚洲国产精品| 97久久人人超碰caoprom欧美| 欧美成人一二三区| 精品久久久久99| 婷婷激情综合五月天| 不卡的电视剧免费网站有什么| 国产精品igao视频| 久久午夜免费视频| 亚洲精品在线三区| av片中文字幕| 国产精品视频一二三| 国产欧美精品一区二区三区| 久久久蜜桃一区二区| 亚洲性猛交xxxxwww| 日本猛少妇色xxxxx免费网站| 在线观看亚洲精品视频| 国产一级特黄a大片免费| 中文字幕精品在线不卡| 亚洲一区二区三区加勒比| 国产亚洲精品精品精品| 精品va天堂亚洲国产| 美女又黄又免费的视频| 欧美日韩裸体免费视频| 大胆欧美熟妇xx| 国产精品久久三区| 一区二区高清视频| 国产乱子轮精品视频| 激情视频在线观看一区二区三区| 久久三级福利| 国产激情美女久久久久久吹潮| 一区二区三区亚洲视频| 日韩av手机在线| 黄色一级a毛片| 国产精品久久久久久av下载红粉 | 女性裸体视频网站| 日韩精品久久久久久久玫瑰园| 毛片aaaaaa| 日韩美女视频在线| 亚洲精品自拍视频在线观看| 日韩成人免费视频| 日本一级免费视频| 亚洲色在线视频| 国产又粗又爽视频| 午夜精品免费视频| 亚洲黄色a级片| 91福利入口| 96av麻豆蜜桃一区二区| 成人午夜精品久久久久久久蜜臀| 一区二区三区 在线观看视频| 亚洲人成无码网站久久99热国产| 欧美韩日一区二区三区| 在线免费观看av的网站| 欧美亚一区二区| 欧美性生交大片| 少妇久久久久久| 亚洲AV无码乱码国产精品牛牛| 超碰在线97av| 97国产成人无码精品久久久| 国产成人福利视频| 99热这里只有精| 鲁丝片一区二区三区| 综合欧美一区二区三区| 国产亚洲精品成人a| 国产一区二区激情| 国产精品嫩草影院桃色| 成人欧美一区二区三区视频xxx| 蜜桃精品在线观看| 欧美在线观看www| 欧美理论电影在线| 免费看一级大片| 国产精品美女久久| 国产·精品毛片| 91国视频在线| 日本高清视频一区二区| 青青草原免费观看| 国产在线高清精品| 国产xxx精品视频大全| 国产女大学生av| 亚洲第一精品夜夜躁人人爽 | 精品国产免费视频| 男人天堂视频在线| 久久久久久久久久久久久久一区 | 精品国产乱码久久久久久蜜臀网站| 日韩资源av在线| 自拍偷在线精品自拍偷无码专区| 少妇户外露出[11p]| 国内精品久久久久久| 91在线丨porny丨国产| 一级黄色大片免费看| 欧美日韩福利电影| 国产成人啪午夜精品网站男同| 国产精欧美一区二区三区白种人| 亚洲精品ady| 亚洲日本在线播放| 拔插拔插海外华人免费| 337p日本欧洲亚洲大胆色噜噜| 黄色大全在线观看| 国产又粗又大又爽的视频| 精品剧情在线观看| 日本激情一区二区三区| 久久精品99国产| 色噜噜国产精品视频一区二区| 国产成人免费在线| 日本人妻一区二区三区| 日韩av免费看网站| 亚洲精品v日韩精品| 一区二区三区影视| 精品欧美一区二区精品久久| 色成人在线视频| 国产乱色精品成人免费视频 | 精品亚洲国产成人av制服丝袜| 人妻少妇精品无码专区二区| 久久久91精品国产一区不卡| 国产精品一区二区三区四区| 国产福利短视频| 国产欧美一区二区视频 | av日韩在线网站| 国产美女福利视频| 黄色99视频| 精品国产不卡一区二区三区| 美女免费视频一区| 亚洲女则毛耸耸bbw| 成人黄色免费网站在线观看| 一区二区三区.www| 亚洲av无码乱码国产精品| 五月天丁香花婷婷| 国产精品吴梦梦| 黄色精品一区二区| 高h震动喷水双性1v1| 一区二区三区人妻| 欧洲日本亚洲国产区| 欧美午夜激情在线| 视频一区视频二区中文| 日本黄色一级网站| 91九色对白| 精品第一国产综合精品aⅴ| 成人激情动漫在线观看| chinese全程对白| 日本欧美黄色片| 国产精品夫妻激情| 精品人伦一区二区三区蜜桃网站| 国产毛片毛片毛片毛片| 91九色蝌蚪porny| 国产精品自拍首页| 伊人久久久久久久久久久久久 | 日日夜夜精品视频免费| a资源在线观看| 日本在线视频不卡| 欧美丰满少妇xxxx| 欧美日韩一区免费| 粉嫩嫩av羞羞动漫久久久| 四虎精品永久在线| 韩国三级与黑人| 国产精品一区二区三区免费| 色av中文字幕一区| 欧美日韩国产精品一区| 国产在线精品免费| 99精品人妻国产毛片| 日本少妇xxxx| 真实国产乱子伦对白视频| 性色av一区二区三区免费| 欧美一卡2卡3卡4卡| 日韩美女视频一区| 色欲av永久无码精品无码蜜桃 | 欧在线一二三四区| 国产原创精品| 久久久久女教师免费一区| 欧美精品一区二区三区高清aⅴ| 久久亚洲一级片| 三级视频在线看| 日韩黄色在线视频| 高潮毛片无遮挡| 日本xxxxxxx免费视频| 日本黑人久久| 国产精品视频免费在线观看| 欧美videos大乳护士334| 亚洲国产精品久久久久婷婷884| 国产高清精品久久久久| 国产老女人乱淫免费| 夫妻性生活毛片| 中文字幕一二三| 男人天堂a在线| 久久亚洲综合网| 日韩av免费在线| 久久亚洲精品视频| 欧美电视剧在线看免费| 亚洲午夜久久久| 久久er99热精品一区二区| 国产中文字字幕乱码无限| 中文国产在线观看| 国产夫妻自拍一区| 高清视频在线观看一区| 国产精品一区二区在线| 午夜美女久久久久爽久久| 欧美成人性福生活免费看| 懂色av中文一区二区三区天美| 最新久久zyz资源站| 国产精品小仙女| 人妻无码中文字幕| 伊人免费在线观看| 久久99久久99精品免费看小说 | 亚洲欧美一二三| 国产私拍一区| 91视频国产高清| 91a在线视频| 欧美黄色片视频| 有码中文亚洲精品| 亚洲欧洲免费视频| 欧美日韩国产影片| 欧美亚洲动漫另类| 亚洲欧美日韩国产综合| 亚洲精品免费看| 亚洲激情欧美激情| 综合av第一页| 亚洲国产日产av| 亚洲国产视频网站| 国产欧美日产一区| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 亚洲第一天堂久久| 久热精品在线播放| 色婷婷综合网站| 国内外成人免费在线视频| 97超碰人人爽| 国产成人av片| 久久久久久久少妇| 巨乳女教师的诱惑| 97人妻精品一区二区三区免| 99精品视频免费版的特色功能| 国产a级黄色片| 一级性生活毛片| 国产亚洲精品久久久久久豆腐| 亚洲熟女www一区二区三区| 日韩精品在线免费视频| 国产免费a视频| 老牛影视av牛牛影视av| 性感美女视频一二三| 麻豆视频一区二区| 99久久久精品| 亚洲精品福利视频网站| 欧美调教femdomvk| 日韩av在线免费播放| 日韩福利视频在线观看| 亚洲天堂av网| 欧美成人午夜免费视在线看片| 欧美人成在线视频| 97视频免费在线观看| 国产精品国产一区二区 | 国产精品老牛影院在线观看| 久久久99国产精品免费| 天天综合五月天| 老子影院午夜伦不卡大全| 性一交一黄一片|