![]()
這項(xiàng)由浙江大學(xué)袁帆、嚴(yán)雨晨等研究人員組成的團(tuán)隊(duì)在2025年1月發(fā)表的研究成果,揭示了一個(gè)讓人意想不到的發(fā)現(xiàn)。該研究發(fā)表在arXiv預(yù)印本平臺(tái)上,論文編號(hào)為2509.25160v1,有興趣深入了解的讀者可以通過(guò)這個(gè)編號(hào)查詢完整論文。
當(dāng)我們談?wù)撊斯ぶ悄苡卸嗦斆鲿r(shí),往往會(huì)拿數(shù)學(xué)推理能力作為衡量標(biāo)準(zhǔn)。就像我們?cè)u(píng)判一個(gè)學(xué)生是否聰明,除了看他能背多少詩(shī)詞,更要看他能不能解開復(fù)雜的數(shù)學(xué)題。目前最先進(jìn)的視覺(jué)語(yǔ)言模型(可以理解為既能看圖又能讀文字的AI)在處理純文字?jǐn)?shù)學(xué)題時(shí)表現(xiàn)相當(dāng)出色,有些甚至能達(dá)到95%以上的正確率。然而,當(dāng)同樣的數(shù)學(xué)題變成圖片形式呈現(xiàn)時(shí),這些"聰明"的AI竟然表現(xiàn)得像換了個(gè)人似的。
想象一下這樣的場(chǎng)景:一個(gè)學(xué)生在紙質(zhì)考試中能考95分,但當(dāng)題目變成電子屏幕上的圖片時(shí),同一個(gè)學(xué)生只能考47分。這聽起來(lái)是不是很不可思議?但這正是研究團(tuán)隊(duì)在測(cè)試最先進(jìn)AI模型時(shí)發(fā)現(xiàn)的驚人現(xiàn)象。以谷歌的Gemini-2.5-Pro為例,它在處理文字版GSM8K數(shù)學(xué)題時(shí)能達(dá)到95.22%的準(zhǔn)確率,但面對(duì)同樣內(nèi)容的圖片版本時(shí),準(zhǔn)確率急劇下降到僅有46.93%。
這種巨大的差異促使浙江大學(xué)的研究團(tuán)隊(duì)深入思考一個(gè)問(wèn)題:現(xiàn)有的視覺(jué)數(shù)學(xué)推理測(cè)試是否足夠嚴(yán)格和全面?他們發(fā)現(xiàn),目前的測(cè)試基準(zhǔn)存在幾個(gè)明顯的局限性。大多數(shù)測(cè)試主要集中在幾何問(wèn)題上,就像只考察學(xué)生畫圖能力而忽略了文字題解題能力。這些測(cè)試很少涉及需要從多張圖片中提取信息并進(jìn)行綜合推理的情況,也缺乏對(duì)現(xiàn)實(shí)世界數(shù)學(xué)應(yīng)用場(chǎng)景的覆蓋。
為了填補(bǔ)這個(gè)空白,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為GSM8K-V的新測(cè)試基準(zhǔn)。這個(gè)基準(zhǔn)的巧妙之處在于,它將廣泛使用的文字?jǐn)?shù)學(xué)推理測(cè)試GSM8K中的每一道題目都轉(zhuǎn)換成了純視覺(jué)形式。就像將一本文字小說(shuō)改編成連環(huán)畫一樣,每個(gè)數(shù)學(xué)問(wèn)題都被重新包裝成一系列相互關(guān)聯(lián)的圖片,形成一個(gè)完整的視覺(jué)故事。
這種轉(zhuǎn)換過(guò)程可以比作制作一部無(wú)聲電影。研究團(tuán)隊(duì)需要將原本用文字描述的數(shù)學(xué)情境轉(zhuǎn)化為生動(dòng)的視覺(jué)場(chǎng)景。比如說(shuō),原本的題目可能是"維奧萊塔想買新蠟筆,她需要5種不同顏色的蠟筆,準(zhǔn)備了20美元。一支蠟筆2美元,她能找回多少錢?"在GSM8K-V中,這個(gè)問(wèn)題被轉(zhuǎn)換成一系列卡通風(fēng)格的圖片:第一幅圖顯示商店助理指著價(jià)格表,第二幅圖顯示維奧萊塔選擇蠟筆,第三幅圖顯示她準(zhǔn)備的20美元鈔票,最后一幅圖中維奧萊塔詢問(wèn)能找回多少零錢。
創(chuàng)建這樣一個(gè)視覺(jué)化測(cè)試基準(zhǔn)并非易事。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三階段的自動(dòng)化流程來(lái)確保轉(zhuǎn)換的準(zhǔn)確性和一致性。第一個(gè)階段是信息分解和分配,就像將一個(gè)復(fù)雜的故事拆解成若干個(gè)關(guān)鍵情節(jié)。他們使用GPT-4.1模型來(lái)識(shí)別每道題目中的數(shù)學(xué)信息,并將這些信息歸類為13個(gè)不同的類別,包括重量、距離、價(jià)格、計(jì)數(shù)等。這個(gè)過(guò)程確保了每個(gè)數(shù)學(xué)要素都能得到適當(dāng)?shù)囊曈X(jué)表現(xiàn)。
第二個(gè)階段是場(chǎng)景描述生成。研究團(tuán)隊(duì)為每種數(shù)學(xué)信息類別都設(shè)計(jì)了專門的描述策略。比如,時(shí)間相關(guān)的信息會(huì)通過(guò)時(shí)鐘來(lái)表示,價(jià)格信息會(huì)通過(guò)標(biāo)價(jià)牌來(lái)展示,重量會(huì)通過(guò)電子秤來(lái)呈現(xiàn)。這些策略就像電影制作中的視覺(jué)語(yǔ)言規(guī)范,確保觀眾能夠準(zhǔn)確理解每個(gè)畫面想要傳達(dá)的信息。
第三個(gè)階段是圖像生成,使用GPT-Image-1模型根據(jù)詳細(xì)的場(chǎng)景描述生成高質(zhì)量的圖片。為了確保生成的圖像準(zhǔn)確無(wú)誤,研究團(tuán)隊(duì)還實(shí)施了嚴(yán)格的人工審核流程。這個(gè)過(guò)程遵循三個(gè)核心原則:一致性,確保視覺(jué)場(chǎng)景忠實(shí)保存原始文本中的實(shí)體、數(shù)量和約束;完整性,確保解決問(wèn)題所需的所有信息都在視覺(jué)上可獲得;合規(guī)性,確保圖像符合安全和格式標(biāo)準(zhǔn)。
經(jīng)過(guò)這樣精心制作,GSM8K-V最終包含了1319個(gè)高質(zhì)量的樣本,每個(gè)樣本平均包含4.05張圖片。這些圖片采用皮克斯風(fēng)格的卡通渲染,色彩鮮明,線條清晰,非常適合AI模型的視覺(jué)識(shí)別。
當(dāng)研究團(tuán)隊(duì)使用這個(gè)新基準(zhǔn)測(cè)試各種先進(jìn)的AI模型時(shí),結(jié)果令人震驚。幾乎所有模型在面對(duì)視覺(jué)化的數(shù)學(xué)題時(shí)都表現(xiàn)出了顯著的性能下降。即使是表現(xiàn)最好的Gemini-2.5-Pro,其準(zhǔn)確率也從文字版的95.22%驟降至圖片版的46.93%。其他模型的表現(xiàn)更是慘不忍睹,大多數(shù)開源模型的準(zhǔn)確率都在30%以下。
這種巨大的性能差異揭示了當(dāng)前AI技術(shù)的一個(gè)根本性問(wèn)題。雖然這些模型在處理純文字信息時(shí)表現(xiàn)出色,但當(dāng)需要從視覺(jué)信息中提取數(shù)學(xué)概念并進(jìn)行推理時(shí),它們就暴露出了明顯的不足。這就像一個(gè)只會(huì)在安靜教室里考試的學(xué)生,一旦環(huán)境發(fā)生變化就無(wú)法發(fā)揮正常水平。
研究團(tuán)隊(duì)進(jìn)一步分析了AI模型失敗的原因,發(fā)現(xiàn)了兩個(gè)主要的錯(cuò)誤類型。第一類是感知-計(jì)算錯(cuò)誤,這類錯(cuò)誤通常發(fā)生在需要精確計(jì)數(shù)或識(shí)別相似物體時(shí)。比如,當(dāng)圖片中出現(xiàn)多個(gè)視覺(jué)上相似的物品時(shí),AI可能會(huì)數(shù)錯(cuò)數(shù)量,或者將不同類別的物品混淆,導(dǎo)致后續(xù)計(jì)算全盤皆錯(cuò)。就像一個(gè)人在嘈雜的市場(chǎng)里試圖數(shù)清楚蘋果的數(shù)量,很容易被周圍的干擾因素影響。
第二類是儀器讀數(shù)錯(cuò)誤,這在GSM8K-V中表現(xiàn)得特別突出。許多數(shù)學(xué)題需要從時(shí)鐘、儀表盤、圖表等日常工具中讀取數(shù)值信息。然而,AI模型在識(shí)別和解釋這些視覺(jué)線索時(shí)經(jīng)常出錯(cuò)。比如,它們可能會(huì)誤讀時(shí)鐘上的時(shí)間,或者錯(cuò)誤地解釋餅圖中的比例關(guān)系。這類錯(cuò)誤暴露了AI在視覺(jué)化數(shù)值理解方面的根本性弱點(diǎn)。
為了更深入地理解這些問(wèn)題,研究團(tuán)隊(duì)還進(jìn)行了多項(xiàng)對(duì)比實(shí)驗(yàn)。他們發(fā)現(xiàn),當(dāng)明確提供文字問(wèn)題描述時(shí),AI的表現(xiàn)會(huì)有所改善,但仍然遠(yuǎn)低于純文字版本的水平。這說(shuō)明問(wèn)題的核心不在于AI無(wú)法理解問(wèn)題本身,而在于它們難以從視覺(jué)信息中準(zhǔn)確提取必要的數(shù)學(xué)要素。
另外,研究團(tuán)隊(duì)還測(cè)試了單張圖片與多張圖片輸入的差異。結(jié)果顯示,多張圖片的設(shè)置能夠稍微提升AI的表現(xiàn),因?yàn)檫@樣可以更好地保持時(shí)間順序和邏輯關(guān)系。相比之下,將所有信息壓縮到單張圖片中往往會(huì)掩蓋關(guān)鍵的序列依賴關(guān)系,特別是在涉及時(shí)間推理的問(wèn)題中。
研究團(tuán)隊(duì)還測(cè)試了不同視覺(jué)風(fēng)格對(duì)AI表現(xiàn)的影響。他們將部分問(wèn)題重新渲染成吉卜力工作室風(fēng)格,結(jié)果發(fā)現(xiàn)視覺(jué)風(fēng)格的變化對(duì)模型性能的影響很小。這表明問(wèn)題的根源在于AI對(duì)視覺(jué)化數(shù)學(xué)概念的理解能力,而非特定的視覺(jué)表現(xiàn)形式。
最令人印象深刻的對(duì)比來(lái)自人類表現(xiàn)的基準(zhǔn)測(cè)試。研究團(tuán)隊(duì)邀請(qǐng)經(jīng)過(guò)充分訓(xùn)練的標(biāo)注員直接根據(jù)生成的圖片解決數(shù)學(xué)問(wèn)題,結(jié)果顯示人類能夠達(dá)到91.15%的平均準(zhǔn)確率。這與AI模型的表現(xiàn)形成了鮮明對(duì)比,進(jìn)一步證明了問(wèn)題出現(xiàn)在AI的視覺(jué)推理能力上,而非測(cè)試題目本身的難度。
更有趣的是,人類和AI在不同類別問(wèn)題上的表現(xiàn)模式完全不同。人類在各個(gè)類別上都能保持相對(duì)均衡的高準(zhǔn)確率,而AI模型則呈現(xiàn)出明顯的不平衡性。比如,某些模型在標(biāo)牌識(shí)別類問(wèn)題上表現(xiàn)相對(duì)較好,但在其他類別的問(wèn)題上卻一敗涂地。這種不均衡性暗示AI模型可能依賴于特定的視覺(jué)線索或模式,而缺乏人類那種靈活的視覺(jué)理解能力。
這項(xiàng)研究的意義遠(yuǎn)不止于揭示AI的局限性。它為整個(gè)AI研究社區(qū)提供了一個(gè)重要的警示:我們不能僅僅根據(jù)AI在某個(gè)特定任務(wù)上的表現(xiàn)就判斷其整體能力。GSM8K-V基準(zhǔn)測(cè)試表明,即使是在數(shù)學(xué)推理這樣相對(duì)成熟的領(lǐng)域,當(dāng)任務(wù)的呈現(xiàn)方式發(fā)生變化時(shí),AI的表現(xiàn)也可能出現(xiàn)劇烈波動(dòng)。
從實(shí)際應(yīng)用的角度來(lái)看,這個(gè)發(fā)現(xiàn)具有重要的現(xiàn)實(shí)意義。在許多真實(shí)世界的場(chǎng)景中,數(shù)學(xué)信息往往是通過(guò)視覺(jué)方式呈現(xiàn)的,比如圖表、儀表、標(biāo)簽等。如果AI系統(tǒng)無(wú)法準(zhǔn)確處理這些視覺(jué)化的數(shù)學(xué)信息,那么它們?cè)趯?shí)際應(yīng)用中的可靠性就會(huì)大打折扣。這提醒我們,在部署AI系統(tǒng)時(shí)需要更加謹(jǐn)慎地考慮輸入信息的多樣性和復(fù)雜性。
研究團(tuán)隊(duì)的工作還揭示了一個(gè)更深層次的問(wèn)題:當(dāng)前的AI訓(xùn)練和評(píng)估方法可能過(guò)于狹窄。大多數(shù)AI模型都是在特定格式的數(shù)據(jù)上訓(xùn)練的,當(dāng)面對(duì)不同的信息呈現(xiàn)方式時(shí),它們往往無(wú)法很好地泛化。這就像一個(gè)只在標(biāo)準(zhǔn)考場(chǎng)里練習(xí)過(guò)的學(xué)生,當(dāng)考試環(huán)境發(fā)生變化時(shí)就容易發(fā)揮失常。
為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了幾個(gè)可能的改進(jìn)方向。首先,未來(lái)的AI訓(xùn)練應(yīng)該包含更多樣化的視覺(jué)數(shù)學(xué)內(nèi)容,不僅僅是幾何圖形,還要包括各種日常生活中的數(shù)學(xué)場(chǎng)景。其次,需要開發(fā)更好的視覺(jué)-數(shù)學(xué)概念綁定技術(shù),幫助AI模型建立視覺(jué)元素與數(shù)學(xué)含義之間的可靠聯(lián)系。最后,可能需要重新思考多模態(tài)推理的架構(gòu)設(shè)計(jì),確保視覺(jué)信息和數(shù)學(xué)推理能夠更好地整合。
GSM8K-V基準(zhǔn)測(cè)試的另一個(gè)重要貢獻(xiàn)是提供了一個(gè)標(biāo)準(zhǔn)化的評(píng)估工具。研究團(tuán)隊(duì)已經(jīng)將完整的數(shù)據(jù)集和評(píng)估代碼開源,使得其他研究者可以使用相同的標(biāo)準(zhǔn)來(lái)測(cè)試和比較不同的AI模型。這種標(biāo)準(zhǔn)化對(duì)于推動(dòng)整個(gè)領(lǐng)域的進(jìn)步至關(guān)重要,就像有了統(tǒng)一的尺子才能準(zhǔn)確比較不同物體的長(zhǎng)度。
從技術(shù)發(fā)展的角度來(lái)看,這項(xiàng)研究指出了AI技術(shù)的下一個(gè)重要突破方向。雖然當(dāng)前的AI在處理結(jié)構(gòu)化文本信息方面已經(jīng)相當(dāng)成功,但在理解和推理復(fù)雜視覺(jué)場(chǎng)景方面仍有很大的提升空間。這不僅僅是一個(gè)技術(shù)挑戰(zhàn),更是人工智能向真正的通用智能邁進(jìn)的必經(jīng)之路。
值得注意的是,這個(gè)研究也展現(xiàn)了國(guó)內(nèi)AI研究的實(shí)力和創(chuàng)新能力。浙江大學(xué)團(tuán)隊(duì)不僅識(shí)別了一個(gè)重要的研究空白,還開發(fā)出了高質(zhì)量的解決方案,為全球AI研究社區(qū)貢獻(xiàn)了寶貴的資源。這種基礎(chǔ)性的研究工作往往不如應(yīng)用型成果那樣引人注目,但對(duì)于推動(dòng)整個(gè)領(lǐng)域的發(fā)展卻至關(guān)重要。
說(shuō)到底,GSM8K-V所揭示的問(wèn)題反映了人工智能發(fā)展中的一個(gè)根本性挑戰(zhàn):如何讓AI真正理解世界,而不僅僅是記憶和匹配模式。當(dāng)我們?nèi)祟惪吹揭粡埌瑪?shù)學(xué)信息的圖片時(shí),我們能夠靈活地提取相關(guān)信息,理解其含義,并進(jìn)行推理。但對(duì)于現(xiàn)在的AI來(lái)說(shuō),這個(gè)看似簡(jiǎn)單的過(guò)程實(shí)際上涉及復(fù)雜的視覺(jué)理解、概念抽象和邏輯推理的協(xié)同工作。
這項(xiàng)研究的發(fā)布時(shí)機(jī)也很有意義。當(dāng)整個(gè)科技行業(yè)都在為AI的快速發(fā)展而興奮時(shí),這樣的研究提醒我們保持清醒的頭腦,認(rèn)識(shí)到現(xiàn)有技術(shù)的局限性。只有準(zhǔn)確了解AI的能力邊界,我們才能更好地利用這項(xiàng)技術(shù),避免過(guò)度依賴或盲目信任。
對(duì)于普通用戶來(lái)說(shuō),這個(gè)發(fā)現(xiàn)意味著在使用AI工具處理涉及視覺(jué)數(shù)學(xué)信息的任務(wù)時(shí)需要格外謹(jǐn)慎。比如,當(dāng)讓AI幫助分析包含圖表或儀表讀數(shù)的文檔時(shí),最好同時(shí)提供文字說(shuō)明,或者對(duì)AI的分析結(jié)果進(jìn)行人工驗(yàn)證。這并不是說(shuō)AI沒(méi)有用處,而是說(shuō)我們需要了解它的強(qiáng)項(xiàng)和弱點(diǎn),合理地安排人機(jī)協(xié)作。
展望未來(lái),GSM8K-V基準(zhǔn)測(cè)試很可能會(huì)成為AI研究領(lǐng)域的一個(gè)重要里程碑。它不僅為當(dāng)前模型的評(píng)估提供了新的標(biāo)準(zhǔn),更為未來(lái)的技術(shù)發(fā)展指明了方向。隨著更多研究者使用這個(gè)基準(zhǔn)測(cè)試來(lái)評(píng)估和改進(jìn)他們的模型,我們有望看到AI在視覺(jué)數(shù)學(xué)推理方面的能力得到顯著提升。
這項(xiàng)研究最終告訴我們,人工智能的發(fā)展道路比我們想象的更加復(fù)雜和充滿挑戰(zhàn)。每當(dāng)我們以為AI在某個(gè)領(lǐng)域已經(jīng)接近人類水平時(shí),總會(huì)有新的測(cè)試揭示出意想不到的差距。但這種挑戰(zhàn)恰恰是推動(dòng)技術(shù)進(jìn)步的動(dòng)力。正如浙江大學(xué)研究團(tuán)隊(duì)通過(guò)GSM8K-V所做的工作,真正的科學(xué)進(jìn)步往往來(lái)自于那些敢于質(zhì)疑現(xiàn)狀、挖掘深層問(wèn)題的研究。對(duì)于任何想要深入了解這項(xiàng)開創(chuàng)性研究的讀者,都可以通過(guò)論文編號(hào)2509.25160v1在arXiv平臺(tái)上查找完整的技術(shù)細(xì)節(jié)和實(shí)驗(yàn)數(shù)據(jù)。
Q&A
Q1:GSM8K-V測(cè)試基準(zhǔn)是什么?它與普通的數(shù)學(xué)測(cè)試有什么不同?
A:GSM8K-V是浙江大學(xué)團(tuán)隊(duì)開發(fā)的一個(gè)視覺(jué)數(shù)學(xué)推理測(cè)試基準(zhǔn),它將傳統(tǒng)的文字?jǐn)?shù)學(xué)題轉(zhuǎn)換成了連環(huán)畫式的圖片形式。與普通數(shù)學(xué)測(cè)試不同的是,AI需要從多張相互關(guān)聯(lián)的圖片中提取數(shù)學(xué)信息并進(jìn)行推理,而不是直接閱讀文字描述。這種測(cè)試方式更接近現(xiàn)實(shí)世界中人們從圖表、標(biāo)簽、儀表等視覺(jué)信息中獲取數(shù)學(xué)數(shù)據(jù)的場(chǎng)景。
Q2:為什么先進(jìn)的AI模型在圖片版數(shù)學(xué)題上表現(xiàn)這么差?
A:主要有兩個(gè)原因:一是感知-計(jì)算錯(cuò)誤,AI在識(shí)別和計(jì)數(shù)視覺(jué)相似的物體時(shí)容易出錯(cuò);二是儀器讀數(shù)錯(cuò)誤,AI難以準(zhǔn)確理解時(shí)鐘、圖表、儀表盤等日常工具顯示的數(shù)值信息。這表明當(dāng)前AI雖然擅長(zhǎng)處理結(jié)構(gòu)化的文字信息,但在從復(fù)雜視覺(jué)場(chǎng)景中提取和理解數(shù)學(xué)概念方面還存在根本性不足。
Q3:這項(xiàng)研究對(duì)普通用戶使用AI有什么實(shí)際意義?
A:這提醒用戶在讓AI處理包含視覺(jué)數(shù)學(xué)信息的任務(wù)時(shí)要格外小心。比如分析包含圖表或數(shù)據(jù)可視化的文檔時(shí),最好同時(shí)提供文字說(shuō)明或?qū)I的結(jié)果進(jìn)行人工驗(yàn)證。了解AI的這個(gè)局限性有助于我們更合理地安排人機(jī)協(xié)作,在發(fā)揮AI優(yōu)勢(shì)的同時(shí)避免過(guò)度依賴。





京公網(wǎng)安備 11011402013531號(hào)