![]()
這項由上海AI實驗室黃思遠、瞿曉燁等研究人員聯(lián)合上海交通大學(xué)、香港中文大學(xué)等機構(gòu)完成的研究發(fā)表于2025年,論文編號arXiv:2510.09285v1。感興趣的讀者可以通過該編號查詢完整論文。
當你看到一道幾何題時,你會先仔細觀察圖形,識別出關(guān)鍵的線段、角度和關(guān)系,然后基于這些視覺信息進行推理。但目前的AI系統(tǒng)在處理視覺推理問題時,往往像個"盲人摸象"的學(xué)生——它們可能憑借語言模式匹配碰巧答對了題目,卻沒有真正"看懂"圖像中的關(guān)鍵信息。
上海AI實驗室的研究團隊發(fā)現(xiàn)了一個有趣的現(xiàn)象:就像班級里有些同學(xué)做數(shù)學(xué)題時不看圖,純粹靠背公式和猜測也能偶爾答對一樣,現(xiàn)有的多模態(tài)AI系統(tǒng)經(jīng)常依賴文本線索而忽視視覺信息的重要性。這種"投機取巧"的學(xué)習(xí)方式雖然在某些情況下能獲得正確答案,但無法培養(yǎng)出真正的視覺推理能力。
研究團隊就像給AI戴上了一副特殊的"眼鏡",讓它能夠清晰地識別出哪些思考步驟真正需要依賴視覺信息。他們開發(fā)了一種名為VPPO(Visually-Perceptive Policy Optimization,視覺感知策略優(yōu)化)的新算法,這個算法的核心理念就像一位優(yōu)秀的老師,能夠精確地識別出學(xué)生在解題過程中哪些步驟體現(xiàn)了真正的視覺理解,然后重點強化這些關(guān)鍵環(huán)節(jié)的學(xué)習(xí)。
一、揭開AI"偷懶"的秘密:為什么機器總是避重就輕
當我們觀察目前最先進的AI視覺推理系統(tǒng)時,研究團隊發(fā)現(xiàn)了一個令人意外的現(xiàn)象。就像學(xué)生做幾何題時可能不仔細看圖,而是根據(jù)題目文字描述來猜測答案一樣,AI系統(tǒng)也經(jīng)常采用這種"偷懶"策略。
研究人員通過深入分析發(fā)現(xiàn),在AI生成的推理過程中,只有很少一部分步驟真正依賴于視覺信息。這就像一個學(xué)生在解答"求圓的面積"這道題時,可能完全忽視了題目給出的圓形圖案,僅僅根據(jù)"半徑為5"這個文字信息來計算答案。雖然最終答案可能正確,但這種做法顯然沒有培養(yǎng)出真正的幾何直覺。
更深層的問題在于現(xiàn)有的訓(xùn)練方法。傳統(tǒng)的強化學(xué)習(xí)就像一位"粗糙"的老師,對于答對題目的學(xué)生,會平均地表揚他們解題過程中的每一個步驟,無論這些步驟是基于深入的視覺分析還是簡單的文字匹配。這種"雨露均沾"的獎勵方式導(dǎo)致AI系統(tǒng)更傾向于尋找那些不需要復(fù)雜視覺處理的"捷徑"。
研究團隊通過對Qwen2.5-VL-7B模型在數(shù)學(xué)視覺推理任務(wù)上的表現(xiàn)進行細致分析,發(fā)現(xiàn)了兩個關(guān)鍵洞察。首先,在AI生成的完整推理鏈中,真正具有高視覺依賴性的關(guān)鍵詞匯(比如幾何概念、數(shù)值、邏輯操作符)只占很小的比例,大部分生成的內(nèi)容都是相對通用的語言模式。其次,不同的推理路徑在整體的視覺依賴程度上存在顯著差異——有些推理路徑確實建立在扎實的視覺理解基礎(chǔ)上,而另一些則主要依賴語言模式的重復(fù)。
這種現(xiàn)象的根本原因在于,當前的訓(xùn)練獎勵信號過于粗糙和稀疏。系統(tǒng)只能在完成整個推理過程后得到一個簡單的"對"或"錯"的反饋,就像學(xué)生只能在考試結(jié)束后知道總分,卻不知道具體哪些解題步驟是正確的,哪些是錯誤的。這種反饋方式無法引導(dǎo)AI系統(tǒng)學(xué)會區(qū)分哪些推理步驟真正體現(xiàn)了視覺理解能力。
二、像偵探一樣追蹤:如何測量AI對圖像的真實依賴
為了解決這個問題,研究團隊開發(fā)了一種巧妙的"測謊器",能夠精確測量AI在生成每個詞匯時對視覺信息的真實依賴程度。這個方法的核心思想就像給AI做"雙盲測試"——讓它分別在看到完整圖像和部分遮擋圖像時回答同一個問題,然后比較兩種情況下回答的差異程度。
具體來說,研究團隊會給AI系統(tǒng)同時展示兩個版本的圖像:一個是原始的完整圖像,另一個是經(jīng)過特殊處理的"損壞"版本。這個損壞過程很有意思——他們將圖像分割成14×14像素的小方塊(就像把一張照片撕成許多小碎片),然后隨機將一半的碎片涂黑,這樣就創(chuàng)造出一個保留了部分視覺信息但缺失了關(guān)鍵細節(jié)的"不完整"圖像。
當AI系統(tǒng)基于這兩個不同版本的圖像進行推理時,如果某個生成的詞匯在兩種情況下的預(yù)測概率分布差異很大,那就說明這個詞匯高度依賴于完整的視覺信息。相反,如果某個詞匯的預(yù)測概率在兩種情況下幾乎相同,那就表明它主要是基于語言模式而非視覺理解。
研究團隊使用KL散度這個數(shù)學(xué)工具來量化這種差異程度。KL散度就像一把精密的天平,能夠測量兩個概率分布之間的"距離"。當AI系統(tǒng)看到完整圖像時預(yù)測某個詞匯的概率分布與看到殘缺圖像時的預(yù)測分布相差越大,KL散度值就越高,說明這個詞匯的視覺依賴性越強。
通過這種方法,研究團隊能夠為AI推理過程中的每一個生成步驟打上一個"視覺依賴性評分"。那些獲得高分的詞匯往往是推理過程中的關(guān)鍵節(jié)點——比如幾何圖形的特定屬性、從圖像中讀取的數(shù)值、基于視覺觀察得出的邏輯關(guān)系等等。
更令人驚喜的是,這個測量方法揭示了一個重要規(guī)律:視覺依賴性的分布呈現(xiàn)出明顯的長尾特征。絕大多數(shù)生成的詞匯依賴性較低(主要基于語言模式),只有少數(shù)關(guān)鍵詞匯具有很高的視覺依賴性。這就像在一篇文章中,雖然有很多連接詞和修飾詞,但真正承載核心信息的關(guān)鍵詞只有那么幾個。
三、打造精準的AI導(dǎo)師:讓機器學(xué)會重點學(xué)習(xí)
基于對視覺依賴性的深入理解,研究團隊設(shè)計了VPPO算法,這個算法就像一位非常精明的私人導(dǎo)師,能夠識別出學(xué)生學(xué)習(xí)過程中的關(guān)鍵環(huán)節(jié),并給予針對性的指導(dǎo)和強化。
VPPO的工作原理建立在兩個層面的精細調(diào)控上。在宏觀層面,它會評估整個推理路徑的視覺質(zhì)量。就像一位老師批改作業(yè)時,不僅要看最終答案是否正確,還要評估學(xué)生的解題思路是否真正體現(xiàn)了對問題的深入理解。VPPO會計算每條推理路徑中所有步驟的平均視覺依賴性,然后據(jù)此調(diào)整對該路徑的重視程度。
那些具有高平均視覺依賴性的推理路徑會獲得更高的"加權(quán)系數(shù)",就像老師會特別表揚那些展現(xiàn)出深度思考過程的學(xué)生作業(yè)一樣。相反,那些主要依靠語言模式匹配的"投機"路徑即使碰巧得到了正確答案,也會受到相對較低的強化。這種差別化的獎勵機制引導(dǎo)AI系統(tǒng)逐漸偏向于那些真正基于視覺理解的推理方式。
在微觀層面,VPPO采用了一種叫做"令牌級梯度過濾"的精細技術(shù)。傳統(tǒng)的訓(xùn)練方法就像用大刷子粉刷墻壁,對推理過程中的每個步驟都給予同等的關(guān)注。而VPPO更像是用精細的畫筆,只對那些真正重要的細節(jié)部分進行精心修飾。
具體來說,對于每條推理路徑,VPPO會識別出視覺依賴性最高的前40%的關(guān)鍵步驟,然后將訓(xùn)練的注意力完全集中在這些關(guān)鍵環(huán)節(jié)上。這就像一位經(jīng)驗豐富的教練在訓(xùn)練運動員時,會重點強化那些對提高成績最關(guān)鍵的技術(shù)動作,而不是平均分配練習(xí)時間。
這種選擇性關(guān)注的好處是多方面的。首先,它避免了訓(xùn)練信號的稀釋——通過過濾掉那些不重要的步驟,算法能夠?qū)⒂邢薜膶W(xué)習(xí)資源集中投入到最有價值的地方。其次,它降低了訓(xùn)練過程中的噪聲干擾——那些基于語言模式匹配的"偽推理"步驟不再會混淆AI系統(tǒng)的學(xué)習(xí)過程。最后,它提高了訓(xùn)練的效率和穩(wěn)定性——由于關(guān)注點更加集中,AI系統(tǒng)能夠更快地收斂到更優(yōu)的解決方案。
研究團隊通過理論分析證明,VPPO相比傳統(tǒng)方法能夠顯著降低訓(xùn)練過程中的方差。這個數(shù)學(xué)上的優(yōu)勢在實際應(yīng)用中轉(zhuǎn)化為更穩(wěn)定的訓(xùn)練過程和更高的最終性能。就像一個學(xué)生通過有針對性的重點復(fù)習(xí),往往比漫無目標的題海戰(zhàn)術(shù)更容易取得好成績。
四、實戰(zhàn)驗證:讓數(shù)字說話的驚人效果
為了驗證VPPO算法的實際效果,研究團隊進行了一系列全面的實驗測試,就像讓一個經(jīng)過特訓(xùn)的學(xué)生參加各種不同類型的考試來證明學(xué)習(xí)效果。他們選擇了八個不同領(lǐng)域的具有挑戰(zhàn)性的視覺推理基準測試,這些測試涵蓋了數(shù)學(xué)推理、幾何分析、邏輯思維和多學(xué)科綜合應(yīng)用等多個方面。
在7B參數(shù)規(guī)模的模型測試中,VPPO取得了令人印象深刻的成績。與基準的DAPO算法相比,VPPO在平均準確率上實現(xiàn)了2.5個百分點的顯著提升,從55.0%提高到了57.5%。這個看似不大的數(shù)字提升背后,實際上代表著AI視覺推理能力的重大飛躍,因為在這些高難度的推理任務(wù)中,每一個百分點的提升都需要算法在理解能力上的實質(zhì)性進步。
更令人驚喜的是,這種優(yōu)勢在更大規(guī)模的32B參數(shù)模型上得到了進一步驗證。VPPO在32B模型上的平均準確率達到了64.6%,比基準方法高出7.6個百分點。這種跨規(guī)模的一致性表現(xiàn)說明VPPO的改進不是偶然的,而是源于算法本身的優(yōu)勢。
在具體的任務(wù)表現(xiàn)上,VPPO展現(xiàn)出了全面而均衡的優(yōu)勢。在MathVerse數(shù)學(xué)視覺推理任務(wù)中,它的準確率達到71.6%,比基線方法提高了3.3個百分點。在需要復(fù)雜幾何理解的Geo3k任務(wù)中,VPPO的表現(xiàn)尤其出色,準確率提升了5.0個百分點,達到46.5%。這些具體的數(shù)字反映了VPPO在處理需要深度視覺理解的推理任務(wù)時的顯著優(yōu)勢。
除了性能提升之外,VPPO還展現(xiàn)出了更好的訓(xùn)練穩(wěn)定性。訓(xùn)練過程的曲線圖顯示,采用VPPO的模型能夠更快地達到收斂狀態(tài),并且在訓(xùn)練過程中表現(xiàn)出更少的波動。這就像一個學(xué)生在學(xué)習(xí)過程中不僅最終成績更好,而且學(xué)習(xí)曲線更加平穩(wěn),沒有出現(xiàn)大起大落的情況。
研究團隊還進行了詳盡的消融實驗來驗證算法各個組成部分的貢獻。他們發(fā)現(xiàn),單獨使用軌跡級別的優(yōu)勢塑造能夠帶來1.3個百分點的改進,而單獨使用令牌級別的梯度過濾能夠帶來2.1個百分點的改進。最重要的是,當這兩個機制結(jié)合使用時,效果不是簡單的相加,而是產(chǎn)生了協(xié)同效應(yīng),總體提升達到了2.5個百分點。
為了進一步驗證視覺依賴性度量方法的有效性,研究團隊還比較了不同的令牌選擇策略。結(jié)果顯示,基于視覺依賴性選擇關(guān)鍵令牌的策略明顯優(yōu)于基于預(yù)測熵值的選擇策略和隨機選擇策略。這證明了研究團隊提出的視覺依賴性度量確實能夠有效識別出推理過程中的關(guān)鍵步驟。
五、透過現(xiàn)象看本質(zhì):算法改進背后的深層智慧
VPPO算法的成功不僅體現(xiàn)在實驗數(shù)字的提升上,更重要的是它體現(xiàn)了對AI學(xué)習(xí)過程的深層理解和精準干預(yù)。通過對具體推理案例的定性分析,我們能夠更直觀地看到這種改進是如何發(fā)生的。
在一個典型的幾何推理問題中,傳統(tǒng)算法可能會產(chǎn)生這樣的推理過程:先提到一些幾何概念,然后進行一系列計算,最后得出答案。表面上看,這個過程似乎是合理的,但仔細分析會發(fā)現(xiàn),其中的很多步驟實際上并沒有真正基于對圖形的深入觀察和分析。
相比之下,經(jīng)過VPPO訓(xùn)練的模型會表現(xiàn)出截然不同的推理特征。它會更明確地指出從圖像中觀察到的關(guān)鍵信息,比如"從圖中可以看出OA和OB是圓的半徑,因此三角形AOB是等腰三角形"。這種表述不僅更加準確,而且清楚地展示了視覺觀察與邏輯推理之間的聯(lián)系。
更有趣的是,VPPO識別出的高視覺依賴性令牌往往對應(yīng)著推理過程中的關(guān)鍵轉(zhuǎn)折點。這些令牌通常包括幾何術(shù)語(如"半徑"、"切線"、"垂直")、從圖像中讀取的數(shù)值、以及連接視覺觀察與邏輯推理的關(guān)鍵詞匯(如"因此"、"根據(jù)"、"由于")。這表明算法確實學(xué)會了識別和強化那些體現(xiàn)真正視覺理解的關(guān)鍵環(huán)節(jié)。
研究團隊還發(fā)現(xiàn),經(jīng)過VPPO訓(xùn)練的模型在面對復(fù)雜推理任務(wù)時展現(xiàn)出更好的魯棒性。當問題的表述方式或圖像的呈現(xiàn)形式發(fā)生變化時,這些模型能夠更好地適應(yīng),因為它們的推理過程真正建立在對視覺信息的深入理解基礎(chǔ)上,而不是對特定語言模式的記憶。
從訓(xùn)練效率的角度來看,VPPO也展現(xiàn)出了顯著優(yōu)勢。由于算法能夠更精確地定位學(xué)習(xí)的重點,模型能夠用更少的訓(xùn)練步驟達到更好的性能。這不僅提高了訓(xùn)練效率,還降低了計算成本,使得這種改進具有很好的實用價值。
算法的理論基礎(chǔ)也值得關(guān)注。研究團隊通過嚴格的數(shù)學(xué)分析證明,VPPO能夠顯著降低策略梯度估計的方差。這個理論結(jié)果解釋了為什么VPPO在實際應(yīng)用中能夠表現(xiàn)出更好的訓(xùn)練穩(wěn)定性和收斂性。低方差的梯度估計意味著每次參數(shù)更新都更加可靠和有效,從而加快了整個學(xué)習(xí)過程。
六、突破與局限:算法改進的全面審視
盡管VPPO取得了顯著的成效,研究團隊也坦誠地分析了當前方法的局限性和未來改進的方向。這種科學(xué)嚴謹?shù)膽B(tài)度讓我們能夠更全面地理解這項技術(shù)的現(xiàn)狀和發(fā)展?jié)摿Α?/p>
從計算成本的角度來看,VPPO確實引入了額外的計算開銷。由于需要對每個訓(xùn)練樣本同時處理原始圖像和遮擋版本,訓(xùn)練時間增加了約10%。不過,考慮到性能的顯著提升,這個額外成本是完全值得的。就像購買一臺更精密的儀器可能需要更高的初期投入,但能夠帶來更準確的測量結(jié)果和更高的工作效率。
在應(yīng)用范圍方面,當前的驗證主要集中在數(shù)學(xué)、幾何和邏輯推理等具有明確答案的任務(wù)上。對于一些更加開放性和創(chuàng)造性的視覺任務(wù),比如藝術(shù)評析或創(chuàng)意寫作,VPPO的效果還有待進一步驗證。這是因為在這些任務(wù)中,"正確"的視覺理解可能沒有唯一的標準,這給算法的設(shè)計和評估帶來了新的挑戰(zhàn)。
模型規(guī)模的可擴展性也是一個值得關(guān)注的問題。雖然VPPO在7B和32B參數(shù)的模型上都表現(xiàn)出了一致的改進效果,但在更大規(guī)模的模型(比如100B參數(shù)以上)上的表現(xiàn)還有待驗證。隨著模型規(guī)模的增長,其內(nèi)在的推理機制可能會發(fā)生變化,這可能需要對算法進行相應(yīng)的調(diào)整和優(yōu)化。
在方法的普適性方面,當前的視覺依賴性測量主要基于圖像遮擋的策略。雖然這種方法在當前的測試中表現(xiàn)良好,但針對不同類型的視覺任務(wù),可能需要設(shè)計更加專門化的依賴性測量方法。比如,對于涉及時間序列的視頻理解任務(wù),可能需要考慮時間維度上的依賴性測量。
參數(shù)調(diào)整的敏感性也是實際應(yīng)用中需要考慮的因素。VPPO算法中包含幾個關(guān)鍵的超參數(shù),比如令牌過濾的比例和優(yōu)勢塑造的范圍。雖然研究團隊通過實驗確定了在測試數(shù)據(jù)集上的最優(yōu)參數(shù)設(shè)置,但在應(yīng)用到新的任務(wù)或數(shù)據(jù)集時,可能需要重新進行參數(shù)調(diào)優(yōu)以達到最佳效果。
盡管存在這些局限性,VPPO所代表的研究方向具有重要的啟發(fā)意義。它展示了通過更精細地理解和干預(yù)AI學(xué)習(xí)過程,我們能夠顯著提高模型在復(fù)雜推理任務(wù)上的表現(xiàn)。這種思路不僅適用于視覺推理,也可能擴展到其他需要多模態(tài)理解的AI任務(wù)中。
七、展望未來:開啟AI視覺理解的新篇章
VPPO算法的成功為AI視覺推理領(lǐng)域打開了一扇新的大門,展現(xiàn)了未來發(fā)展的廣闊前景。這項研究不僅在技術(shù)層面取得了突破,更重要的是提出了一種全新的思考框架,即如何讓AI系統(tǒng)真正"看懂"而不是"猜對"。
從技術(shù)發(fā)展的角度來看,VPPO所采用的"令牌級視覺依賴性分析"方法可能成為未來多模態(tài)AI系統(tǒng)的標準組件。就像現(xiàn)在的深度學(xué)習(xí)模型普遍采用注意力機制一樣,未來的視覺推理系統(tǒng)可能都會集成類似的依賴性分析模塊,以確保推理過程真正建立在對視覺信息的深入理解基礎(chǔ)上。
這種技術(shù)進步的實際應(yīng)用前景十分廣闊。在教育領(lǐng)域,配備了VPPO算法的AI輔導(dǎo)系統(tǒng)能夠更準確地理解學(xué)生提交的手寫作業(yè)和圖表,提供更精準的指導(dǎo)和反饋。在醫(yī)療診斷中,AI系統(tǒng)能夠更可靠地分析醫(yī)學(xué)影像,因為它的診斷過程真正基于對影像特征的深入觀察,而不是對報告模板的簡單匹配。
在自動駕駛和機器人應(yīng)用中,VPPO的思想同樣具有重要價值。當機器人需要在復(fù)雜環(huán)境中進行決策時,確保其推理過程真正基于對環(huán)境的準確視覺理解是至關(guān)重要的。這不僅關(guān)系到任務(wù)執(zhí)行的效果,更關(guān)系到安全性和可靠性。
從研究方法論的角度來看,VPPO展示了"精細化干預(yù)"在AI訓(xùn)練中的威力。傳統(tǒng)的強化學(xué)習(xí)方法往往采用相對粗糙的獎勵信號,而VPPO通過引入更精細的分析和更有針對性的干預(yù),顯著提高了訓(xùn)練效果。這種思路可能會啟發(fā)更多類似的研究,比如在自然語言處理中分析語言理解的深度,在語音識別中區(qū)分基于聲學(xué)特征和語言模式的識別過程。
值得注意的是,VPPO的成功也為AI可解釋性研究提供了新的思路。通過分析哪些令牌具有高視覺依賴性,我們能夠更好地理解AI系統(tǒng)的推理過程,識別其決策的關(guān)鍵節(jié)點。這對于構(gòu)建更加透明和可信的AI系統(tǒng)具有重要意義。
當然,要實現(xiàn)這些美好前景,還需要解決一些技術(shù)挑戰(zhàn)。比如,如何將VPPO的思想擴展到更復(fù)雜的多模態(tài)場景中,如何處理不同模態(tài)信息之間的相互作用,如何在保持算法有效性的同時降低計算成本等。這些都是未來研究需要重點關(guān)注的方向。
說到底,VPPO算法的真正價值不僅在于它帶來的性能提升,更在于它為我們提供了一種新的視角來思考AI學(xué)習(xí)的本質(zhì)。它告訴我們,要讓AI真正智能,不能滿足于表面的正確答案,而要深入到推理過程的內(nèi)部,確保每一個步驟都體現(xiàn)了對問題的真正理解。
這種對"理解"而非"記憶"的強調(diào),可能是AI發(fā)展史上的一個重要轉(zhuǎn)折點。隨著類似思想的進一步發(fā)展和應(yīng)用,我們有理由相信,未來的AI系統(tǒng)將不僅能夠給出正確答案,更能夠用我們認可的方式來思考和推理。這樣的AI系統(tǒng)將真正成為人類智能的有力助手,而不僅僅是一個復(fù)雜的模式匹配器。
研究團隊的這項工作為整個AI領(lǐng)域樹立了一個重要的里程碑。它不僅推進了技術(shù)的發(fā)展,更重要的是引導(dǎo)我們思考什么才是真正的智能,以及如何構(gòu)建更加可靠和可信的AI系統(tǒng)。在AI技術(shù)日新月異的今天,這樣的思考顯得尤為珍貴和重要。
Q&A
Q1:VPPO算法是什么?它與傳統(tǒng)AI訓(xùn)練方法有什么不同?
A:VPPO(視覺感知策略優(yōu)化)是上海AI實驗室開發(fā)的一種新型AI訓(xùn)練算法,專門用于提高多模態(tài)AI系統(tǒng)的視覺推理能力。與傳統(tǒng)方法不同的是,VPPO能夠精確識別AI推理過程中哪些步驟真正依賴視覺信息,然后重點強化這些關(guān)鍵環(huán)節(jié)的學(xué)習(xí),而不是平均對待所有推理步驟。
Q2:為什么現(xiàn)有的AI系統(tǒng)在視覺推理上表現(xiàn)不佳?
A:主要問題是現(xiàn)有AI系統(tǒng)經(jīng)常采用"投機取巧"的策略,即主要依靠文本模式匹配而非真正的視覺理解來回答問題。就像學(xué)生做幾何題時不看圖形,僅憑題目描述猜答案一樣。傳統(tǒng)訓(xùn)練方法無法區(qū)分哪些推理步驟體現(xiàn)了真正的視覺理解,導(dǎo)致AI學(xué)會了"猜對"而非"看懂"。
Q3:VPPO算法在實際測試中效果如何?
A:VPPO在多項視覺推理基準測試中都取得了顯著改進。在7B參數(shù)模型上,平均準確率從55.0%提升到57.5%,在32B參數(shù)模型上達到64.6%,比基準方法高出7.6個百分點。更重要的是,算法還展現(xiàn)出更好的訓(xùn)練穩(wěn)定性和更快的收斂速度。





京公網(wǎng)安備 11011402013531號