![]()
說起人工智能看圖解題,你可能會想到那些能夠讀懂文字、識別物體的智能系統。但這些系統有個根本問題——它們就像一個只會死記硬背的學生,看到題目后直接給答案,缺乏真正的"思考"過程。而人類解決復雜問題時,常常會在腦海中"想象"一些中間畫面來幫助推理。
這項由北京大學王啟軒、施楊等研究者與Kling團隊、MIT研究者合作完成的突破性研究發表于2025年11月,論文編號為arXiv:2511.21395v1。研究團隊開發出名為Monet-7B的多模態大語言模型,首次讓AI學會在"腦海"中生成抽象的視覺思維來解決復雜問題,就像人類在思考時會在心里"畫"出一些輔助圖像一樣。
傳統的AI視覺推理系統就像一個只會使用現成工具的工匠。當它們遇到復雜的視覺問題時,只能調用外部工具——比如畫框圈出重點區域、調用深度檢測模型、或者讓代碼程序修改圖片。這就好比一個廚師做菜時,每次都要依賴別人準備好的半成品,自己只是最后組裝一下。這種方式不僅效率低下,而且嚴重限制了AI的推理能力。
研究團隊意識到,真正的視覺推理應該像人類一樣,能夠在內部的"視覺空間"中進行抽象思考。當我們解決幾何題時,會在腦海中想象各種輔助線;當我們分析復雜圖表時,會在心里"看到"數據之間的關系趨勢。Monet-7B正是模擬了這種人類獨有的抽象視覺思維能力。
一、創新突破:讓AI擁有"視覺想象力"
Monet-7B的核心創新在于引入了"潛在視覺推理"機制。這就像給AI裝上了一個"內心的畫板",讓它能夠在解決問題時生成連續的、抽象的視覺表征,而不是簡單地依賴外部工具。
要理解這種創新,可以把傳統AI比作一個只會查字典的學生。遇到不懂的概念時,它必須翻書找答案,整個過程既緩慢又受限于字典的內容。而Monet-7B則像一個能夠"聯想"的學生,它會在腦海中構建相關的概念圖像,通過內在的視覺思維來理解和推理。
這種潛在視覺推理的實現原理相當巧妙。在推理過程中,Monet-7B可以自動決定何時需要進行"視覺思考"。當它判斷需要深入視覺分析時,會生成一個特殊的開始標記,然后產生一系列連續的潛在嵌入向量——這些就是它的"視覺想象"。這些想象出來的視覺表征會幫助模型更好地理解問題,然后再切換回語言推理模式給出最終答案。
研究團隊為了訓練這種能力,開發了一套三階段的監督微調框架。第一階段像是給AI上"預備課",讓它熟悉圖文交替的推理模式。第二階段是關鍵的"想象力培訓",通過一種巧妙的師生模型設計,讓AI學會生成高質量的潛在視覺表征。第三階段則是"獨立思考訓練",讓AI在沒有外部圖像幫助的情況下,純靠內在的視覺想象來解決問題。
更令人驚喜的是,研究團隊還開發了專門針對潛在推理的強化學習算法——VLPO(視覺-潛在策略優化)。傳統的強化學習方法只能優化文本輸出,就像只能評判一個學生的最終答案對錯,無法改進其思考過程。而VLPO可以直接優化AI的"想象"過程,讓它的視覺思維變得更加準確和有效。
二、訓練數據的精心打造
為了讓AI學會真正有用的視覺推理,研究團隊并沒有簡單地使用現有數據集,而是精心構建了Monet-SFT-125K這個高質量訓練數據集。這個過程就像為一位學習繪畫的學生挑選最合適的參考作品一樣,每一個訓練樣本都經過嚴格篩選。
數據構建過程分為三個重要階段。首先,團隊從現有的圖文交替推理數據中篩選出那些真正需要中間步驟視覺幫助的難題。判斷標準很直接:如果一個7B參數的模型僅憑原始問題和圖片就能正確回答,那說明這道題太簡單了,不需要復雜的視覺推理,因此被剔除。
第二階段更加嚴格,團隊使用72B參數的大模型來驗證輔助圖像的準確性。只有當這些輔助圖像確實能幫助大模型得出正確答案時,相關樣本才會被保留。這確保了訓練數據中的每個中間步驟都是有價值的,而不是誤導性的噪聲。
第三階段最為精細,團隊使用DeepSeek-V3.1和Gemini 2.5 Pro這些頂尖模型來識別推理過程中哪些文本描述對應著關鍵的視覺觀察。這就像給每個推理步驟加上了精確的標注,告訴AI哪些部分需要"用眼睛看",哪些部分純靠"動腦子想"就夠了。
最終構建的數據集包含12.5萬個高質量樣本,涵蓋現實世界場景、圖表分析、文檔理解和幾何推理等多個領域。這些樣本中的視覺操作從簡單的區域裁剪到復雜的輔助線繪制,甚至包括創建全新的視覺狀態,為AI提供了豐富的"想象力"訓練素材。
三、三階段訓練:從模仿到創造
Monet-7B的訓練過程就像培養一位藝術家的創作能力,需要循序漸進地發展其視覺思維。整個過程分為三個相互關聯的階段,每個階段都有其獨特的作用和挑戰。
第一階段的預熱訓練相當于讓AI"入門"。在這個階段,基礎模型需要適應圖文交替的推理模式。研究團隊發現了一個有趣現象:未經適應訓練的模型在使用輔助圖像時,對觀察類詞匯的預測準確度幾乎沒有提升,說明它根本沒有有效利用中間步驟的視覺信息。經過預熱訓練后,模型開始真正"看懂"輔助圖像,并將視覺信息編碼到相應的觀察詞匯中。
第二階段是整個訓練過程的核心——生成高質量的潛在視覺表征。這個階段采用了一種精巧的師生模型架構。教師模型可以看到完整的輔助圖像,而學生模型必須通過生成潛在嵌入向量來"想象"這些視覺內容。關鍵在于兩個創新設計:首先是觀察詞匯對齊,確保學生模型生成的潛在表征能夠產生與教師模型相同的觀察結果;其次是受控注意力流,讓潛在嵌入向量能夠直接"看到"輔助圖像,但阻止后續文本直接訪問這些圖像。
這種設計就像訓練一個學生通過"想象"來理解老師展示的圖片。學生不能直接看到圖片,只能通過老師的描述在腦海中構建相應的視覺表象,然后基于這個想象的圖像來回答問題。只有當學生的答案與直接看圖的老師一致時,才說明這種"想象"是準確有效的。
第三階段是"獨立創作"訓練。在這個階段,模型必須在完全沒有輔助圖像的情況下,僅憑問題描述就生成有用的潛在視覺表征。這就像一位畫家從寫實轉向抽象創作,需要依靠內在的藝術理解而不是外在的參照物。模型使用第二階段生成的高質量潛在表征作為"標準答案",學習在新情況下重現類似的視覺思維過程。
四、VLPO算法:優化"想象"過程
傳統的強化學習算法面對Monet這樣的潛在視覺推理系統時,就像一個只會評判最終作品的藝術評論家,無法指導創作過程中的每一筆每一畫。研究團隊開發的VLPO算法則像一位能夠深入創作過程的導師,不僅關注最終結果,還能優化整個"想象"過程。
問題的核心在于,傳統的GRPO(Group Relative Policy Optimization)算法只能處理離散的文本標記,而潛在視覺表征是連續的數值向量,沒有明確的概率分布。這就好比試圖用評判作文的方法來評判一幅畫——根本無從下手。
VLPO的巧妙解決方案是將潛在嵌入向量的生成建模為高斯分布采樣過程。具體而言,算法假設訓練時收集的潛在嵌入向量是從以當前策略生成的向量為均值的高斯分布中采樣得到的。基于這個假設,就可以計算出潛在嵌入向量的"概率",進而將其納入策略梯度更新中。
這種方法的效果相當顯著。當獎勵信號表明某個推理軌跡是成功的時,VLPO會讓策略網絡生成的潛在向量更接近那個成功軌跡中的潛在向量。反之,如果推理軌跡失敗了,算法會推動策略遠離相應的潛在表征。這就像一位導師不斷調整學生的想象方向,讓其朝向更有效的視覺思維模式發展。
值得注意的是,VLPO的獎勵設計相當簡潔,主要基于答案的正確性和格式規范性,而不會專門獎勵使用潛在推理的行為。這避免了模型濫用潛在推理功能,確保它只在真正需要時才啟動"視覺想象"模式。
五、實驗驗證:全面領先的性能表現
為了驗證Monet-7B的實際效果,研究團隊在多個具有挑戰性的基準測試上進行了全面評估。這些測試涵蓋了從現實世界感知到抽象推理的各個方面,就像給一位全能選手設計的綜合考試。
在現實世界感知和推理任務上,Monet-7B展現出了顯著的優勢。在V*基準測試中,它相比基礎模型Qwen2.5-VL-7B提升了6.81個百分點,達到83.25%的準確率。在HRBench4K和HRBench8K這兩個高分辨率圖像理解任務上,提升幅度分別達到了3.00和4.25個百分點。在MME-RealWorld測試中,推理任務的提升更是達到了9.75個百分點,充分證明了潛在視覺推理在處理復雜現實場景時的有效性。
更令人印象深刻的是Monet-7B在抽象視覺推理任務上的表現。VisualPuzzles是一個專門測試抽象視覺邏輯推理的基準,包含了大量在訓練過程中從未見過的視覺邏輯謎題。在這個具有挑戰性的測試中,Monet-7B取得了35.02%的總體準確率,不僅超越了所有開源基線模型,甚至在某些子任務上接近了GPT-4o等頂級商業模型的表現水平。
特別值得關注的是,當研究團隊分析不同數量的潛在嵌入向量對性能的影響時,發現了一個有趣現象。在分布內任務上,即使是僅經過監督微調的版本也能從潛在推理中獲益,隨著潛在向量數量的增加,性能呈現穩步提升的趨勢。但在分布外的抽象推理任務上,只有經過VLPO強化學習優化的版本才能真正發揮潛在推理的威力,這說明VLPO算法確實學會了如何更有效地運用"視覺想象"能力。
六、深入分析:每個組件的關鍵作用
研究團隊通過詳細的消融實驗,深入剖析了Monet系統中每個組件的具體貢獻,這些發現為未來的研究提供了寶貴的指導。
在訓練框架的設計上,團隊發現雙重監督信號缺一不可。僅使用觀察詞匯對齊而移除輔助圖像會導致性能大幅下降,因為潛在嵌入向量無法獲得足夠的視覺信息。相反,僅保留輔助圖像訪問而移除觀察詞匯對齊也會導致顯著的性能衰減,說明明確的對齊監督對于學習有效的視覺表征至關重要。
潛在嵌入向量專用的反向傳播機制也被證明是絕對必要的。當對齊損失被允許通過非潛在表征進行反向傳播時,模型性能急劇下降到46.07%,遠低于完整系統的82.20%。這說明如果不限制梯度流,模型會找到"偷懶"的方式來最小化損失,而不是真正學會生成有用的潛在視覺表征。
在強化學習階段,VLPO與傳統GRPO的對比更是鮮明。GRPO雖然能在某些情況下略微改善非潛在推理的性能,但對潛在推理本身幾乎沒有幫助。當測試時潛在向量數量為0(即不使用潛在推理)時,GRPO的表現與監督微調版本相當甚至略好。但一旦開啟潛在推理模式,GRPO的表現就明顯落后于監督微調版本,而VLPO則能持續改善潛在推理的效果。
研究團隊還發現了潛在向量數量的有趣規律。對于分布內任務,Monet-SFT能夠支持測試時的潛在向量數量擴展,通常在大于訓練時數量的設置下達到最佳性能。這種"擴展思考"的能力表明,模型確實學會了有意義的視覺推理過程,而不是簡單的記憶。
七、實際應用:從理論到實踐的跨越
通過大量的推理實例分析,可以清楚地看到Monet-7B如何在實際問題中運用其"視覺想象"能力。這些實例展現了模型從簡單的空間推理到復雜的圖表分析的全方位能力。
在3D空間推理任務中,當面對椅子角度匹配問題時,Monet-7B會首先用文字描述問題的基本要求,然后啟動潛在推理模式。在這個"想象"過程中,模型似乎在腦海中構建了椅子之間角度關系的抽象表征,然后基于這個內在的視覺理解給出準確答案。整個過程無需任何外部工具輔助,完全依靠內在的視覺推理能力。
在2D變換推理中,面對數字翻轉規律的識別任務,Monet-7B展現了令人印象深刻的模式識別能力。它能夠通過潛在推理理解數字"4"的兩次反射規律,然后將這個規律應用到數字"5"上。這種從具體實例中抽象出一般規律,再應用到新情況的能力,正是人類視覺推理的核心特征。
在復雜圖表分析任務中,Monet-7B表現出了層次化的推理模式。面對包含大量信息的商業分析圖表時,它首先通過潛在推理定位到相關的"Top Sales Countries"區域,然后在這個聚焦的基礎上進行詳細的數值比較和分析。這種"先看全局再聚焦細節"的策略與人類處理復雜視覺信息的方式高度一致。
特別值得注意的是,Monet-7B具備了選擇性使用潛在推理的智慧。在面對純文本數學推理題時,它會直接采用語言推理模式,而不會無意義地啟動視覺想象功能。這種"因題制宜"的策略選擇能力,展現了模型對不同問題類型的深層理解。
八、技術創新的更廣泛意義
Monet-7B的技術突破遠超單純的性能提升,它代表了多模態AI發展的一個重要方向轉變。從依賴外部工具的"拼裝式"推理轉向內在抽象思維的"生成式"推理,這種范式變革有著深遠的影響。
從計算效率角度來看,傳統的工具依賴型方法需要在推理過程中多次調用外部模塊,不僅增加了計算開銷,還引入了復雜的同步機制。而潛在視覺推理將所有處理都集成在單一模型內部,推理過程更加流暢高效。這就像從需要多個專業工具的復雜工序,簡化為一體化的自動化流水線。
從可擴展性角度來看,外部工具的能力往往是預定義和固化的,難以適應新領域或新任務的需求。而內在的潛在推理能力具有更強的泛化潛力,可以通過進一步訓練適應各種新場景。實驗中Monet-7B在未見過的抽象視覺推理任務上的出色表現,正說明了這種內在能力的可遷移性。
從理論意義上講,Monet-7B的成功驗證了連續潛在空間進行推理的可行性。這為未來開發更加抽象、更加靈活的AI推理系統提供了重要啟發。傳統的符號推理和神經網絡推理之間的鴻溝,可能通過這種潛在空間推理的方式得到彌合。
更重要的是,這項研究為理解和模擬人類認知過程提供了新的技術手段。人類的視覺思維往往發生在意識層面之下,難以直接觀察和分析。而Monet-7B的潛在視覺推理過程,雖然是人工的,但為研究自然視覺推理機制提供了一個可操作的模型。
九、挑戰與未來發展方向
盡管Monet-7B取得了顯著成功,但研究團隊也坦誠地指出了當前方法的局限性和未來需要攻克的挑戰。這種客觀的態度為后續研究指明了明確的方向。
訓練復雜性是一個不可回避的問題。三階段的監督微調過程相比傳統的端到端訓練確實更加復雜,需要更多的工程實踐經驗和調試時間。如何簡化這個訓練流程,或者開發出更加自動化的訓練策略,是一個重要的工程挑戰。
獎勵函數的設計也留有很大的探索空間。目前VLPO主要使用簡單的正確性獎勵,但在更復雜的應用場景中,可能需要設計更加精細的獎勵信號來引導潛在推理的發展方向。如何平衡推理過程的獎勵和最終結果的獎勵,如何設計能夠鼓勵創新性思考的獎勵機制,這些都是值得深入研究的問題。
模型的可解釋性也是一個重要挑戰。雖然潛在視覺推理在某種程度上模擬了人類的思考過程,但這些潛在表征的具體含義仍然是一個"黑箱"。開發能夠可視化或解釋這些潛在推理過程的方法,對于增進我們對模型行為的理解具有重要價值。
另一個值得關注的方向是多模態潛在推理的擴展。當前的工作主要聚焦于視覺推理,但類似的思路是否能夠擴展到音頻、觸覺等其他感官模態,甚至實現跨模態的潛在推理,這些都是激動人心的研究方向。
規模化應用也面臨挑戰。雖然Monet-7B在學術基準上表現出色,但要將這種技術應用到實際的商業場景中,還需要考慮成本效益、部署復雜度、用戶體驗等多個維度的問題。如何在保持推理能力的同時降低計算成本,如何讓這種技術更容易被開發者使用,這些都是產業化過程中需要解決的問題。
十、對AI發展的啟示與展望
Monet-7B的成功不僅是一個技術突破,更是對AI發展理念的重要啟發。它展現了從"外部工具組裝"向"內在能力生成"轉變的巨大潛力,預示著下一代AI系統可能具備更加接近人類的抽象思維能力。
這種潛在推理能力的意義遠超視覺領域。在自然語言處理中,類似的思路可能幫助模型發展更加深層的語義理解能力。在科學推理中,這種抽象思維能力可能有助于模型進行更加創造性的假設生成和驗證。在藝術創作中,潛在推理可能成為AI獲得真正創造力的關鍵途徑。
從更宏觀的角度來看,Monet-7B代表了AI系統從"工具使用者"向"思維主體"轉變的重要一步。傳統的AI系統更像是高效的工具操作員,能夠熟練地使用各種預定義的功能模塊。而具備潛在推理能力的AI系統則更像是真正的思考者,能夠在抽象的概念空間中進行創造性的探索和推理。
這種轉變對AI安全和對齊研究也提出了新的挑戰。當AI系統具備了內在的抽象思維能力后,理解和控制其行為變得更加復雜。如何確保這種強大的思維能力始終朝向有益的方向發展,如何在給予AI足夠自主性的同時保持必要的監管和引導,這些都是需要深入思考的問題。
同時,Monet-7B的成功也為人機協作開辟了新的可能性。當AI系統能夠進行類人的視覺推理時,它與人類專家的協作模式將發生根本性變化。AI不再只是執行明確指令的工具,而可能成為真正的思維伙伴,能夠理解復雜的視覺問題,提供創造性的解決方案,甚至在某些方面啟發人類的思考。
說到底,Monet-7B最大的貢獻可能不在于它解決了多少個具體問題,而在于它展示了AI發展的一種全新可能性。就像人類從使用工具進化到抽象思考一樣,AI系統也正在從工具組裝走向內在推理。這種進化可能最終導致真正智能的人工系統的出現——它們不僅能夠處理信息,更能夠像人類一樣進行深層的、創造性的思考。
當然,這條路還很長,充滿未知和挑戰。但正如研究團隊所展現的,通過嚴謹的科學研究和不斷的技術創新,我們正一步步接近這個看似遙不可及的目標。Monet-7B可能只是這個宏大故事的開始,但它已經為我們描繪出了一個充滿可能性的未來圖景。
Q&A
Q1:Monet-7B的"潛在視覺推理"具體是怎么工作的?
A:就像人類解決幾何題時會在腦海中想象輔助線一樣,Monet-7B能在內部的"視覺空間"中生成連續的抽象視覺表征。它會自動判斷何時需要"視覺思考",然后生成一系列潛在嵌入向量作為"視覺想象",幫助理解復雜問題后再給出答案。
Q2:VLPO算法相比傳統強化學習有什么優勢?
A:傳統的GRPO算法只能優化文本輸出,無法改進AI的"想象"過程。VLPO通過將潛在視覺表征建模為高斯分布,能夠直接優化AI的視覺思維過程,就像一位導師能夠指導學生的整個思考過程而不只是評判最終答案。
Q3:Monet-7B在哪些任務上表現最突出?
A:Monet-7B在抽象視覺推理任務上表現最為突出,在VisualPuzzles測試中達到35.02%的準確率,超越了所有開源模型。它還在現實世界推理任務上比基礎模型提升了9.75個百分點,證明了潛在視覺推理在處理復雜場景時的有效性。





京公網安備 11011402013531號