![]()
本本研究由上海AI Lab前沿探索中心石博天老師帶領的數據前沿團隊、浙江大學EagleLab和上海創智學院等單位聯合完成。第一作者陳楊是浙江大學碩士生,研究方向為多模態大模型和推理,本工作完成于她在上海AI Lab實習期間,實習所在團隊以Agent-Ready的知識為核心,實現「提取->結構化->推理」全鏈路,包括基于MLLM的文檔理解、基于異質圖網絡的多模態知識表征、自主終身學習智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab,正在全身心探索下一代 MLLM 學習范式和高效的多模態智能體。論文的共同通訊作者于智是浙江大學 EagleLab 副教授,曾任浙大 ACM 教練并執教獲世界總冠軍。功成身退之后,長期致力于用 AI 改善殘障人群生活,在信息無障礙和人工智能領域有深厚造詣。
一個任務有多容易被 AI 解決?最終可能只取決于一個簡單的問題:它的答案有多容易被驗證?
這,就是驗證非對稱性(Asymmetry of Verification)—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是:對很多任務而言,驗證一個解的好壞,遠比從頭創造一個解要容易得多
這一思想,正是近期從 OpenAI 跳槽至 meta 的思維鏈(CoT)開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」(Verifier's Law)的基石。他斷言:「所有可能被解決且易于驗證的任務,都將被 AI 解決。」
為什么?因為一個任務如果具備客觀真理、可快速驗證、可規模化驗證、低噪音、連續獎勵等特性,就相當于為強化學習(RL)創造了一個完美的訓練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」(guess-and-check),通過不斷的迭代優化,最終逼近最優解。
而這一法則的最佳實踐,已經悄然出現在了多模態領域。上海AILAB和浙江大學EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美詮釋了如何利用「驗證的非對稱性」來攻克復雜的視覺推理難題。
![]()
論文標題:Learning only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback論文地址:https://arxiv.org/pdf/2507.20766
RRVF:Image2code 的「驗證者法則」訓練場
在傳統 AI 訓練中,我們依賴昂貴的「圖像 - 文本」配對數據來教模型進行視覺推理。這不僅成本高昂,而且很多時候限制了 AI 的創造力,例如使用特定的 code 來訓練還原 image。
![]()
圖 1: RRVF vs 通用訓練方法,只需輸入圖片,利用推理、渲染、反饋進行強化學習
RRVF 框架則另辟蹊徑,它沒有去教模型「怎么做」,而是構建了一個讓模型可以自我驗證的環境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 視覺反饋),這三個詞精準地概括了其核心工作流。它構建了一個端到端優化的閉環系統,讓模型在「自我糾正」中學習。
![]()
圖2: RRVF框架圖
第一步:迭代式視覺推理 (Iterative Visual Reasoning)
面對一張目標圖像(如數據圖表),它會進行迭代式多輪思考。在每一輪,模型都會在 < think > 中先寫下自己的思考過程,然后調用外部工具進行渲染和獲取反饋,在后續輪次中根據反饋修正自己的代碼。
![]()
圖 3: 迭代視覺推理算法
第二步:視覺反饋 (Visual Feedback)
外部工具(如 Matplotlib 或 Playwright 瀏覽器)執行代碼后,會渲染生成圖片。此時,一個更強大的「視覺裁判」模型(論文中使用了 72B 的 Qwen2.5-VL)會介入,對比渲染圖和原圖,并生成定性的、結構化的自然語言反饋,例如:「圖表類型正確,但顏色不匹配」、「網頁布局基本正確,但缺少了一個按鈕」。這些反饋會作為新的輸入,指導模型進行下一輪的代碼修正。
第三步:視覺裁判 (Visual Judge) & 混合獎勵
在整個迭代過程結束后,模型會輸出最終的代碼。此時,「視覺裁判」會再次出場,但這次它扮演的是「法官」角色,給出一個定量的視覺相似度分數R_vision。但僅僅有視覺分是不夠的。為了讓模型學得更好,研究者設計了混合獎勵函數 (Hybrid Reward Design)視覺相似度獎勵 (R_vision):核心獎勵,分數越高獎勵越大。格式正確性獎勵 (R_format):代碼能否跑通?思考和工具調用的格式對不對?如果出錯,直接給予懲罰。工具使用獎勵 (R_tool):為了鼓勵模型探索和使用反饋循環,每次成功的工具調用都會獲得少量獎勵,直到模型表現得足夠好(視覺分超過 0.95)或達到最大次數。
這三個獎勵通過加權組合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),構成最終的驅動力。
最后一步:GRPO 算法優化
有了精確的獎勵信號,如何高效地更新模型?RRVF 采用了GRPO(Group Relative Policy Optimization)算法。相比傳統的 PPO,GRPO 更高效,它不需要一個獨立的價值函數,而是通過對一組(論文中是 8 個)候選答案進行比較和打分,直接優化策略。
這個設計,完美地將一個復雜的「代碼生成」任務,轉化成了一個極易被驗證(視覺相似度)和優化(混合獎勵 + GRPO)的工程問題。
![]()
圖 4:迭代推理的 case,模型一步步學會如何準確重建一張餅圖
實驗結果:驗證的力量,讓 7B 模型超越 72B 老師
RRVF 的實驗結果,有力地證明了「驗證者法則」的力量。模型基于Qwen2.5-VL-7B進行訓練,并在圖表生成(ChartMimic, Plot2Code)和網頁生成(WebSight)三個數據集上進行了全面評測。
![]()
![]()
![]()
1. 性能碾壓:SFT 學的是「模仿」,RRVF 學的是「理解」
在 ChartMimic 上,傳統的監督微調(SFT)雖然有標準代碼答案,但執行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下,代碼執行率達到了97.83%,在其他各項指標上均有明顯提升。這證明了 RRVF 真正理解了圖像的結構,而非死記硬背。
2. 「學生」超越「老師」:自學習效應的驚人體現
出乎意料的是,通過 RRVF 訓練的 7B 模型,最終的綜合得分(64.36)不僅遠超其基礎模型(38.17),甚至超越了在訓練中為它提供反饋和評分的、更強大的 72B 模型(47.30)。這證明 RRVF 不是簡單的知識蒸餾,而是讓模型在自我探索中發現了比「老師」更優的策略,實現了能力的「進化」。
3. 泛化能力:真學霸從不畏懼新考卷
為了考驗模型是否真的學到了通用能力,研究者在未訓練的 Plot2Code 數據集上進行了零樣本測試。結果顯示,SFT 模型性能急劇下降(例如執行率從 69% 暴跌至 49%),暴露出其「偏科」和「過擬合」的本質。
相比之下,RRVF 模型的執行率幾乎沒有衰減(例如執行率從 97.83% 穩定在 96.21%)。這強有力地證明,通過視覺反饋學習到的,是可遷移的、底層的視覺到代碼的生成邏輯。
這項研究是「驗證者法則」的一次響亮宣告。它告訴我們,未來 AI 發展的瓶頸,可能不在于模型本身有多大,而在于我們能否為 AI 想解決的任務,設計出足夠簡單、高效的「驗證環境」。
一旦我們學會了如何將復雜問題轉化為易于驗證的問題,那么正如 Jason Wei 所預言的,一個智能的「鋸齒狀前沿」將會出現:在所有可被清晰驗證的領域,AI 將展現出超乎想象的強大能力。





京公網安備 11011402013531號