上海AI Lab與浙大EagleLab推出RRVF，助力視覺推理新突破。

IP屬地中國·北京 編輯：江紫萱機器之心Pro 時間：2025-08-11 20:16:57

本本研究由上海AI Lab前沿探索中心石博天老師帶領的數據前沿團隊、浙江大學EagleLab和上海創智學院等單位聯合完成。第一作者陳楊是浙江大學碩士生，研究方向為多模態大模型和推理，本工作完成于她在上海AI Lab實習期間，實習所在團隊以Agent-Ready的知識為核心，實現「提取->結構化->推理」全鏈路，包括基于MLLM的文檔理解、基于異質圖網絡的多模態知識表征、自主終身學習智能體等。論文共同第一作者、通訊作者沈宇帆就職于上海AI Lab，正在全身心探索下一代 MLLM 學習范式和高效的多模態智能體。論文的共同通訊作者于智是浙江大學 EagleLab 副教授，曾任浙大 ACM 教練并執教獲世界總冠軍。功成身退之后，長期致力于用 AI 改善殘障人群生活，在信息無障礙和人工智能領域有深厚造詣。
一個任務有多容易被 AI 解決？最終可能只取決于一個簡單的問題：它的答案有多容易被驗證？
這，就是驗證非對稱性（Asymmetry of Verification）—— 一個古老但正在重塑 AI 未來的深刻原則。它的核心思想是：對很多任務而言，驗證一個解的好壞，遠比從頭創造一個解要容易得多
這一思想，正是近期從 OpenAI 跳槽至 meta 的思維鏈（CoT）開山作者 Jason Wei 在其最新博客中提出的「驗證者法則」（Verifier's Law）的基石。他斷言：「所有可能被解決且易于驗證的任務，都將被 AI 解決。」
為什么？因為一個任務如果具備客觀真理、可快速驗證、可規模化驗證、低噪音、連續獎勵等特性，就相當于為強化學習（RL）創造了一個完美的訓練場。AI 可以在這個場中進行海量的、高效率的「猜測 - 檢驗」（guess-and-check），通過不斷的迭代優化，最終逼近最優解。
而這一法則的最佳實踐，已經悄然出現在了多模態領域。上海AILAB和浙江大學EagleLab的最新研究RRVF（Reasoning-Rendering-Visual-Feedback），就完美詮釋了如何利用「驗證的非對稱性」來攻克復雜的視覺推理難題。

論文標題：Learning only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback論文地址：https://arxiv.org/pdf/2507.20766
RRVF：Image2code 的「驗證者法則」訓練場
在傳統 AI 訓練中，我們依賴昂貴的「圖像 - 文本」配對數據來教模型進行視覺推理。這不僅成本高昂，而且很多時候限制了 AI 的創造力，例如使用特定的 code 來訓練還原 image。

圖 1: RRVF vs 通用訓練方法，只需輸入圖片，利用推理、渲染、反饋進行強化學習
RRVF 框架則另辟蹊徑，它沒有去教模型「怎么做」，而是構建了一個讓模型可以自我驗證的環境。RRVF 的全稱是「Reasoning-Rendering-Visual-Feedback」（推理 - 渲染 - 視覺反饋），這三個詞精準地概括了其核心工作流。它構建了一個端到端優化的閉環系統，讓模型在「自我糾正」中學習。

圖2: RRVF框架圖
第一步：迭代式視覺推理 (Iterative Visual Reasoning)
面對一張目標圖像（如數據圖表），它會進行迭代式多輪思考。在每一輪，模型都會在 < think > 中先寫下自己的思考過程，然后調用外部工具進行渲染和獲取反饋，在后續輪次中根據反饋修正自己的代碼。

圖 3: 迭代視覺推理算法
第二步：視覺反饋 (Visual Feedback)
外部工具（如 Matplotlib 或 Playwright 瀏覽器）執行代碼后，會渲染生成圖片。此時，一個更強大的「視覺裁判」模型（論文中使用了 72B 的 Qwen2.5-VL）會介入，對比渲染圖和原圖，并生成定性的、結構化的自然語言反饋，例如：「圖表類型正確，但顏色不匹配」、「網頁布局基本正確，但缺少了一個按鈕」。這些反饋會作為新的輸入，指導模型進行下一輪的代碼修正。
第三步：視覺裁判 (Visual Judge) & 混合獎勵
在整個迭代過程結束后，模型會輸出最終的代碼。此時，「視覺裁判」會再次出場，但這次它扮演的是「法官」角色，給出一個定量的視覺相似度分數R_vision。但僅僅有視覺分是不夠的。為了讓模型學得更好，研究者設計了混合獎勵函數 (Hybrid Reward Design)視覺相似度獎勵 (R_vision)：核心獎勵，分數越高獎勵越大。格式正確性獎勵 (R_format)：代碼能否跑通？思考和工具調用的格式對不對？如果出錯，直接給予懲罰。工具使用獎勵 (R_tool)：為了鼓勵模型探索和使用反饋循環，每次成功的工具調用都會獲得少量獎勵，直到模型表現得足夠好（視覺分超過 0.95）或達到最大次數。
這三個獎勵通過加權組合（R = w_v * R_vision + w_f * R_format + w_t * R_tool），構成最終的驅動力。
最后一步：GRPO 算法優化
有了精確的獎勵信號，如何高效地更新模型？RRVF 采用了GRPO（Group Relative Policy Optimization）算法。相比傳統的 PPO，GRPO 更高效，它不需要一個獨立的價值函數，而是通過對一組（論文中是 8 個）候選答案進行比較和打分，直接優化策略。
這個設計，完美地將一個復雜的「代碼生成」任務，轉化成了一個極易被驗證（視覺相似度）和優化（混合獎勵 + GRPO）的工程問題。

圖 4：迭代推理的 case，模型一步步學會如何準確重建一張餅圖
實驗結果：驗證的力量，讓 7B 模型超越 72B 老師
RRVF 的實驗結果，有力地證明了「驗證者法則」的力量。模型基于Qwen2.5-VL-7B進行訓練，并在圖表生成（ChartMimic, Plot2Code）和網頁生成（WebSight）三個數據集上進行了全面評測。

1. 性能碾壓：SFT 學的是「模仿」，RRVF 學的是「理解」
在 ChartMimic 上，傳統的監督微調（SFT）雖然有標準代碼答案，但執行率只有 69.00%。而 RRVF 在沒有任何代碼答案的情況下，代碼執行率達到了97.83%，在其他各項指標上均有明顯提升。這證明了 RRVF 真正理解了圖像的結構，而非死記硬背。
2. 「學生」超越「老師」：自學習效應的驚人體現
出乎意料的是，通過 RRVF 訓練的 7B 模型，最終的綜合得分（64.36）不僅遠超其基礎模型（38.17），甚至超越了在訓練中為它提供反饋和評分的、更強大的 72B 模型（47.30）。這證明 RRVF 不是簡單的知識蒸餾，而是讓模型在自我探索中發現了比「老師」更優的策略，實現了能力的「進化」。
3. 泛化能力：真學霸從不畏懼新考卷
為了考驗模型是否真的學到了通用能力，研究者在未訓練的 Plot2Code 數據集上進行了零樣本測試。結果顯示，SFT 模型性能急劇下降（例如執行率從 69% 暴跌至 49%），暴露出其「偏科」和「過擬合」的本質。
相比之下，RRVF 模型的執行率幾乎沒有衰減（例如執行率從 97.83% 穩定在 96.21%）。這強有力地證明，通過視覺反饋學習到的，是可遷移的、底層的視覺到代碼的生成邏輯。
這項研究是「驗證者法則」的一次響亮宣告。它告訴我們，未來 AI 發展的瓶頸，可能不在于模型本身有多大，而在于我們能否為 AI 想解決的任務，設計出足夠簡單、高效的「驗證環境」。
一旦我們學會了如何將復雜問題轉化為易于驗證的問題，那么正如 Jason Wei 所預言的，一個智能的「鋸齒狀前沿」將會出現：在所有可被清晰驗證的領域，AI 將展現出超乎想象的強大能力。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

項立剛：要把羅永浩做成創業課程「失敗案例」

小米汽車再上熱搜，人已去世！

清華孫茂松：工業界大廠可以Scaling，其他玩家重在垂直應用

“聰明錢”今年在幣圈也被“割韭菜”了

摩爾線程首次披露GPU路線圖，稱其全新AI芯片性能高于英偉達上一代產品

華為MateBook Fold折疊電腦獲HarmonyOS 6.0.0.120 SP1升級

全站最新

項立剛：要把羅永浩做成創業課程「失敗案例」

小米汽車再上熱搜，人已去世！

清華孫茂松：工業界大廠可以Scaling，其他玩家重在垂直應用

“聰明錢”今年在幣圈也被“割韭菜”了

熱門推薦

付鵬：2026年將是AI應用的「證偽之年」，巨頭們需證明自己

世貿報告：人工智能到2040年或推動全球貿易增長近四成

項立剛：要把羅永浩做成創業課程「失敗案例」

小米汽車再上熱搜，人已去世！

清華孫茂松：工業界大廠可以Scaling，其他玩家重在垂直應用

“聰明錢”今年在幣圈也被“割韭菜”了

摩爾線程首次披露GPU路線圖，稱其全新AI芯片性能高于英偉達上一代產品

華為MateBook Fold折疊電腦獲HarmonyOS 6.0.0.120 SP1升級

極摩客NucBox K15迷你主機發布，配置豐富支持外接顯卡

庫克提拔復旦校友掌舵蘋果基礎模型！龐若鳴走后漲薪止血

可玩轉千余款游戲，英偉達聯合斯坦福等研發NitroGen開源模型

奧迪+華為=油車智能天花板？

中國移動聯合華為、中興推出業界首個網絡原生AI話音降噪能力

高價預估低價收購手機回收平臺藏貓膩

榮耀WIN系列手機全系搭載鴻燕通信系統、搶網通信雙芯