![]()
這項由清華大學(CUHK)的劉雨奇等研究者聯合香港科技大學(HKUST)和中國人民大學(RUC)的團隊完成的研究,發表于2025年10月的arXiv預印本平臺,論文編號為arXiv:2510.10606v1。對這項研究感興趣的讀者可以通過該編號查詢完整論文。這項研究為大型視覺語言模型的訓練提供了一種全新的方法,就像為AI的學習過程設計了一套更加高效的教學方案。
一、為什么我們需要更好的AI訓練方法
要理解這項研究的重要性,我們可以把訓練AI模型想象成教孩子學習的過程。傳統的方法主要有兩種:一種是嚴格按照教科書教學的"督導式學習"(SFT),另一種是讓孩子通過反復練習和自我糾錯來學習的"強化學習"(RLVR)。
督導式學習就像傳統的填鴨式教育。老師拿著標準答案,告訴學生什么是對的,學生死記硬背。這種方法的好處是學生能夠快速掌握教科書上的內容,但問題是一旦遇到教科書之外的題目,學生往往手足無措,甚至把之前學過的知識都忘得一干二凈。
強化學習則像是讓孩子通過做題獲得獎勵和懲罰來學習。孩子做對了題目就獲得獎勵,做錯了就受到懲罰,通過這種方式逐漸形成正確的解題思路。這種方法的好處是孩子學會了思考和推理,不容易忘記之前學過的知識,但問題是如果孩子對某個領域完全沒有基礎,光靠自己摸索很難找到正確的方向。
研究團隊通過大量實驗發現了一個有趣的現象:當AI模型面對它已經有一定了解的任務時,強化學習的效果更好;但當面對完全陌生的任務時,督導式學習反而更有效。這就好比一個數學不錯的學生通過做更多題目能夠進步更快,但如果讓他自學一門從未接觸過的物理課程,有老師指導顯然更有效率。
研究團隊特別關注了一個叫做"非對象分割"的任務來說明這個問題。在這個任務中,AI需要在圖片中找出指定的物體,比如"能夠煮水的工具"或"可以切東西的物品"。有時候,圖片中根本就沒有這樣的物體,AI需要聰明地回答"沒有找到"。結果顯示,用督導式學習訓練的模型雖然整體表現一般,但至少知道什么時候該說"沒有";而用強化學習訓練的模型雖然整體分數更高,但卻總是試圖在圖片中找出并不存在的物體,就像一個過度自信的學生,即使題目沒有答案也要硬編一個出來。
二、ViSurf的巧妙設計思路
面對這個兩難問題,研究團隊提出了一個巧妙的解決方案:能不能把兩種學習方法的優點結合起來呢?他們開發的ViSurf(Visual Supervised-and-Reinforcement Fine-Tuning)就像是設計了一套全新的教學方法,既有老師的指導,又保留了學生自主探索的空間。
ViSurf的核心思想可以用一個生動的比喻來解釋。假設我們在教一個學生解數學題,傳統的督導式學習就像老師直接告訴學生答案是什么,讓學生記住;強化學習則像讓學生自己做題,做對了給獎勵,做錯了給懲罰。而ViSurf的做法是:讓學生先自己嘗試解題,然后把學生的答案和標準答案放在一起比較,根據整體表現來決定獎懲。這樣,學生既能從標準答案中學到正確的解題方法,又能通過自己的嘗試培養思維能力。
從技術角度來看,ViSurf通過數學推導證明了督導式學習和強化學習的目標函數(可以理解為學習的方向和目標)實際上有著相似的結構。就像兩個看起來完全不同的教學方法,其實在數學本質上是可以統一的。基于這個發現,研究團隊設計了一個統一的目標函數,能夠同時包含兩種學習方法的優點。
三、三個巧妙的控制策略
為了讓這套新的學習方法能夠穩定運行,研究團隊還設計了三個巧妙的控制策略,就像給新的教學方法配備了三個安全保障措施。
第一個策略叫做"格式對齊"。這就好比確保老師的標準答案和學生的答案使用相同的格式。比如,如果學生習慣把答案寫成"{'bbox':[1,2,3,4]}"的格式,那么標準答案也應該調整為"{'bbox': [1, 2, 3, 4]}"的格式(注意冒號后面的空格)。雖然內容相同,但格式的微小差異在計算機看來就是完全不同的答案。通過格式對齊,確保標準答案能夠真正發揮指導作用。
第二個策略叫做"思維獎勵消除"。由于標準答案通常只給出最終結果,而沒有解題的思維過程,如果直接使用標準答案的思維部分來評分,可能會誤導模型。就好比標準答案只告訴學生"答案是5",但沒有說明"因為2+3=5"的推理過程。在這種情況下,ViSurf會暫時忽略標準答案的思維評分,讓模型主要從自己的嘗試中學習如何思考和推理。
第三個策略叫做"獎勵平滑"。這是最精妙的一個設計。系統會比較學生自己的最佳答案和標準答案的質量。如果學生已經找到了比標準答案更好的解決方案,系統就會降低標準答案的重要性,讓學生繼續按照自己的思路學習。這就像一個好老師會說:"你的方法比教科書上的還要好,繼續按照你的思路走。"通過這種方式,避免了標準答案對已經表現優秀的模型造成干擾。
四、令人印象深刻的實驗結果
為了驗證ViSurf的效果,研究團隊進行了大量的實驗測試,涵蓋了從視覺分割到數學推理的多個領域。實驗結果就像一場精彩的比賽,ViSurf在各個項目中都展現出了強勁的競爭力。
在非對象分割任務中,ViSurf取得了顯著的突破。基礎模型的準確率只有1.8%,傳統督導式學習能夠提升到3.3%,強化學習卻直接降到了0%(因為模型總是試圖找出不存在的物體),而ViSurf直接飆升到了57.1%。這種提升幅度就像一個原本只能偶爾答對題目的學生,突然變成了班里的優等生。
在推理分割任務中,ViSurf同樣表現出色。這類任務需要AI不僅能識別物體,還要進行復雜的邏輯推理。比如,給AI一張圖片,讓它找出"可能是女士使用的物品",AI需要綜合考慮物品的特征、使用場景等多個因素。在這個任務上,ViSurf的表現比基礎模型提升了約17%,比單獨使用督導式學習或強化學習都要好。
特別值得注意的是,ViSurf在數學推理任務上也表現不俗。數學推理對AI來說是一個特別具有挑戰性的領域,因為它不僅需要識別圖片中的數學符號和圖形,還要進行復雜的邏輯推理。ViSurf在MathVista測試中取得了71.6%的準確率,比基礎模型提升了3.4個百分點。雖然提升幅度看起來不大,但在數學推理這樣的高難度任務中,每一個百分點的提升都代表著顯著的進步。
更令人驚喜的是,ViSurf成功解決了傳統方法的一個老大難問題——災難性遺忘。傳統的督導式學習就像強迫學生忘記之前學過的知識來學習新內容,這導致模型在學習新任務時會忘記之前掌握的技能。ViSurf通過巧妙的設計避免了這個問題,讓模型既能學習新知識,又能保持之前的能力。
五、深入分析:為什么ViSurf這么有效
為了更深入地理解ViSurf的工作原理,研究團隊進行了詳細的分析,就像解剖一臺精密機器來理解它的每個零件是如何協同工作的。
首先,他們分析了訓練過程中的"熵變化"。熵可以理解為模型的"不確定性"或"探索性"。高熵意味著模型還在積極探索各種可能的答案,低熵則意味著模型已經比較確定自己的答案。研究發現,ViSurf的熵變化曲線呈現出一種理想的模式:開始時迅速下降(表示模型快速從外部指導中學習),然后緩慢收斂(表示模型在穩定地完善自己的能力)。這種模式避免了強化學習中常見的"熵坍塌"問題,即模型過早地鎖定某種策略而失去探索新可能性的能力。
其次,他們觀察了訓練穩定性。在長期訓練過程中,純強化學習方法的性能會出現波動甚至下降,就像一個學生在反復練習中逐漸失去了學習的方向。而ViSurf展現出了更好的穩定性,性能曲線更加平穩,這說明新方法能夠讓模型在長期學習中保持正確的方向。
研究團隊還發現了一個有趣的"邊界效應"。當基礎模型的能力較弱(準確率低于50%)時,ViSurf能夠帶來顯著的性能提升;但當基礎模型已經表現很好(準確率高于50%)時,ViSurf的提升幅度相對較小,其上限大致等同于純強化學習的效果。這個發現符合直覺:對于已經很優秀的學生,額外的輔導帶來的提升自然會相對有限。
另一個重要的發現是ViSurf大大減少了對精細提示詞設計的依賴。傳統的強化學習需要非常精確的指令來告訴模型應該輸出什么格式的答案,就像需要給學生提供非常詳細的答題模板。而ViSurf由于包含了標準答案作為參考,即使在提示詞相對簡單的情況下也能正常工作,這大大降低了實際應用中的技術門檻。
六、成本效益分析和實際應用前景
從實用角度來看,ViSurf不僅在效果上有所突破,在成本控制方面也表現出色。研究團隊對比了不同訓練方法的計算成本,發現ViSurf的內存使用量與純強化學習相當,每步訓練時間也基本相同,但效果卻明顯更好。這就像找到了一種既便宜又好用的新配方。
與傳統的兩階段訓練(先用督導式學習,再用強化學習)相比,ViSurf的單階段訓練不僅節省了總訓練時間,還避免了兩階段方法中的災難性遺忘問題。兩階段訓練就像讓學生先死記硬背一遍教科書,然后再讓他們通過做題來理解,這個過程中很容易出現前面學的內容被后面學的內容覆蓋的問題。
在與當前最先進方法的對比中,ViSurf也展現出了競爭優勢。在gRefCOCO和ReasonSeg這兩個重要的視覺理解測試中,ViSurf的表現達到了同類方法中的最高水平,這證明了新方法的實際價值。
更重要的是,ViSurf的設計理念具有很強的通用性。雖然目前的實驗主要集中在視覺任務上,但這種將外部指導和內部強化相結合的思路可以推廣到其他AI學習任務中。就像一種好的教學方法不只適用于數學,也可以用來教授語文、物理等其他學科。
從未來應用的角度來看,ViSurf特別適合那些需要處理多樣化任務的AI系統。在實際應用中,AI往往需要同時處理一些它很熟悉的任務和一些完全陌生的任務。傳統方法往往只能在其中一類任務上表現出色,而ViSurf的自適應特性讓它能夠根據任務的不同自動調整學習策略,這為構建更加智能和靈活的AI系統提供了新的可能性。
說到底,ViSurf代表了AI訓練方法的一個重要進步。它不是簡單地把兩種現有方法拼湊在一起,而是通過深入的理論分析和巧妙的工程設計,創造出了一種全新的學習范式。這種范式既保留了督導式學習在處理新領域問題時的優勢,又發揮了強化學習在培養推理能力方面的長處,同時通過精心設計的控制策略確保了訓練過程的穩定性。
對于AI研究者來說,這項工作提供了一個新的思路:不是所有問題都需要完全重新發明輪子,有時候最好的解決方案來自于對現有方法的深入理解和巧妙組合。對于AI的實際應用來說,ViSurf展現出的強大適應性和良好的成本效益比使它很有希望成為未來AI訓練的標準方法之一。
有興趣進一步了解技術細節的讀者可以查閱原論文,其中包含了完整的數學推導、詳細的實驗設置和更多的分析結果。這項研究為我們理解如何讓AI學習得更好、更穩定、更高效提供了重要的啟示。
Q&A
Q1:ViSurf和傳統的AI訓練方法有什么區別?
A:ViSurf最大的創新是把兩種傳統方法合二為一。以前要么用督導式學習(像老師直接教答案),要么用強化學習(讓AI自己摸索),ViSurf巧妙地把標準答案混入AI的自主練習中,讓AI既能從正確答案中學習,又能保持自主思考能力。
Q2:ViSurf訓練成本會很高嗎?
A:實際上ViSurf的成本控制得很好。它的內存使用量和訓練時間都與單純的強化學習差不多,但效果明顯更好。相比傳統的兩階段訓練(先督導再強化),ViSurf的單階段訓練反而更省時間和資源。
Q3:ViSurf能解決什么實際問題?
A:ViSurf特別擅長處理AI既熟悉又陌生的混合任務場景。比如讓AI同時處理圖像識別、數學推理、異常檢測等不同類型的問題時,ViSurf能自動調整學習策略,在熟悉任務上發揮強化學習優勢,在陌生任務上利用督導學習快速掌握新知識。





京公網安備 11011402013531號