3 月 18 日消息,昆侖萬維今日正式開源首款工業界多模態思維鏈推理模型 Skywork R1V,成為中國第一個開源「多模態推理模型」的企業,即日起開源模型權重和技術報告。

模型權重下載
Hugging Face:https://huggingface.co/Skywork/Skywork-R1V-38B
GitHub:https://github.com/SkyworkAI/Skywork-R1V
詳細技術報告據介紹,視覺推理模型是一類能夠解決需要思維鏈(Chain-of-Thought)的視覺任務的模型,通過對視覺信息進行多步邏輯推理與分析,逐步推導出最終結果。這種模型關注圖像內容的識別與理解,同時強調通過層層遞進的推理路徑,實現復雜視覺問題的精準求解,例如視覺邏輯推理、視覺數學問題、圖像中的科學現象分析、醫學影像的診斷推理等。
在 Reasoning 推理能力方面,Skywork R1V 實現了模型的頂尖邏輯推理與數學分析能力,在權威的 MATH500 和 AIME 基準測試中,Skywork R1V 分別取得 94.0 和 72.0 分;在 Vision 視覺理解能力方面,Skywork R1V 成功地將其文本推理與思維鏈推導能力遷移到視覺任務中,在 MMMU 與 MathVista 等視覺推理基準中分別取得了 69 和 67.5 分。

昆侖萬維稱 Skywork R1V 模型擁有三項關鍵技術創新,附如下:
文本推理能力的多模態高效遷移昆侖萬維團隊首次提出利用 Skywork-VL 的視覺投影器,無需重新訓練語言模型和視覺編碼器,即可實現文本推理能力的高效遷移到視覺任務,同時保留了優秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。
多模態混合式訓練(Iterative SFT+GRPO)
通過結合迭代監督微調(Iterative SFT)和 GRPO 強化學習,分階段對齊視覺-文本表征,實現跨模態任務的高效融合,極大提升跨模態任務的表現。推動模型在 MMMU 基準達到 69 分的能力,同時在 MathVista 達到 67.5 分,與更大規模的閉源模型基本持平。通過反復迭代地利用高質量數據與高難度數據的組合,實現模型持續的知識鞏固與錯誤糾正,顯著提升了多模態推理的精度與泛化性能。

▲ 多模態混合式訓練(Skywork R1V 技術報告)自適應長度思維鏈蒸餾
團隊提出了一種基于視覺-文本復雜度的自適應推理鏈長度控制機制,動態優化模型推理過程,避免模型“過度思考”,提升推理效率。結合多階段自蒸餾策略,進一步提升了數據生成與推理過程的質量,促進了模型在復雜多模態任務中的表現。

▲ 自適應長度思維鏈蒸餾(Skywork R1V 技術報告)





京公網安備 11011402013531號