開啟多模態思考新時代：昆侖萬維開源 R1V 視覺思維鏈推理模型

IP屬地中國·北京 編輯：鐘景軒 IT之家 時間：2025-03-18 17:31:50

3 月 18 日消息，昆侖萬維今日正式開源首款工業界多模態思維鏈推理模型 Skywork R1V，成為中國第一個開源「多模態推理模型」的企業，即日起開源模型權重和技術報告。
模型權重下載

Hugging Face：https://huggingface.co/Skywork/Skywork-R1V-38B

GitHub：https://github.com/SkyworkAI/Skywork-R1V
詳細技術報告
據介紹，視覺推理模型是一類能夠解決需要思維鏈（Chain-of-Thought）的視覺任務的模型，通過對視覺信息進行多步邏輯推理與分析，逐步推導出最終結果。這種模型關注圖像內容的識別與理解，同時強調通過層層遞進的推理路徑，實現復雜視覺問題的精準求解，例如視覺邏輯推理、視覺數學問題、圖像中的科學現象分析、醫學影像的診斷推理等。
在 Reasoning 推理能力方面，Skywork R1V 實現了模型的頂尖邏輯推理與數學分析能力，在權威的 MATH500 和 AIME 基準測試中，Skywork R1V 分別取得 94.0 和 72.0 分；在 Vision 視覺理解能力方面，Skywork R1V 成功地將其文本推理與思維鏈推導能力遷移到視覺任務中，在 MMMU 與 MathVista 等視覺推理基準中分別取得了 69 和 67.5 分。
昆侖萬維稱 Skywork R1V 模型擁有三項關鍵技術創新，附如下：
文本推理能力的多模態高效遷移
昆侖萬維團隊首次提出利用 Skywork-VL 的視覺投影器，無需重新訓練語言模型和視覺編碼器，即可實現文本推理能力的高效遷移到視覺任務，同時保留了優秀的原本推理文本能力（AIME 72.0，MATH500 94.0）。

多模態混合式訓練（Iterative SFT+GRPO）

通過結合迭代監督微調（Iterative SFT）和 GRPO 強化學習，分階段對齊視覺-文本表征，實現跨模態任務的高效融合，極大提升跨模態任務的表現。推動模型在 MMMU 基準達到 69 分的能力，同時在 MathVista 達到 67.5 分，與更大規模的閉源模型基本持平。通過反復迭代地利用高質量數據與高難度數據的組合，實現模型持續的知識鞏固與錯誤糾正，顯著提升了多模態推理的精度與泛化性能。

▲ 多模態混合式訓練（Skywork R1V 技術報告）自適應長度思維鏈蒸餾

團隊提出了一種基于視覺-文本復雜度的自適應推理鏈長度控制機制，動態優化模型推理過程，避免模型“過度思考”，提升推理效率。結合多階段自蒸餾策略，進一步提升了數據生成與推理過程的質量，促進了模型在復雜多模態任務中的表現。

▲ 自適應長度思維鏈蒸餾（Skywork R1V 技術報告）

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

京瓷推出DIGNO BX3個人版手機：無攝像頭設計專為保密場所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級iOS 26.2后無法降級

美媒：TikTok將在美國成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機搭載Exynos 2600芯片

避開蘋果“催更”，iPhone 16等用戶可加入公測版留守iOS 18

“25km/h”還是“配送超時”？該答題的不應只是騎手 | 鋒面評論

全站最新

京瓷推出DIGNO BX3個人版手機：無攝像頭設計專為保密場所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級iOS 26.2后無法降級

美媒：TikTok將在美國成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機搭載Exynos 2600芯片

熱門推薦

偽科普有哪些常見套路（嘮“科”）

上海加快建設具有全球影響力的科創高地

獲L3級自動駕駛準入許可長安汽車迎逾二百家機構調研

京瓷推出DIGNO BX3個人版手機：無攝像頭設計專為保密場所打造

iOS 26.1停止簽名，蘋果iPhone 17等用戶升級iOS 26.2后無法降級

巴基斯坦媒體：中國快遞行業迅速增長，“西藏包郵”正逐漸成為現實

美媒：中國降低全球邁入AI時代的門檻

美媒：TikTok將在美國成立合資公司

消息稱三星考慮為Galaxy Z Flip 8小折疊手機搭載Exynos 2600芯片

避開蘋果“催更”，iPhone 16等用戶可加入公測版留守iOS 18

“25km/h”還是“配送超時”？該答題的不應只是騎手 | 鋒面評論

河北地質大學“龍人”研究成果入選《科學》雜志2025年度十大科學突破

聚焦雄安新區丨氣象人工智能科學模型“風源”在雄安發布

屏幕能“長高”：聯想垂直卷軸概念筆記本曝光，將首秀CES 2026

美股三大股指全線收漲英偉達漲近4%