上海人工智能實驗室(簡稱上海AI實驗室)近期宣布了一項重大進展,正式向全球開源其通用多模態大模型——書生?萬象3.5(InternVL3.5)。此次開源不僅標志著InternVL系列在技術上的全面升級,更預示著多模態人工智能領域的一次重要飛躍。
InternVL3.5在推理能力、部署效率及通用性方面均實現了顯著提升。為了滿足不同場景下的多樣化需求,此次開源涵蓋了從10億到2410億參數的9種不同尺寸的模型。尤為值得一提的是旗艦模型InternVL3.5-241B-A28B,在多學科推理基準MMMU測試中取得了77.7分的高分,位居所有開源模型之首,其多模態通用感知能力甚至超越了GPT-5,文本處理能力同樣在主流開源多模態大模型中領先。
與之前的版本InternVL3.0相比,InternVL3.5在多個特色任務上均展現出顯著優勢。特別是在圖形用戶界面(GUI)智能體、具身空間感知以及矢量圖像理解與生成方面,其性能有了質的飛躍。在GUI交互測試中,InternVL3.5在ScreenSpot-v2元素定位任務中獲得了92.9分的高分,超越了同類模型,并支持Windows和Ubuntu系統的自動化操作。在具身智能體測試中,該模型展現出對物理空間關系的深刻理解,規劃導航路徑的能力在VSI-Bench測試中超越了Gemini-2.5-Pro。在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench測試中刷新了開源紀錄。
InternVL3.5的跨平臺操作能力尤為引人注目。它能夠在Windows、Mac、Ubuntu、Android等多個平臺上識別界面元素,并自主執行鼠標和鍵盤操作,實現諸如恢復已刪除文件、導出PDF、郵件添加附件等任務的自動化。這一特性極大地拓展了其應用場景,使得InternVL3.5在辦公自動化、智能機器人等領域具有廣泛的應用潛力。
InternVL3.5還具備更強的grounding能力,能夠在全新的復雜小樣本具身場景中實現泛化。配合抓取算法,它支持可泛化的長程物體抓取操作,為機器人提供了更高效的物品識別、路徑規劃與物理交互能力。這一特性使得InternVL3.5在智能制造、倉儲物流等領域同樣具有巨大的應用價值。
作為上海AI實驗室書生大模型體系的重要組成部分,InternVL系列自推出以來便受到廣泛關注。目前,InternVL全系列的全網下載量已突破2300萬次,顯示出其在全球范圍內的廣泛應用和深遠影響。此次開源InternVL3.5,上海AI實驗室旨在進一步推動多模態大模型技術的發展,促進全球科研人員和開發者之間的合作與創新。
通過提供這一強大的開源工具,上海AI實驗室希望加速人工智能在各個領域的應用進程,為解決現實世界的復雜問題提供更多可能性。這一舉措無疑將為全球人工智能領域的發展注入新的活力。





京公網安備 11011402013531號