上海人工智能實驗室近期宣布了一項重大進展,其自主研發的通用多模態大模型“書生?萬象”迎來了3.5版本的開源發布。此次升級,不僅強化了模型的推理能力、部署效率,還極大地提升了其通用性能。
在模型規格上,InternVL3.5提供了多達9種不同尺寸的模型供用戶選擇,參數范圍從10億至2410億不等,旨在滿足不同場景下的多樣化需求。尤為旗艦模型InternVL3.5-241B-A28B在多學科推理基準MMMU測試中取得了77.7分的高分,這一成績在開源模型中獨占鰲頭。同時,該模型在多模態通用感知能力上超越了GPT-5,其文本處理能力也領先于其他主流開源多模態大模型。
與上一代產品InternVL3.0相比,InternVL3.5在多個特色任務上實現了顯著提升。特別是在圖形用戶界面(GUI)智能體、具身空間感知以及矢量圖像理解與生成等方面,其性能有了質的飛躍。上海AI實驗室的研究團隊在此次升級中,特別注重強化了模型的實際應用能力,使其在GUI交互、具身空間推理和矢量圖形處理等多個關鍵場景中,實現了從“理解”到“行動”的跨越。
在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任務中獲得了92.9分的高分,超越了同類模型。同時,它還支持Windows和Ubuntu系統的自動化操作,并在WindowsAgentArena任務中大幅領先于Claude-3.7-Sonnet。在具身智能體測試中,InternVL3.5展現出了對物理空間關系的深刻理解,并具備規劃導航路徑的能力,在VSI-Bench測試中取得了69.5分的好成績,超過了Gemini-2.5-Pro。在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench測試中刷新了開源紀錄,其生成任務的FID值也優于GPT-4o和Claude-3.7-Sonnet。
InternVL3.5的跨平臺能力同樣令人矚目。它能夠跨Windows、Mac、Ubuntu、Android等多個平臺,識別界面元素并自主執行鼠標、鍵盤操作,實現諸如恢復已刪除文件、導出PDF、郵件添加附件等任務的自動化。這一特性使其在辦公自動化、智能家居等領域具有廣泛的應用前景。
InternVL3.5還具備更強的grounding能力,能夠泛化到全新的復雜且小樣本的具身場景中。配合抓取算法,它支持可泛化的長程物體抓取操作,為機器人的物品識別、路徑規劃與物理交互提供了強有力的支持。這一特性使得InternVL3.5在智能制造、倉儲物流等領域具有巨大的應用潛力。
作為上海AI實驗室書生大模型體系的重要組成部分,InternVL系列一直備受關注。自推出以來,其全系列模型的全網下載量已突破2300萬次。此次InternVL3.5的發布,不僅進一步鞏固了上海AI實驗室在人工智能領域的領先地位,也為推動人工智能技術的普及和應用注入了新的動力。





京公網安備 11011402013531號