智譜 AI 正式發布并開源新一代視覺推理模型 GLM-4.5V,官方數據顯示,其在 41 個公開視覺多模態基準測試中達到同級別開源模型 SOTA(State-of-the-Art,當前最佳技術)性能。該模型已同步在 GitHub、Hugging Face 和魔搭社區開源,采用 MIT 開源協議,支持商業使用(項目地址:https://github.com/zai-org/GLM-V/)。
![]()
圖丨基準測試結果(Hugging Face)
此次開源的 GLM-4.5V 是一個擁有 1,060 億總參數、120 億激活參數的 VLM(Vision-Language Model,視覺-語言模型)。它基于智譜此前發布的旗艦文本基座模型 GLM-4.5-Air 構建,并延續了 GLM-4.1V-Thinking 的技術路線。
從技術架構上看,GLM-4.5V 由視覺編碼器、MLP 適配器和語言解碼器三部分構成。模型通過引入三維旋轉位置編碼(3D-RoPE),顯著增強了對多模態信息中三維空間關系的感知和推理能力。同時,它支持 64K tokens 的多模態長上下文輸入,并采用三維卷積來提升視頻處理的效率。這些設計使得模型不僅能處理圖像,也能理解視頻內容,并對高分辨率以及極端寬高比的圖像具有更強的處理能力和穩健性。
![]()
圖丨技術細節(智譜)
為了提高其多模態能力,智譜在模型訓練的三個階段進行了多重優化。首先是預訓練階段,結合了大規模的圖文交錯多模態語料和長上下文內容,強化了模型對復雜圖文和視頻的基礎理解能力。
其次是監督微調(SFT,Supervised Fine-Tuning)階段,該階段引入了顯式的“思維鏈”格式訓練樣本,旨在增強模型的因果推理和多模態理解深度。最后是強化學習(RL,Reinforcement Learning)階段,通過構建多領域獎勵系統,并結合可驗證獎勵強化學習(RLVR,Reinforcement Learning with Verifiable Rewards)與基于人類反饋的強化學習RLHF,Reinforcement Learning from Human Feedback),模型在科學、技術、工程、數學(STEM)問題、多模態定位以及智能體(Agent)任務等方面獲得了全面優化。
在其官方演示中,GLM-4.5V 展現了覆蓋全場景的視覺推理能力,具體體現在多個方面。在圖像推理層面,它能夠進行復雜的場景理解和多圖分析。
例如,在模型能根據用戶的自然語言提問,精準識別圖像中的目標物體并輸出其在圖像中的坐標框。或是在不依賴外部搜索工具的情況下,通過分析圖像中的植被、氣候痕跡、建筑風格等細微線索,推斷出照片的拍攝地點和大致經緯度。
在一項與人類玩家的對比測試中,GLM-4.5V 在參與“圖尋游戲”全球積分賽的 16 小時內,擊敗了 99% 的人類玩家,并在 7 天后攀升至全球第 66 名。
筆者小小的嘗試了一下,的確非常精準。
![]()
(DeepTech)
不過再換了一張北京某公園照片試了下,大概是類似的場景太多,這次沒能猜對。
![]()
(DeepTech)
在復雜文檔理解方面,GLM-4.5V 能夠處理長達數十頁、包含大量圖表的復雜長文本。它會以類似人類的視覺方式讀取每一頁,實現了文字與圖像信息的同步理解,從而能夠更準確地進行內容總結、翻譯和圖表信息提取,有效避免了傳統 OCR 信息提取加文本模型分析的流程中可能出現的錯誤傳遞。
針對日益重要的前端開發和用戶界面交互任務,GLM-4.5V 還提供了“前端復刻”功能,可以分析網頁截圖甚至交互視頻,并生成相應的結構化HTML、CSS 和 Javascript 代碼,以復刻網頁的布局、樣式乃至動態交互邏輯。
筆者同樣進行了簡單測試,嘗試復刻了谷歌學術的首頁,可以看到整體 UI 效果還是比較還原的,只是忽略了我的演示視頻中點擊呼出側邊欄的交互功能,略有遺憾。
![]()
(DeepTech)
此外,模型的 GUI Agent 能力,使其能夠識別和處理電子屏幕畫面,執行對話問答、圖標定位等任務,為開發能夠輔助操作桌面環境的智能體應用打下了堅實基礎。
智譜同時開源了一款桌面助手應用,該應用可實時截屏、錄屏獲取屏幕信息,依托 GLM-4.5V 處理多種視覺推理任務,處理代碼輔助、視頻內容分析、游戲解答、文檔解讀等多類視覺任務。
參考資料:
1.https://x.com/Zai_org/status/1954898011181789431
2.https://huggingface.co/zai-org/GLM-4.5V
3.https://github.com/zai-org/GLM-V/
4.https://mp.weixin.qq.com/s/8cKtGwUtEvAaPriVzBI1Dg
運營/排版:何晨龍





京公網安備 11011402013531號