![]()
機器之心報道
作者:張倩、陳陳
光看圖,你能猜出這是哪兒嗎?
![]()
當同事出差回來扔到群里這么一張圖,我們也是猜了半天,但毫無頭緒。
直到另一位同事把圖扔給智譜的新模型 ——GLM-4.5V,這個謎團才解開。

把照片截圖傳給 GLM-4.5V(避免模型利用照片的 EXIF 元數據),它很快就推理出了結果。
沒錯,圖里的地方是多瑙河畔。盡管同事拍照的角度和風格和小某書上的精美照片大相徑庭,但智譜的新模型還是通過深度分析給出了準確答案。
你可能要說,這個能力,OpenAI 的 o3、o4 mini 早就有了,沒什么稀奇。但如果我告訴你,這個模型是開源的呢?
聽說,它還參加了大名鼎鼎的「圖尋」游戲全球積分賽,和里面的兩萬多名人類玩家對戰了 7 天。
出于好奇,我們打開這個游戲玩了玩,結果一上來就懵了:這比賽只給 3 分鐘時間思考,碰到帶地標的還好,像這種普通的街道、山路,不積累點人文、地理知識,連大概范圍都不好確定,更別提按照題目要求定位出經緯度了。
![]()
![]()
但就是在這樣的賽制里比了 7 天之后,GLM-4.5V 擊敗了 99.99% 的人類玩家
這個游戲玩得好意味著什么?意味著GLM-4.5V 擁有了超強的視覺推理能力,它能夠自動識別圖片中的細微線索 —— 從建筑風格、植被類型、道路標識,到天空顏色、光線角度等環境信息,并基于這些信息進行推理,在必要時,它還會主動調用工具去分析圖像中的關鍵細節。
理論上,這種超強的視覺推理能力不僅可以用來識圖定位,還可以用來完成一些更實際、更復雜的現實任務,比如處理復雜圖表、多圖長文本……
為了驗證這個推測,在GLM-4.5V 開源上線之后,我們第一時間進行了全面實測。測試結果超出預期,因為除了前面提到的任務,它在處理長視頻方面也很出色,而且對于網頁等交互界面元素的解讀也很到位,這讓它具備了作為 GUI Agent 應用底層模型的潛力。
整體來看,無論是國內還是國外,GLM-4.5V 都稱得上是第一梯隊的開源視覺推理模型。能把這樣的模型開源出來,智譜的誠意確實值得點贊。
除了模型,智譜還同步開源了一個桌面助手應用。它基于 GLM-4.5V 模型的原生能力,能夠通過截屏和錄屏實時獲得屏幕信息,處理多種視覺推理任務,比如和你一起寫代碼、看視頻、解謎題。感興趣的同學可以去體驗一下。
![]()
體驗地址:https://chat.z.ai/HuggingFace 開源地址:https://huggingface.co/zai-org/GLM-4.5VGitHub 開源地址:https://github.com/zai-org/GLM-V桌面助手下載地址:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App魔搭社區:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
拿到圖,它就是福爾摩斯
對圖像的識別與推理,一直是多模態模型能力的重要試金石。GLM-4.5V 在這一領域展現出強大的綜合實力。它就像一個偵探一樣,能從照片的點滴細節中一點點抽絲剝繭,尋找答案。
看到這張照片,估計很多人都有些摸不著頭腦,它制造了一個視覺錯覺,讓人第一眼誤以為男人穿了高跟鞋, 對于這種強錯位攝影,不知 GLM-4.5V 表現如何?
我們輸入提示:這張照片,到底誰站著,誰坐著?
![]()
GLM-4.5V 幾乎不需要長時間推理,就直接給出了準確的答案,站著的是穿藍色上衣和白色褲子的人,坐著的是穿紫色衣服的人。
![]()
我們進一步追問坐著的是男生還是女生,對人類來說,這個問題可能比較難以回答。然而,GLM-4.5V 卻能夠輕松地做出判斷。
![]()
這也意味著,GLM-4.5V 在面對含有視覺錯覺、人物遮擋和細節干擾的圖片時,依然能夠快速鎖定有效特征進行精確識別。這樣的能力,不僅適用于趣味圖像辨析,更在安防監控、人物識別等需要高準確率的場景中具備實用價值。
實際上,GLM-4.5V 的能力遠不止于此,它甚至能夠通過風景或街景圖片,準確推測出具體的地點,甚至給出精確的經緯度。
我們經常看到有人在網絡上分享旅游照片,自己心中也有去一探究竟的沖動,但往往因為不好意思直接詢問而作罷。現在,借助 GLM-4.5V,只需要一張照片,它便能為你揭示照片背后的地點信息。
我們輸入一張圖,然后輸入提示:「這張圖來自哪里。請在得出結論之后用 json 格式輸出:大洲 - 國家 - 省份 / 州 - 市 - 地名 - 緯度 - 經度,鍵名為:'continent', 'country', 'state', 'city', 'place_name', 'lat', 'lng'。」
![]()
GLM-4.5V 通過高聳的通訊塔,山體巖石裸露、植被分布等特征,推斷出這是泰山,并給出相應的經緯度。
![]()
再來一個小眾一點的地方。
![]()
只見 GLM-4.5V 精準定位到了 HDC 這個關鍵信息,然后給出這是華為小鎮中的一座建筑。
![]()
如果照片沒有文字信息,GLM-4.5V 能否猜對地點?我們輸入如下圖片:
![]()
GLM-4.5V 開始分析圖片中的關鍵元素,如城墻、磚石結構、行人、紅色燈籠裝飾,以及遠處的現代建筑和樹木。結合這些線索,GLM-4.5V 推測出這是西安的明城墻。
![]()
接下來,我們考察 GLM-4.5V 在字符識別與文字理解方面的能力。
我們選取了一張手寫草稿圖,圖中寫有「世界那么大」四個字,但為了增加識別難度,這張圖不僅拍攝模糊、光線不佳,而且文字還呈倒置狀態。這對模型在視覺處理、OCR 能力以及圖像旋轉魯棒性等方面提出了極高的要求。
![]()
結果 GLM-4.5V 回答正確。
![]()
在接下來的測試中,我們讓 GLM-4.5V 完成一項看似簡單卻頗具挑戰性的任務,讀取時間。此前,來自英國愛丁堡大學等機構的研究者在一項研究中指出,AI 系統讀取時鐘的準確率僅為 38.7%。
那 GLM-4.5V 表現如何呢?我們輸入如下照片:
![]()
在這張圖中,想要判斷出時間還是有點難度的,首先這是夜晚拍攝,光線條件可能影響時鐘指針的清晰度,其次圖片中的時鐘顯示位于建筑的頂部,而時鐘的時針和分針比較模糊,可能不易精確分辨,再就是拍攝角度比較偏,距離較遠。盡管如此,GLM-4.5V 還是給出了準確的時間。
![]()
這一點尤為重要,因為在實際應用中,圖像往往并非完美無缺,存在一定的噪聲和不確定性。GLM-4.5V 能夠在這些不完全和模糊的條件下,仍然做出準確的判斷,這為其在復雜環境下的應用提供了更強的實用性。
即便是相似的兩張圖片,GLM-4.5V 也能憑借細節進行精準區分。比如,下面這兩張同為長城的照片,你能看出它們分別位于哪里嗎?
![]()
GLM-4.5V 全部答對了,其根據墻體保存完整度,游客數量等因素,綜合判斷出左邊是慕田峪長城,右邊是八達嶺長城。
![]()
吉娃娃和松餅也讓很多大模型傻傻分不清,兩者顏色、質地、構圖極為相似。對于人類來說不難分辨;可對大模型而言,這是對紋理辨識、邊緣結構理解和上下文缺失情況下推理能力的嚴酷考驗。
![]()
這次 GLM-4.5V 也答對了,只見它逐行進行分析,最終給出了準確答案。
![]()
總體來看, GLM-4.5V 在圖像識別方面展現出了「偵探級」的分析能力以及泛化能力,因為很多圖片是我們自己拍攝的,不會存在于訓練集中。這種強大的能力讓 GLM-4.5V 不僅能「看」,還能基于「看」到的東西進行思考,為實際應用場景提供了可靠的技術支撐。
超長視頻理解,細節捕捉狂魔
GLM-4.5V 在網頁內容復現上的表現已相當驚艷,而在視頻理解方面同樣展現了非凡實力。
我們首先拿宇樹最近發布的機器人視頻(時長 2 分鐘左右)測試了一下,發現模型不僅能對視頻進行整體描述,還指出了其中的很多細節,以及這些細節所代表的含義(比如「累計行駛距離達 12.55 公里,用時 3 小時 8 分鐘,證明了其良好的續航和自主導航能力」)。這說明,它通過深度推理理解到了視頻作者加上這些注解的目的。

接下來,我們測試了一個更長一些的電視劇片段(大概 7 分半),并就電視劇里的一些細節進行提問,比如主人公具體做了哪些事情、做某件事情的時候穿搭是怎樣的,GLM-4.5V 都能準確回答。有意思的是,它還能識別主人公的表情,明確指出了幾段「哭戲」的大體位置。

當然,這樣的模型用來學習是綽綽有余,光是總結視頻就能達到天天用的程度。
比如,前段時間 Ilya Sutskever 現身多倫多大學進行了一場精彩的演講,視頻時長 10 分鐘左右。對于英文不是很好的小伙伴來說,想聽懂這場演講著實有點難度,這時,GLM-4.5V 可謂是一個很好的小助手。
![]()
lya Sutskever演講原視頻
你只需上傳視頻,然后提問就可以了。
我們首先提問這個視頻包含的一些關鍵信息,只見 GLM-4.5V 思考了一下,然后給出了準確的答案,人物、地點,發生的事件都包括了。
![]()
接著,我們讓 GLM-4.5V 對 Ilya 的演講進行總結,GLM-4.5V 以條理化的方式羅列出來,對照原視頻后,我們發現它的回答與實際內容基本一致,整體準確度令人滿意。
![]()
在體驗過程中,我們發現它還可以復制畫面中的 PPT,這是之前只能處理語音、文字信息的模型所做不到的,也讓 GLM-4.5V 在學習這個賽道上更具實用價值。

以上視頻都比較短,那如果是長視頻呢?
我們輸入了一個時長為一小時零 5 分鐘的視頻來測試 GLM-4.5V 對視頻的理解能力,輸入的視頻為奧特曼采訪。
對于這個長視頻,GLM-4.5V 思考了一會,給出了視頻主要內容。
![]()
接著我們追問了一個問題,第 38 分之后,奧特曼是什么動作?
![]()
令我們驚訝的是,對于這樣的問題,GLM-4.5V 也能答對:

奧特曼一邊回答問題,一邊用手勢表達。
從短視頻到長達 1 小時的內容,GLM-4.5V 都展現出了穩定的理解能力,特別是能精確定位特定時間點的動作細節,這在同類模型中并不多見。對于普通用戶來說,這樣的能力已經足夠實用。
復刻前端就是如此簡單
GLM-4.5V 視覺推理能力,在前端復刻場景中體現得尤為明顯。
只需一張截圖,或是一段視頻,GLM-4.5V 就能像一位資深前端工程師一樣,精準解析視覺內容,并生成高質量、結構化、可交互的網頁代碼。
我們首先讓 GLM-4.5V 復刻一下 OpenAI 官網,要求是和這個頁面布局相似。
![]()
OpenAI 網站
只見 GLM-4.5V 思考了數秒,就給出答案了,我們先看結果。可以看到,除了中間的背景圖(不額外提供很難復刻),GLM-4.5V 把該網站的模塊布局基本都復制了出來,而且排版高度相似。即使是沒給背景圖,GLM-4.5V 也選擇了一個色調非常相似的圖來填充,這讓該網站看起來非常美觀。
![]()
GLM-4.5V 生成的結果
GLM-4.5V 是如何做到的呢?其思考過程如下,GLM-4.5V 首先分析了圖片中包含的要素,如左邊欄的菜單按鈕、網頁主界面及包含的信息,以及登錄按鈕等,在分析完之后,開始思考如何編寫代碼,需要用到哪些庫和組件,甚至還考慮到了圖片中的字體和顏色等很細微的地方。
思考之后,GLM-4.5V 開始飛速寫代碼,只用了幾秒的時間就把代碼寫好了,最后給出了一個和 OpenAI 官網相似的網頁界面。

GLM-4.5V 思考過程
你還可以點擊分享,讓更多人看到:
![]()
在測試完圖片后,我們繼續給 GLM-4.5V 上難度,讓這個模型根據視頻內容進行前端復刻。
我們選擇了谷歌網站,然后錄了一段視頻,在這個視頻中,我們點開了一個經常瀏覽的網站。看看 GLM-4.5V 能不能根據我們的操作,復現一下視頻中的內容。
我們輸入提示詞:幫我生成這個 video 中所展示的 html code ,需要包含視頻中的點擊、跳轉、交互等。
![]()
輸入視頻
在接到指令后,GLM-4.5V 開始思考,由于這次輸入的是視頻內容,GLM-4.5V 思考的過程比輸入圖片思考的時間要長。
GLM-4.5V 首先確認這是 Google 首頁,然后注意到我們有「點擊 Google PhD」這個操作,確認這是跳轉到 Google Research 的 PhD Fellowship 頁面。然后 GLM-4.5V 又分析了打開的頁面左側有年份列表(2024 到 2014)…… 在經過有條不紊的抽絲剝繭后,GLM-4.5V 一會兒功夫就給出了結果。

GLM-4.5V 思考過程
我們對比了一下原始網站和 GLM-4.5V 生成的結果,可以看出,網頁中的主要元素都包含在內:布局結構幾乎一致。排版樣式基本還原,標題字號、段落間距與原版接近;配色方案與原始網站沒多大區別。
不知大家有沒有注意到,生成的網站有了可交互功能,當我們點擊 PhD Fellowship 這個選項時,其完美的復現了我們在原視頻的操作過程,打開 PhD Fellowship 網站,里面的內容布局和原始布局幾乎一模一樣。

接著,我們又進行了另一項測試,這次選擇了界面更為復雜的 X,提示詞為:幫我生成這個 video 中所展示的 html code,要求是可交互的。
![]()
在這個視頻中,我們有兩次點擊動作,一次是點擊 Grok、另一次是點擊 jobs,可能由于界面布局太復雜,GLM-4.5V 整體結果還算可以,兩次點擊(Grok、Jobs)都能跳轉,說明模型基本復刻了我們的操作, 理解了導航→頁面內容的交互因果鏈,但是在相應的頁面下,內容和原始頁面有所差距。

最后,我們還測試了優衣庫這個網站:
![]()
最后結果如下,兩者對比,我們發現基本信息都有,導航欄中的「女性、男人、孩子們」等都包含,并且不同的人群分類下的衣服分類也各不相同。如果在此基礎上進行優化,一個好用的網站就建好了。

不管怎么說,GLM-4.5V 根據一張圖、一個視頻,就能復刻前端的這種能力還是很強的。另外,值得一提的是,這種從視頻流中理解并復刻網頁的能力完全是 GLM-4.5V 通過泛化能力實現的,而非特定訓練的結果,展現了模型卓越的跨模態理解和推理能力。
圖表克星
GLM-4.5V 讓本地文檔處理不再頭疼
讓 AI 讀文件已經逐漸成為大家的習慣。就像 Karpathy 所說,未來 99.9% 的內容都會交給 AI 去讀。但很多文件有保密需求,不可以扔給云端大模型,這就凸顯了開源模型的價值。但帶有大量圖表的文件,開源模型處理起來一直有難度。
為了測試 GLM-4.5V 能否解決這些痛點,我們給它提供了一些論文圖去解讀。首先,對于圖中的明確信息(文字等),GLM-4.5V 能夠做到非常充分地提取,并放在一起綜合分析,甚至也能根據箭頭等符號解讀其中的邏輯關系。

在我們提供的「GLM-4.5」技術報告中(最近剛剛發布),它也能讀懂其中的折線圖,看出折線的走勢。這說明它不僅能夠準確識別和提取圖表中的顯性信息,更重要的是能夠理解圖表背后的數據邏輯和趨勢變化。

對于一些沒有明確數字的柱狀圖,GLM-4.5V 也能讀出大體的數據,這是它根據刻度估算的結果。

這樣的讀圖能力表明,GLM-4.5V 已經具備了處理復雜多模態文檔的實用性。這對于那些不便使用云端服務的用戶來說,確實是個不錯的本地化選擇。
視覺 grounding:會思考的「列文虎克」
在現實生活中,視覺模型的 grounding 能力極其重要。這種能力越強,模型就越能準確理解圖像內容,不僅能識別「這是什么」,還能精確定位「在哪里」。它能幫助我們自動檢測異常情況,或快速找到指定目標,大大提升了視覺推理的實用價值。
現在正值暑假,每次去景區都能聽見尋人廣播,找不到孩子的父母心急如焚。這正是一個 AI 模型可以發揮作用的場景。
我們在小某書上找到了一張景區照片,嘗試讓模型尋找里面有指定特征的孩子(比如穿黃色上衣),雖然這個孩子在畫面中并不顯眼,但 GLM-4.5V 還是準確圈了出來。

除了人,GLM-4.5V 還可以識別指定特征的寵物,這或許可以給滿大街貼尋寵廣告的養寵人提供一些幫助。
![]()
當然,并不是每個 grounding 任務都如此「直接」,有些還是需要深入思考的。比如在下面這個例子中,模型首先需要識別出圖中的每種堅果,然后結合相關的營養知識來判斷具體哪種堅果 Omega-3 含量最高,最后把對應的堅果圈出來。可以看到,不管是哪一步,GLM-4.5V 都完成得很出色。這是之前的目標檢測模型所做不到的,也是「視覺推理」能力在 grounding 場景中的核心價值所在。

讀屏小能手,GUI Agent 優秀基模 + 1
優秀的 grounding 能力除了前述應用場景外,在 Agent 任務中同樣不可或缺。許多 Agent 任務要求模型準確理解屏幕界面的文字內容和各類視覺元素,以此為基礎制定后續操作策略。
為驗證 GLM-4.5V 在此方面的表現,我們設計了針對性測試。
首先,我們提供了電商商品頁面等真實屏幕截圖,要求模型定位指定商品并準確標注相關元素。測試結果顯示,GLM-4.5V 準確找到了該商品,并圈出了我們要求的元素。

接下來,我們用一個 PPT 操作界面進行了測試,讓 GLM-4.5V 找到改變 PPT 主題風格的按鈕,它也精準地圈了出來。這說明 GLM-4.5V 已具備作為 Agent 應用底層模型的核心能力基礎。

「好用」的背后
GLM-4.5V 是怎么練成的?
在測試中,GLM-4.5V 給我們留下了深刻的印象,也讓我們好奇這個模型背后的技術細節。
據了解,GLM-4.5V 的誕生有著清晰的技術傳承脈絡。7 月底,智譜發布了 GLM-4.1V-Thinking,這是一個在 10B 級別表現最佳的視覺語言模型,上線后迅速登上了 Hugging Face trending 榜首。上周,智譜又發布了新一代旗艦模型 GLM-4.5 和 GLM-4.5-Air。在 4.5-Air 基礎上,團隊沿用了 GLM-4.1V-Thinking 已經驗證過的架構設計,訓練出了更大更強的 GLM-4.5V
GLM-4.5V 是一個擁有 106B 總參數、12B 激活參數的視覺推理模型,由視覺編碼器、MLP 適配器和語言解碼器三部分組成,支持64K 多模態長上下文
它的視覺編碼器采用 AIMv2-Huge,支持圖像與視頻輸入,并通過三維卷積提升視頻處理效率。模型引入了二維旋轉位置編碼(2D-RoPE)和雙三次插值機制,增強了對高分辨率和極端寬高比圖像的適應性。同時,語言解碼器中的位置編碼擴展為 3D 形式(3D-RoPE),進一步提升了多模態空間理解能力。
訓練方面,GLM-4.5V 采用三階段策略:預訓練、監督微調(SFT)和強化學習(RL):
在預訓練階段,研究團隊結合大規模圖文交錯多模態語料和長上下文內容,強化了模型對復雜圖文及視頻的處理能力;在 SFT 階段,他們引入了顯式「思維鏈」格式訓練樣本,增強了模型的因果推理與多模態理解能力;最后,在 RL 階段,他們引入了全領域多模態課程強化學習,通過構建多領域獎勵系統(Reward System),結合可驗證獎勵強化學習(RLVR)與基于人類反饋的強化學習(RLHF),模型在 STEM 問題、多模態定位、Agent 任務等方面獲得全面優化。
憑借這些技術創新,GLM-4.5V 在涵蓋圖像理解、視頻理解、GUI、文檔理解等任務的41 個公開視覺多模態榜單中綜合效果達到了開源 SOTA 水平,這和我們在實測中體驗到的結果是一致的。
![]()
AI 模型競爭新拐點:從跑分到實戰
無論是 OpenAI 前幾天的 GPT-5 發布會,還是智譜這次開源 GLM-4.5V 的對外展示。我們能感覺到一個明顯的信號:模型廠商對模型在真實場景和體驗中的實際效果的重視已經遠超之前重點宣傳的 benchmark 成績。這一方面是因為,benchmark 每次更新,都會很快飽和,失去其區分模型性能的初衷。另一方面也是因為,只有體驗足夠好、真能解決問題的模型才會真的被使用。
而在真正解決問題的過程中,大家對于視覺推理、Agent 能力的需求可以說是無處不在。一問一答、快問快答的 chat 模式逐漸被深度推理、Agent 模式所取代,而且對話中還要包含大量的上下文信息,尤其是多模態信息。
GLM-4.5V 的開源恰逢其時。它為開發者提供了一個在真實場景中表現優異的多模態基礎模型。而且相比于閉源模型,開源意味著更高的透明度和可控性,開發者可以根據具體業務需求進行深度定制和優化。更重要的是,這種開源策略將推動整個行業從單純的性能競賽轉向實用價值的創造,讓 AI 技術真正落地到各行各業的具體應用場景中。
從這個角度來看,智譜開放的不只是模型,更是一次讓無數開發者共同塑造 AI 未來的機會。
文中視頻鏈接:https://mp.weixin.qq.com/s/SpfmMPU_fsRIzUcHC1Dasw





京公網安備 11011402013531號