![]()
今天,我們帶來新一代旗艦?zāi)P?strong>GLM-4.5,專為智能體應(yīng)用打造的基礎(chǔ)模型。Hugging Face 與 ModelScope 平臺(tái)同步開源,模型權(quán)重遵循MIT License。
要點(diǎn)如下:
GLM-4.5 在包含推理、代碼、智能體的綜合能力達(dá)到開源 SOTA,在真實(shí)代碼智能體的人工對(duì)比評(píng)測中,實(shí)測國內(nèi)最佳采用混合專家(MoE)架構(gòu),包括 GLM-4.5:總參數(shù)量 3550 億,激活參數(shù) 320 億;GLM-4.5-Air:總參數(shù) 1060 億,激活參數(shù) 120 億;兩種模式:用于復(fù)雜推理和工具使用的思考模式,及用于即時(shí)響應(yīng)的非思考模式;
高速、低成本:API 調(diào)用價(jià)格低至輸入 0.8 元/百萬tokens、輸出 2 元/百萬tokens; 高速版 最高可達(dá) 100 tokens/秒 。
API 已上線開放平臺(tái)BigModel.cn,可以一鍵兼容Claude Code框架。同時(shí),大家也可以上智譜清言(chatglm.cn) 和z.ai免費(fèi)體驗(yàn)滿血版。歡迎開發(fā)者、企業(yè)、用戶廣泛測試與集成,探索 AGI 的奧秘。
綜合性能SOTA
衡量 AGI 的第一性原理,是在不損失原有能力的前提下融合更多通用智能能力,GLM-4.5 是我們對(duì)此理念的首次完整呈現(xiàn),并有幸取得技術(shù)突破。GLM-4.5 首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合,以滿足智能體應(yīng)用的復(fù)雜需求。
為綜合衡量模型的通用能力,我們選擇了最具有代表性的 12 個(gè)評(píng)測基準(zhǔn),包括 MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3 和 BrowseComp。綜合平均分,GLM-4.5 取得了全球模型第三、國產(chǎn)模型第一,開源模型第一。
![]()
![]()
GLM-4.5 和 GLM-4.5-Air 使用了相似的訓(xùn)練流程:首先在 15 萬億 token 的通用數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練,此后在代碼、推理、智能體等領(lǐng)域的 8 萬億 token 數(shù)據(jù)上進(jìn)行針對(duì)性訓(xùn)練,最后通過強(qiáng)化學(xué)習(xí)進(jìn)一步增強(qiáng)模型推理、代碼與智能體能力。更多技術(shù)細(xì)節(jié)可參考我們的技術(shù)博客(https://z.ai/blog/glm-4.5),后續(xù)也會(huì)發(fā)布更加詳細(xì)的技術(shù)報(bào)告。
更高參數(shù)效率
GLM-4.5 參數(shù)量為 DeepSeek-R1 的 1/2、Kimi-K2 的 1/3,但在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測試中表現(xiàn)得更為出色,這得益于 GLM 模型的更高參數(shù)效率。在衡量模型代碼能力的SWE-bench Verified榜單上,GLM-4.5 系列位于性能/參數(shù)比帕累托前沿,表明在相同規(guī)模下 GLM-4.5 系列實(shí)現(xiàn)了最佳性能。
![]()
低成本、高速度
在性能優(yōu)化之外,GLM-4.5 系列也在成本和效率上實(shí)現(xiàn)突破,由此帶來遠(yuǎn)低于主流模型定價(jià):API 調(diào)用價(jià)格低至輸入 0.8 元/百萬 tokens,輸出 2 元/百萬 tokens。
![]()
同時(shí),高速版本實(shí)測生成速度最高可至 100 tokens/秒,支持低延遲、高并發(fā)的實(shí)際部署需求,兼顧成本效益與交互體驗(yàn)。
![]()
真實(shí)體驗(yàn)
真實(shí)場景表現(xiàn)比榜單更重要。為評(píng)測 GLM-4.5 在真實(shí)場景 Agent Coding 中的效果,我們接入 Claude Code 與 Claude-4-Sonnet、Kimi-K2、Qwen3-Coder 進(jìn)行對(duì)比測試。測試采用 52 個(gè)編程開發(fā)任務(wù),涵蓋六大開發(fā)領(lǐng)域,在獨(dú)立容器環(huán)境中進(jìn)行多輪交互測試。實(shí)測結(jié)果顯示(如下圖),GLM-4.5 相對(duì)其他開源模型展現(xiàn)出競爭優(yōu)勢(shì),特別在工具調(diào)用可靠性和任務(wù)完成度方面表現(xiàn)突出。盡管 GLM-4.5 相比 Claude-4-Sonnet 仍有提升空間,在大部分場景中可以實(shí)現(xiàn)平替的效果。
為確保評(píng)測透明度,我們公布了 52 道題目及 Agent 軌跡,供業(yè)界驗(yàn)證復(fù)現(xiàn)。
![]()
Agent 軌跡: https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
模型原生 Agent 場景
GLM-4.5 系列能勝任全棧開發(fā)任務(wù),編寫復(fù)雜應(yīng)用、游戲、交互網(wǎng)頁。這得益于模型原生具備的在前端編寫網(wǎng)站、在后端進(jìn)行數(shù)據(jù)庫管理,以及通過工具調(diào)用接口支持任意的智能體應(yīng)用等能力。
全棧開發(fā)實(shí)際效果 一個(gè)真的能搜索的搜索引擎
Z.ai版本“谷歌搜索”體驗(yàn)地址:
https://n0x9f6733jm1-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/2bd291ba-fe6a-4026-a8f4-1efa498267b2
一個(gè)真的能發(fā)彈幕的B站
Z.ai版本“B站”體驗(yàn)地址:
https://n0dba6ce0e60-deploy.space.z.ai
提示詞詳見軌跡地址:
https://chat.z.ai/s/29968fdc-53f2-4605-ae71-4ae32e920ca4
一個(gè)真的能發(fā)博的微博
Z.ai版本“微博”體驗(yàn)地址:
https://v0rb06rruyf0-deploy.space.z.ai/
提示詞詳見軌跡地址:
https://chat.z.ai/s/f78ae64c-06b7-4eee-b657-878da94fa2c7
Artifacts 實(shí)際效果
GLM-4.5 不僅擅長處理復(fù)雜代碼,同時(shí)也具有優(yōu)秀的數(shù)據(jù)精準(zhǔn)處理、交互動(dòng)畫設(shè)計(jì)能力。以下是 GLM-4.5 制作的一個(gè) Flappy Bird 小游戲,歡迎大家前來挑戰(zhàn)。
Flappy Bird體驗(yàn)地址:
https://chat.z.ai/space/b0yb2613ybp0-art
提示詞詳見軌跡地址:
https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323
PPT 實(shí)際效果
GLM-4.5 在制作 PPT 過程中會(huì)自主搜索資料、尋找配圖,根據(jù)材料以 HTML 形式編寫圖文,使信息更準(zhǔn)確、排版更靈活。除了16:9的PPT,也可以制作長圖、小紅書、社交媒體封面或簡歷等多比例圖片。
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
向下滑動(dòng)查看
如何體驗(yàn)
GLM-4.5 深度優(yōu)化全棧編程與工具調(diào)用,兼容Claude Code、Cline、Roo Code等主流代碼智能體,到智譜開放平臺(tái)即可體驗(yàn)。
國內(nèi)用戶:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外用戶:
https://docs.z.ai/scenario-example/develop-tools/claude
體驗(yàn)地址:
https://chat.z.ai/
https://chatglm.cn
Github 倉庫:
https://github.com/zai-org/GLM-4.5
模型倉庫:
HuggingFace:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
ModelScope:
https://modelscope.cn/collections/GLM-45-b8693e2a08984f





京公網(wǎng)安備 11011402013531號(hào)