7月2日消息,今天上午,智譜開放平臺(tái)產(chǎn)業(yè)生態(tài)大會(huì)在上海浦東張江科學(xué)會(huì)堂舉辦,開源發(fā)布新一代通用視覺語言模型GLM-4.1V-Thinking。
在智譜開放平臺(tái)產(chǎn)業(yè)生態(tài)大會(huì)上,智譜宣布浦東創(chuàng)投集團(tuán)和張江集團(tuán)對(duì)智譜總額10億元的戰(zhàn)略投資,并于近期完成首筆交割。同時(shí),三方還啟動(dòng)了一項(xiàng)合作,共同建設(shè)人工智能新型基礎(chǔ)設(shè)施。

智譜今日正式發(fā)布并開源視覺語言大模型GLM-4.1V-Thinking,這是一款支持圖像、視頻、文檔等多模態(tài)輸入的通用推理型大模型,專為復(fù)雜認(rèn)知任務(wù)設(shè)計(jì)。
從官方獲悉,它在GLM-4V架構(gòu)基礎(chǔ)上引入“思維鏈推理機(jī)制(Chain-of-Thought Reasoning)”,采用“課程采樣強(qiáng)化學(xué)習(xí)策略(RLCS)”,系統(tǒng)性提升模型跨模態(tài)因果推理能力與穩(wěn)定性。
其輕量版GLM-4.1V-9B-Thinking模型參數(shù)控制在10B級(jí)別,在兼顧部署效率的同時(shí)實(shí)現(xiàn)性能突破。該模型在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28項(xiàng)權(quán)威評(píng)測(cè)中,有23項(xiàng)達(dá)成10B級(jí)模型的最佳成績(jī),其中18項(xiàng)更是持平或超越參數(shù)量高達(dá)72B的Qwen-2.5-VL,充分展現(xiàn)了小體積模型的極限性能潛力。
據(jù)官方介紹,該模型特別在以下任務(wù)中表現(xiàn)卓越,展示出高度的通用性與穩(wěn)健性:
圖文理解(Image General):精準(zhǔn)識(shí)別并綜合分析圖像與文本信息;
數(shù)學(xué)與科學(xué)推理(Math&Science):支持持復(fù)雜題解、多步演繹與公式理解;
視頻理解(Video):具備時(shí)序分析與事件邏輯建模能力;
GUI與網(wǎng)頁智能體任務(wù)(UI2Code、Agent):理解界面結(jié)構(gòu),輔助自動(dòng)化操作;
視覺錨定與實(shí)體定位(Grounding):語言與圖像區(qū)域精準(zhǔn)對(duì)齊,提升人機(jī)交互可控性。
目前,GLM-4.1V-9B-Thinking已在Hugging Face與魔搭社區(qū)同步開源。包含兩個(gè)模型,分別是GLM-4.1V-9B-base基座模型,希望能夠幫助更多研究者探索視覺語言模型的能力邊界作;GLM-4.1V-9B-Thinking,具備深度思考和推理能力的模型,正常使用和體驗(yàn),均為這一模型。





京公網(wǎng)安備 11011402013531號(hào)