8月2日凌晨,國際權威大模型評測 Chatbot Arena更新了最新一期的大模型榜單,上周新鮮開源的阿里千問3新模型斬獲1433分,超越頂尖閉源模型Grok4、Claude4,位列所有閉源及開源模型的全球總榜第三,是全球最強非推理(non-thinking)模型,并創下全球開源模型和國產模型的史上最高分。同時,千問3還奪得數學、代碼、復雜提示、長文本檢索、指令遵循等5項全球第一。
全球知名ChatBot Arena大模型排行榜,千問3位列全球頂級模型第三、開源第一
Chatbot Arena是由獨立研究機構LMSYS Org推出的大模型評測平臺,其評測分數被認為是全球最具公信力的大模型榜單。不到一年前,Qwen2.5-72B是第一個入選該榜前十的中國大模型;上周開源的千問3非思考基礎模型 Qwen3-235B-A22B-Instruct-2507 再次實現重大突破,攬獲5項關鍵能力全球第一,并以1433分的總分創下開源大模型的史上最高分,力壓Grok4、Claude4、Gemini 2.5-Flash、GPT4.1等一眾頂級閉源模型,千問3與GPT4.5并列全球第三。
千問3在數學、代碼、復雜提示、長文本、指令遵循等方面位列全球第一
7月22日起,阿里通義團隊接連開源千問3基礎模型、AI編程模型和推理模型,性能均實現同類開源模型的新突破。除千問3 指令(Instruct)模型外,推理模型 Qwen3-235B-A22B-Thinking-2507 也闖進榜單前十,數學能力并列全球第一;在Chatbot Arena專門評估編程能力的WebDev Arena子榜單中,編程模型Qwen3-Coder性能與Gemini2.5 Pro、DeepSeek-R1、Claude4并列第一。
本周,通義千問仍在以“周級迭代”頻率持續更新:Qwen3-30B-A3B 更新了Instruct模型、推理模型、編程模型等3款模型,性能媲美Gemini2.5-flash、GPT-4o,可在消費級硬件直接部署,廣受開發者歡迎。同時,千問3新模型的“訓練秘籍”GSPO新算法也對外公開,GSPO從根源上解決了大規模MoE模型在強化學習中的穩定性問題,訓練效率較經典GRPO算法實現大幅提升,GSPO論文在全球最大的AI開源社區HuggingFace里論文熱度排名第一。
阿里千問模型API調用量市場份額超10.9%,位列全球第四
阿里AI多連發,在全球范圍內引發新一輪接入中國開源模型熱潮。海外大模型API聚合平臺OpenRouter數據顯示,阿里千問模型全球市場份額逾10.9%,超越OpenAI和meta-Llama系列模型,位列全球第四;其中,Qwen3-Coder調用量一周暴增1474%,位列編程領域的全球第二。
編程領域中,Qwen3-Coder尤受AI社區歡迎,API調用量一周暴增1474%
截至目前,阿里已開源300余個模型,持續推進“全尺寸”、“全模態”的全面開源。通義千問衍生模型已超過14萬個,是全球第一的開源模型,也是中國企業用得最多的大模型。未來三年,阿里巴巴還將投入3800億元在AI和云基礎設施建設上,夯實“AI全棧”的技術體系和戰略布局,為全球開發者和企業提供更高性能、更普惠的AI和云計算服務。





京公網安備 11011402013531號