殺瘋了！阿里開源最強推理模型，一周三模型干翻全球開閉源天花板

IP屬地中國·北京 編輯：蘇婉清 時間：2025-07-27 10:18:02

智東西
智東西（公眾號：zhidxcom）作者 | 李水青編輯 | 漠影
智東西7月25日報道，昨日晚間，阿里又又又開源了！
阿里通義千問團隊正式推出Qwen3-235B-A22B推理模型的升級版本：Qwen3-235B-A22B-Thinking-2507。
▲Qwen3-235B-A22B-Thinking-2507開源頁面截圖
該模型擁有235B參數，激活參數為22B，支持256K上下文，在編程、數學、知識、推理、人類偏好對齊等多項能力測評中得分比肩Gemini-2.5 pro、o4-mini等頂尖閉源模型，大幅超越DeepSeek-R1等開源模型，創下全球開源模型SOTA（最佳性能表現）。
▲Qwen3-235B-A22B-Thinking-2507的部分測評表現
一周之內，阿里已用三款最新模型橫掃全球權威測評，分別斬獲基礎模型、編程模型、推理模型等主流領域的三項全球開源冠軍。其中，7月23日開源的最強編程模型Qwen3-Coder-480B-A35B-Instruct在全球開發圈引起了一陣熱潮，連推特、Hugging Face的創始人及CEO都發文推薦。
▲推特創始人杰克·多爾西點贊Qwen3-Code
接連開源動作背后，阿里通義千問已成“最聽勸”團隊。Qwen非思考模型的推出就是接受了開發者的建議。“經過與社區溝通和深思熟慮，我們決定停止使用混合思考模式。相反，我們將分別訓練Instruct和Thinking模型，以獲得最佳質量。”Qwen團隊在X平臺上寫道。
▲Qwen非思考模型的推出就是接受了開發者的建議
“開發者需要什么，千問就開源什么”，面對如此聽勸的通義千問團隊，催更成為開發者的常態。昨日Qwen3-235B-A22B-Thinking-2507剛剛發布，就有開發者在千問相關負責人Junyang Lin的X平臺下催更這一模型的更小尺寸版本，對此Junyang Lin也下場回復：“下周是 ‘flash’周。”
▲千問相關負責人回應開發者催更
目前，Qwen3-235B-A22B-Thinking-2507已在魔搭社區、Hugging Face開源，采用極寬松的Apache2.0開源協議，人人均可免費下載商用。用戶也可以通過QwenChat體驗該模型。
▲用戶可在QwenChat選擇使用該模型
QwenChat體驗地址：chat.qwen.ai魔搭社區地址：https://www.en/Qwen3-235B-A22B-Thinking-2507Hugging Face地址：https://n3-235B-A22B-Thinking-2507
一、全面趕超DeepSeek，比肩OpenAI o3
昨夜，Qwen3-235B-A22B-Thinking-2507模型一經發布，立馬在全球范圍內收獲了極高熱度。社交平臺X上不少網友點贊分享，有網友稱：“這還是我第一次看到名副其實的‘思考模式’！”有人贊嘆：“基準測試成績令人印象深刻！”
▲X網友評價Qwen3-235B-A22B-Thinking-2507
來看看測試情況。如下圖所示，最亮眼的應該是編程能力的LiveCodBenchV6的成績，從5月發布的Qwen3的55.7分提升到了現在74.1分。另外知識能力測試SuperGPQA和推理能力測試HMMT25也都是目前的最高分。
▲Qwen3-235B-A22B-Thinking-2507測評情況（圖源：Hcores LLM Arena）
具體來看，在知識方面，Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的測試中均超越了DeepSeek-R1-0528，并且得分逼近OpenAI o3、Gemini-2.5 Pro等頂尖閉源模型。
在推理方面，Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE幾項測試中得分都碾壓Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking。
在編碼方面，Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFeval、OJBench等測試中全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3。
在一致性方面，Qwen3-235B-A22B-Thinking-2507在WritingBench測試中趕超了開源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等閉源模型，在IFeval、Creative Writing v3等測試方面也接近OpenAI o3、Gemini-2.5 Pro的水平。
在Agent方面，Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等測試中得分接近OpenAI o3，趕超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro。
在多語言能力方面，Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH測試中也取得了最好成績，超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型。
▲Qwen3-235B-A22B-Thinking-2507的測評成績（對于OpenAI o4-mini和o3，測試使用中等推理，但標有*的分數除外，這些分數是使用高推理生成的。）
“Qwen勢頭強勁，正在征服所有人！”一位開發者在社交平臺X上稱，“Qwen3 235B的搜索能力極致思考模式可不是鬧著玩的。它解決了ChatGPT o3-pro上個月破解的難題。”
▲X網友評價Qwen3-235B-A22B-Thinking-2507體驗
這個難題描述了一個文字游戲：“Sabrina Carpenter 的那首歌的歌名是什么？當你讀出你對這個問題的正確單句回答中每個單詞的最后一個字母時，這首歌的歌名也會出現。”如下圖所示，Qwen3-235B-A22B-Thinking-2507準確猜出了答案。
▲X網友的試用案例截圖
值得一提的是，本次阿里還推出了為三款最新Qwen3模型大規模RL（強化學習）訓練提供支持的算法——組序列策略優化（GSPO）。
通義千問團隊相關負責人稱：“相較于GRPO，GSPO在穩定性、效率、性能和底層友好度方面均具有顯著優勢，并且從根本上自然地解決了強化學習中大型MoE模型訓練的穩定性問題。”
▲組序列策略優化（GSPO）技術報告截圖
論文地址：
https://507.18071
二、一周開源三連冠，劍指閉源巔峰
短短一周時間里，阿里通義千問團隊已連續開源了三款模型，橫掃全球開源模型權威測評，成績直追頂級閉源模型。
先是7月22日，阿里更新旗艦版Qwen3模型，推出Qwen3-235B-A22B非思考模式（Non-thinking）的更新版本，命名為Qwen3-235B-A22B-Instruct-2507。
新的Qwen3模型通用能力顯著提升，在指令遵循、邏輯推理、文本理解、數學、科學、編程及工具使用等方面眾多測評中，超過Kimi-K2、DeepSeek-V3等頂級開源模型以及Claude-Opus4-Non-thinking等領先閉源模型。
▲Qwen3-235B-A22B-Instruct-2507測評成績
而后在7月23日，阿里開源了其最新一代旗艦編程模型Qwen3-Coder-480B-A35B-Instruct。這是該團隊迄今為止最強大的開源智能體編程模型，擁有480B參數，激活參數為35B，原生支持256K上下文。借助Qwen3-Coder，剛入行的程序員一天就能完成資深程序員一周的工作，生成一個品牌官網最快只需5分鐘。
在基準測試中，Qwen3-Coder在編程和智能體任務上擁有不錯的性能，于Agentic Coding（智能體編程）、Agentic Browser-Use（智能體瀏覽器使用）和Agentic Tool-Use（智能體工具調用）三類任務中獲得了開源SOTA，超過Kimi K2、DeepSeek V3等開源模型和GPT-4.1等閉源模型，并可與Claude Sonnet 4這一以編程能力著稱的模型相媲美。
除了模型之外，Qwen還開源了一個由Gemini Code分叉而來的智能體編程命令行工具——Qwen Code，這一工具進行了定制提示和函數調用協議的適配，能更充分的釋放Qwen3-Coder在智能體編程任務上的能力。
7月23日當日，阿里云還宣布Qwen3-Coder未來一個月5-7折優惠，256K-1M上下文長度，輸入價格10元/百萬tokens，輸出價格100元/百萬tokens；緊接著今日，阿里云宣布通義靈碼上線Qwen3-Coder，免費使用不限量。
Qwen3-Coder的開源引發硅谷和全球AI圈熱議，獲得推特創始人杰克·多爾西、Perplexity CEO阿拉溫德·斯里尼瓦斯、a16z合伙人馬克·馬斯克羅等科技領袖盛贊。HuggingFace CEO克萊門特·德朗格更是多次力薦。
同時，阿里千問API在海外知名模型API聚合平臺OpenRouter的調用量暴漲，突破千億級tokens，在OpenRouter趨勢榜上包攬全球前三，成為當下最熱門模型。
結語：中國開源力量，改寫格局
開源浪潮正重塑大模型競爭規則。阿里通義千問以“三日三冠”的強勢表現，不僅橫掃開源戰場，更在多領域直逼閉源天花板。
此次連續開源頂尖模型，為開發者提供了對標閉源巨頭的“開源平權”利器。從硅谷開發者的狂熱調用，到全球社區登頂的硬核戰績，阿里正以開源為支點，撬動大模型競爭新范式。中國力量，正在改寫全球大模型產業格局。

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

明年沖擊100萬臺！零跑汽車2025年銷量目標已達成

iPhone Air開啟eSIM時代：國內廠商紛紛跟進

全站最新

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

熱門推薦

創新是走出低谷、完成突破的動力（親歷者說）

線下線上齊發力，渝貨出山有實招

觀察|全固態電池商業化時間表成爭議焦點，高成本或阻礙推廣

IDC：印度手機市場Q3創五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會聚焦AI時代城市文化

在全球最大的科技峰會現場，他們用DeepSeek養出迷你“獨角獸”

潤和軟件與中國科學院廣州生物醫藥與健康研究院達成戰略合作

千問APP發布日遭美方“指控”，背后是中美AI的無聲戰爭

明年沖擊100萬臺！零跑汽車2025年銷量目標已達成

iPhone Air開啟eSIM時代：國內廠商紛紛跟進

劍指蘋果A20 高通驍龍8 Elite Gen6明年見：雙版本齊發

全球首發出圈實況拼圖！OPPO Reno15系列下周登場

全能搭子文心5.0，百度用原生全模態宣告回歸

中芯國際CEO：存儲漲價對邏輯代工有兩大致命影響

ADM、浪潮云和神州數碼成為開源歐拉社區新捐贈單位