殺瘋了！阿里開(kāi)源最強(qiáng)推理模型，一周三模型干翻全球開(kāi)閉源天花板

IP屬地中國(guó)·北京 編輯：楊凌霄智東西 時(shí)間：2025-07-26 20:18:51

智東西
作者李水青
編輯漠影
智東西7月25日?qǐng)?bào)道，昨日晚間，阿里又又又開(kāi)源了！
阿里通義千問(wèn)團(tuán)隊(duì)正式推出Qwen3-235B-A22B推理模型的升級(jí)版本：Qwen3-235B-A22B-Thinking-2507。

▲Qwen3-235B-A22B-Thinking-2507開(kāi)源頁(yè)面截圖
該模型擁有235B參數(shù)，激活參數(shù)為22B，支持256K上下文，在編程、數(shù)學(xué)、知識(shí)、推理、人類偏好對(duì)齊等多項(xiàng)能力測(cè)評(píng)中得分比肩Gemini-2.5 pro、o4-mini等頂尖閉源模型，大幅超越DeepSeek-R1等開(kāi)源模型，創(chuàng)下全球開(kāi)源模型SOTA（最佳性能表現(xiàn)）。

▲Qwen3-235B-A22B-Thinking-2507的部分測(cè)評(píng)表現(xiàn)
一周之內(nèi)，阿里已用三款最新模型橫掃全球權(quán)威測(cè)評(píng)，分別斬獲基礎(chǔ)模型、編程模型、推理模型等主流領(lǐng)域的三項(xiàng)全球開(kāi)源冠軍。其中，7月23日開(kāi)源的最強(qiáng)編程模型Qwen3-Coder-480B-A35B-Instruct在全球開(kāi)發(fā)圈引起了一陣熱潮，連推特、Hugging Face的創(chuàng)始人及CEO都發(fā)文推薦。

▲推特創(chuàng)始人杰克·多爾西點(diǎn)贊Qwen3-Code
接連開(kāi)源動(dòng)作背后，阿里通義千問(wèn)已成“最聽(tīng)勸”團(tuán)隊(duì)。Qwen非思考模型的推出就是接受了開(kāi)發(fā)者的建議。“經(jīng)過(guò)與社區(qū)溝通和深思熟慮，我們決定停止使用混合思考模式。相反，我們將分別訓(xùn)練Instruct和Thinking模型，以獲得最佳質(zhì)量。”Qwen團(tuán)隊(duì)在X平臺(tái)上寫(xiě)道。

▲Qwen非思考模型的推出就是接受了開(kāi)發(fā)者的建議
“開(kāi)發(fā)者需要什么，千問(wèn)就開(kāi)源什么”，面對(duì)如此聽(tīng)勸的通義千問(wèn)團(tuán)隊(duì)，催更成為開(kāi)發(fā)者的常態(tài)。昨日Qwen3-235B-A22B-Thinking-2507剛剛發(fā)布，就有開(kāi)發(fā)者在千問(wèn)相關(guān)負(fù)責(zé)人Junyang Lin的X平臺(tái)下催更這一模型的更小尺寸版本，對(duì)此Junyang Lin也下場(chǎng)回復(fù)：“下周是 ‘flash’周。”

▲千問(wèn)相關(guān)負(fù)責(zé)人回應(yīng)開(kāi)發(fā)者催更
目前，Qwen3-235B-A22B-Thinking-2507已在魔搭社區(qū)、Hugging Face開(kāi)源，采用極寬松的Apache2.0開(kāi)源協(xié)議，人人均可免費(fèi)下載商用。用戶也可以通過(guò)QwenChat體驗(yàn)該模型。

▲用戶可在QwenChat選擇使用該模型
QwenChat體驗(yàn)地址：
chat.qwen.ai
魔搭社區(qū)地址：
https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
Hugging Face地址：
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
一、全面趕超DeepSeek，比肩OpenAI o3
昨夜，Qwen3-235B-A22B-Thinking-2507模型一經(jīng)發(fā)布，立馬在全球范圍內(nèi)收獲了極高熱度。社交平臺(tái)X上不少網(wǎng)友點(diǎn)贊分享，有網(wǎng)友稱：“這還是我第一次看到名副其實(shí)的‘思考模式’！”有人贊嘆：“基準(zhǔn)測(cè)試成績(jī)令人印象深刻！”

▲X網(wǎng)友評(píng)價(jià)Qwen3-235B-A22B-Thinking-2507
來(lái)看看測(cè)試情況。如下圖所示，最亮眼的應(yīng)該是編程能力的LiveCodBenchV6的成績(jī)，從5月發(fā)布的Qwen3的55.7分提升到了現(xiàn)在74.1分。另外知識(shí)能力測(cè)試SuperGPQA和推理能力測(cè)試HMMT25也都是目前的最高分。

▲Qwen3-235B-A22B-Thinking-2507測(cè)評(píng)情況（圖源：Hcores LLM Arena）
具體來(lái)看，在知識(shí)方面，Qwen3-235B-A22B-Thinking-2507在MMLU-Redux、GPQA、SuperGPQA的測(cè)試中均超越了DeepSeek-R1-0528，并且得分逼近OpenAI o3、Gemini-2.5 Pro等頂尖閉源模型。
在推理方面，Qwen3-235B-A22B-Thinking-2507在AIME25、HMMT25、LiveBenc、HLE幾項(xiàng)測(cè)試中得分都碾壓Deepseek-R1-0528、OpenAI o3、Claude4 Opus Thinking。
在編碼方面，Qwen3-235B-A22B-Thinking-2507在LiveCodeBench v6、CFeval、OJBench等測(cè)試中全面超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3。
在一致性方面，Qwen3-235B-A22B-Thinking-2507在WritingBench測(cè)試中趕超了開(kāi)源模型Deepseek-R1-0528以及OpenAI o3、Gemini-2.5 Pro等閉源模型，在IFeval、Creative Writing v3等測(cè)試方面也接近OpenAI o3、Gemini-2.5 Pro的水平。
在Agent方面，Qwen3-235B-A22B-Thinking-2507在BFCL-v3、TAU2-Retail等測(cè)試中得分接近OpenAI o3，趕超了Deepseek-R1-0528、OpenAI o4 mini、Gemini-2.5 Pro。
在多語(yǔ)言能力方面，Qwen3-235B-A22B-Thinking-2507在MultiIF、PolyMATH測(cè)試中也取得了最好成績(jī)，超越Deepseek-R1-0528、OpenAI o4-mini、OpenAI o3、Gemini-2.5 Pro、Claude4 Opus Thinking等模型。

▲Qwen3-235B-A22B-Thinking-2507的測(cè)評(píng)成績(jī)（對(duì)于OpenAI o4-mini和o3，測(cè)試使用中等推理，但標(biāo)有*的分?jǐn)?shù)除外，這些分?jǐn)?shù)是使用高推理生成的。）
“Qwen勢(shì)頭強(qiáng)勁，正在征服所有人！”一位開(kāi)發(fā)者在社交平臺(tái)X上稱，“Qwen3 235B的搜索能力極致思考模式可不是鬧著玩的。它解決了ChatGPT o3-pro上個(gè)月破解的難題。”

▲X網(wǎng)友評(píng)價(jià)Qwen3-235B-A22B-Thinking-2507體驗(yàn)
這個(gè)難題描述了一個(gè)文字游戲：“Sabrina Carpenter 的那首歌的歌名是什么？當(dāng)你讀出你對(duì)這個(gè)問(wèn)題的正確單句回答中每個(gè)單詞的最后一個(gè)字母時(shí)，這首歌的歌名也會(huì)出現(xiàn)。”如下圖所示，Qwen3-235B-A22B-Thinking-2507準(zhǔn)確猜出了答案。

▲X網(wǎng)友的試用案例截圖
值得一提的是，本次阿里還推出了為三款最新Qwen3模型大規(guī)模RL（強(qiáng)化學(xué)習(xí)）訓(xùn)練提供支持的算法——組序列策略優(yōu)化（GSPO）。
通義千問(wèn)團(tuán)隊(duì)相關(guān)負(fù)責(zé)人稱：“相較于GRPO，GSPO在穩(wěn)定性、效率、性能和底層友好度方面均具有顯著優(yōu)勢(shì)，并且從根本上自然地解決了強(qiáng)化學(xué)習(xí)中大型MoE模型訓(xùn)練的穩(wěn)定性問(wèn)題。”

▲組序列策略優(yōu)化（GSPO）技術(shù)報(bào)告截圖
論文地址：
https://huggingface.co/papers/2507.18071
二、一周開(kāi)源三連冠，劍指閉源巔峰
短短一周時(shí)間里，阿里通義千問(wèn)團(tuán)隊(duì)已連續(xù)開(kāi)源了三款模型，橫掃全球開(kāi)源模型權(quán)威測(cè)評(píng)，成績(jī)直追頂級(jí)閉源模型。
先是7月22日，阿里更新旗艦版Qwen3模型，推出Qwen3-235B-A22B非思考模式（Non-thinking）的更新版本，命名為Qwen3-235B-A22B-Instruct-2507。
新的Qwen3模型通用能力顯著提升，在指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程及工具使用等方面眾多測(cè)評(píng)中，超過(guò)Kimi-K2、DeepSeek-V3等頂級(jí)開(kāi)源模型以及Claude-Opus4-Non-thinking等領(lǐng)先閉源模型。

▲Qwen3-235B-A22B-Instruct-2507測(cè)評(píng)成績(jī)
而后在7月23日，阿里開(kāi)源了其最新一代旗艦編程模型Qwen3-Coder-480B-A35B-Instruct。這是該團(tuán)隊(duì)迄今為止最強(qiáng)大的開(kāi)源智能體編程模型，擁有480B參數(shù)，激活參數(shù)為35B，原生支持256K上下文。借助Qwen3-Coder，剛?cè)胄械某绦騿T一天就能完成資深程序員一周的工作，生成一個(gè)品牌官網(wǎng)最快只需5分鐘。
在基準(zhǔn)測(cè)試中，Qwen3-Coder在編程和智能體任務(wù)上擁有不錯(cuò)的性能，于Agentic Coding（智能體編程）、Agentic Browser-Use（智能體瀏覽器使用）和Agentic Tool-Use（智能體工具調(diào)用）三類任務(wù)中獲得了開(kāi)源SOTA，超過(guò)Kimi K2、DeepSeek V3等開(kāi)源模型和GPT-4.1等閉源模型，并可與Claude Sonnet 4這一以編程能力著稱的模型相媲美。
除了模型之外，Qwen還開(kāi)源了一個(gè)由Gemini Code分叉而來(lái)的智能體編程命令行工具——Qwen Code，這一工具進(jìn)行了定制提示和函數(shù)調(diào)用協(xié)議的適配，能更充分的釋放Qwen3-Coder在智能體編程任務(wù)上的能力。
7月23日當(dāng)日，阿里云還宣布Qwen3-Coder未來(lái)一個(gè)月5-7折優(yōu)惠，256K-1M上下文長(zhǎng)度，輸入價(jià)格10元/百萬(wàn)tokens，輸出價(jià)格100元/百萬(wàn)tokens；緊接著今日，阿里云宣布通義靈碼上線Qwen3-Coder，免費(fèi)使用不限量。

Qwen3-Coder的開(kāi)源引發(fā)硅谷和全球AI圈熱議，獲得推特創(chuàng)始人杰克·多爾西、Perplexity CEO阿拉溫德·斯里尼瓦斯、a16z合伙人馬克·馬斯克羅等科技領(lǐng)袖盛贊。HuggingFace CEO克萊門(mén)特·德朗格更是多次力薦。
同時(shí)，阿里千問(wèn)API在海外知名模型API聚合平臺(tái)OpenRouter的調(diào)用量暴漲，突破千億級(jí)tokens，在OpenRouter趨勢(shì)榜上包攬全球前三，成為當(dāng)下最熱門(mén)模型。
結(jié)語(yǔ)：中國(guó)開(kāi)源力量，改寫(xiě)格局
開(kāi)源浪潮正重塑大模型競(jìng)爭(zhēng)規(guī)則。阿里通義千問(wèn)以“三日三冠”的強(qiáng)勢(shì)表現(xiàn)，不僅橫掃開(kāi)源戰(zhàn)場(chǎng)，更在多領(lǐng)域直逼閉源天花板。
此次連續(xù)開(kāi)源頂尖模型，為開(kāi)發(fā)者提供了對(duì)標(biāo)閉源巨頭的“開(kāi)源平權(quán)”利器。從硅谷開(kāi)發(fā)者的狂熱調(diào)用，到全球社區(qū)登頂?shù)挠埠藨?zhàn)績(jī)，阿里正以開(kāi)源為支點(diǎn)，撬動(dòng)大模型競(jìng)爭(zhēng)新范式。中國(guó)力量，正在改寫(xiě)全球大模型產(chǎn)業(yè)格局。

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問(wèn)APP發(fā)布日遭美方“指控”，背后是中美AI的無(wú)聲戰(zhàn)爭(zhēng)

明年沖擊100萬(wàn)臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開(kāi)啟eSIM時(shí)代：國(guó)內(nèi)廠商紛紛跟進(jìn)

全站最新

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

千問(wèn)APP發(fā)布日遭美方“指控”，背后是中美AI的無(wú)聲戰(zhàn)爭(zhēng)

熱門(mén)推薦

創(chuàng)新是走出低谷、完成突破的動(dòng)力（親歷者說(shuō)）

線下線上齊發(fā)力，渝貨出山有實(shí)招

觀察|全固態(tài)電池商業(yè)化時(shí)間表成爭(zhēng)議焦點(diǎn)，高成本或阻礙推廣

IDC：印度手機(jī)市場(chǎng)Q3創(chuàng)五年新高，vivo、OPPO、三星位列前三

2025世界城市文化大會(huì) 聚焦AI時(shí)代城市文化

在全球最大的科技峰會(huì)現(xiàn)場(chǎng)，他們用DeepSeek養(yǎng)出迷你“獨(dú)角獸”

潤(rùn)和軟件與中國(guó)科學(xué)院廣州生物醫(yī)藥與健康研究院達(dá)成戰(zhàn)略合作

千問(wèn)APP發(fā)布日遭美方“指控”，背后是中美AI的無(wú)聲戰(zhàn)爭(zhēng)

明年沖擊100萬(wàn)臺(tái)！零跑汽車2025年銷量目標(biāo)已達(dá)成

iPhone Air開(kāi)啟eSIM時(shí)代：國(guó)內(nèi)廠商紛紛跟進(jìn)

劍指蘋(píng)果A20 高通驍龍8 Elite Gen6明年見(jiàn)：雙版本齊發(fā)

全球首發(fā)出圈實(shí)況拼圖！OPPO Reno15系列下周登場(chǎng)

全能搭子文心5.0，百度用原生全模態(tài)宣告回歸

中芯國(guó)際CEO：存儲(chǔ)漲價(jià)對(duì)邏輯代工有兩大致命影響

ADM、浪潮云和神州數(shù)碼成為開(kāi)源歐拉社區(qū)新捐贈(zèng)單位