11 月 3 日,阿里巴巴推出 Qwen3-Max-Thinking 早期預(yù)覽版。Qwen3-Max-Thinking 是 Qwen3-Max 的推理增強(qiáng)版本,它通過集成代碼解釋器和運(yùn)用并行測試時(shí)計(jì)算技術(shù),展現(xiàn)出較強(qiáng)的推理能力。據(jù)了解,Qwen3-Max 是阿里巴巴于今年 9 月下旬推出的該公司迄今為止規(guī)模最大、能力最強(qiáng)的語言模型,參數(shù)量在 1 萬億以上,預(yù)訓(xùn)練數(shù)據(jù)達(dá)到 36T tokens。
![]()
圖 | Qwen3-Max-Thinking 早期預(yù)覽版的相關(guān) X 推文(X)
目前,Qwen3-Max 推理模型仍在持續(xù)訓(xùn)練中,即便使用當(dāng)前的 Checkpoint,當(dāng)借助工具調(diào)用和規(guī)?;臏y試時(shí)計(jì)算時(shí),阿里巴巴表示該模型可在 AIME 25 和 HMMT25 等挑戰(zhàn)性較高的數(shù)學(xué)推理基準(zhǔn)測試中達(dá)到 100% 的準(zhǔn)確率。
Qwen3-Max-Thinking 早期預(yù)覽版融合了思考模式與非思考模式。當(dāng)開啟思考模式的時(shí)候,模型可以很好地執(zhí)行常識(shí)推理和智能體編程等能力,也在數(shù)學(xué)、科學(xué)和其他通用領(lǐng)域具有較好的推理能力。
![]()
(實(shí)測圖)
在實(shí)測中,當(dāng)筆者讓 Qwen3-Max-Thinking 完成一個(gè)名為“數(shù)學(xué)推理與可視化智能體”的智能體編程任務(wù)時(shí),它花了較長時(shí)間思考,消耗的 tokens 也不算低。
![]()
(實(shí)測截圖)
![]()
(實(shí)測圖)
經(jīng)過幾分鐘的思考以及長達(dá) 527 行的代碼,它給出了一個(gè)示例輸出報(bào)告,附上了完整的 HTML 報(bào)告示例,并指出這一智能體通過多路徑驗(yàn)證可以確保數(shù)學(xué)嚴(yán)謹(jǐn)性,通過結(jié)果的專業(yè)可視化能夠提供直觀的洞察,在架構(gòu)設(shè)計(jì)上支持?jǐn)U展至微積分和組合優(yōu)化等其他數(shù)學(xué)問題類型,能夠?yàn)閺?fù)雜數(shù)學(xué)推理任務(wù)提供完整解決方案。
![]()
(實(shí)測圖)
當(dāng)給到 Qwen3-Max-Thinking 一個(gè)名為“社區(qū)生活情境推理”的常識(shí)推理任務(wù)時(shí),它給出了兩千多字的回答,在這一回答中它根據(jù)線索開展了常識(shí)分析,給出了逐步重建的核心常識(shí),并進(jìn)行了超越表面問題的深度風(fēng)險(xiǎn)分析。
![]()
圖 | “社區(qū)生活情境推理”的常識(shí)推理任務(wù)的描述(實(shí)測圖)
![]()
(實(shí)測圖)
一位名為“MZift”的 X 網(wǎng)友在 Qwen 的 X 推文下表示:“在 AIME 測試中斬獲滿分著實(shí)驚人,即使是階段性測試也堪稱突破。當(dāng)眾人沉迷于 OpenAI 的紛爭時(shí),Qwen 正在悄然蓄力。中國 AI 實(shí)驗(yàn)室的崛起之路,果然別具一格?!绷硪晃幻麨椤癒enshii”的 X 網(wǎng)友也評論稱:“竟能在AlME 2025 這一中期基準(zhǔn)測試中拿到滿分?這實(shí)力著實(shí)駭人。”
![]()
圖 | X 網(wǎng)友評論(X)
但也有網(wǎng)友根據(jù)試用體驗(yàn)表達(dá)了自己遇到的問題,一位名為“Goutham Rajesh”的 X 網(wǎng)友表示:“我在試用帶有‘思考過程’的 Qwen3-Max 時(shí),頁面竟然陷入了無限滾動(dòng)模式,每當(dāng)生成響應(yīng)內(nèi)容,頁面便持續(xù)地進(jìn)行遞歸式自行滾動(dòng),直到完全生成內(nèi)容才會(huì)停止。這一現(xiàn)象僅限于 Qwen3-Max 思考模式?!睂懲赀@段話,這位網(wǎng)友還艾特了 Qwen 的 X 賬號(hào)來反饋該問題。
![]()
圖 | X 網(wǎng)友評論(X)
事實(shí)上,這并非阿里的突然發(fā)布。11 月 2 日,通義千問負(fù)責(zé)人林俊旸已經(jīng)在 X 上預(yù)告稱:“它來了,你們可以試試?!标P(guān)于 Qwen3-Max-Thinking 早期預(yù)覽版,尚未在 Hugging Face 和魔搭等平臺(tái)開源。目前,用戶可以在 Qwen Chat 中免費(fèi)試體驗(yàn),也可以在阿里云百煉平臺(tái)上調(diào)用 API。需要說明的是,文本到文本——是 Qwen3-Max-Thinking 早期預(yù)覽版目前支持的唯一模態(tài)。在對外提供 API 服務(wù)上,它采用輸出限時(shí)免費(fèi)的方式。未來隨著訓(xùn)練的進(jìn)一步開展,阿里也將推出更多版本。
名為“ρ:ɡeσn”的 X 網(wǎng)友已經(jīng)根據(jù) Qwen 的模型時(shí)間給出了推測:“Qwen3-Max 預(yù)覽版于 9 月 5 日發(fā)布,正式指令版于 9 月 23 日亮相,其間相隔 18 天。假如思考模型也遵循這一時(shí)間線,那么 Qwen3-Max-Thinking 正式版有望于 11 月 20 日到 11 月 21 日之間亮相?!笔欠裾娴娜绱?,或許不久之后即將揭曉。
參考資料:
https://chat.qwen.ai/
閱讀 1666





京公網(wǎng)安備 11011402013531號(hào)