![]()
新智元報道
編輯:傾傾
開源炸場!Qwen3-Next 80B,每次僅激活約3B;訓練成本約1/10,32K以上長文本吞吐提升約10倍,原生256K。這才是開源最想看的答案。
AI狂飆,閉源大模型堅信「越大越強」、「大就是好」。
但一只80B的開源「小鋼炮」卻給了另一個答案:Qwen3-Next。
它用極稀疏MoE與混合注意力,把單次激活壓到≈3B,訓練成本約1/10、32K+長上下文、推理吞吐≈10×,在多項推理與長文場景逼近甚至反超閉源競品。
小體量、低成本,卻能硬剛巨頭——這才是開源最想看的答案。
80B小體量,憑什么挑戰235B巨頭?
![]()
Qwen3-Next的混合架構。采用Gated DeltaNet+Gated Attention的混合注意力與高稀疏MoE,并通過zero-centered與weight-decayed LayerNorm等穩定化手段,提升大規模訓練穩定性
極致稀疏MoE:512專家只激活3B
閉源大模型的常見邏輯是「越大越強」:參數從百億到千億一路狂飆,成本和門檻也被推到極高。
但Qwen3-Next給出了另一種答案——它只有80B總參數,卻通過極致稀疏的MoE 架構,把「小體量」貫徹到了極致。
采用極稀疏MoE(1:50):512專家中每個token僅激活10個專家+1個共享專家,激活參數≈3B(約3.75%)
這種「按需激活」的設計,不僅讓計算資源利用率最大化,也在官方評測中跑出了接近235B旗艦模型的表現。
![]()
Qwen3-Next-80B-A3B-base在多項任務中表現超越32B,接近235B,展現出極高的性價比
Qwen3-Next用更小的規模,撕開了閉源巨頭的防線,證明了「不是越大才越強」,而是越聰明才越強。
混合注意力:效率與召回的平衡
在注意力機制上,Qwen3-Next采用了75%Gated DeltaNet+25%標準Attention的混合方案。
前者負責提升長文本處理的效率,后者保證全局信息的召回,再加上輸出門控和部分旋轉位置編碼,既能處理超長上下文,又能維持強大的in-context學習能力。
這套設計讓它在復雜推理任務中,不僅超過了自家更高成本的30B、32B模型,還在多個基準測試中超越了閉源Gemini-2.5-Flash-Thinking。
更讓人驚訝的是,部分關鍵指標已經接近Qwen3-235B-Thinking,尤其在256k超長上下文場景下,優勢被進一步放大,成為開源陣營少見的「長文推理利器」。
穩定性優化:不怕大規模訓練翻車
稀疏架構的難題一直是訓練不穩。
Qwen3-Next在這一點上做了多重改造:
采用zero-centered與weight-decayed LayerNorm等穩定化手段,并在MoE Router上做歸一化與初始化改進,保證高稀疏與RL后訓階段的穩態收斂。
在MoE router初始化時進行歸一化,讓各個專家在早期訓練階段就能公平參與。
結果是,模型在scaling up時依然能穩步收斂。
省錢更省心:效率才是殺手锏
Qwen3-Next并不是靠堆算力取勝。
它只使用了Qwen3語料的15T tokens子集,訓練所需GPU資源甚至不到Qwen3-32B的9.3%。
![]()
在4K場景也有可觀提升,而在 32K+ 長上下文下提升最為顯著(約10×)。
![]()
![]()
訓練更省,推理更快,這讓「性價比」三個字,不再是宣傳口號,而是能落到實處的硬指標。
原生MTP:快得有理由
效率的提升并不是憑空出現。
Qwen3-Next把Multi-Token Prediction原生集成進模型主干,一次前向就能預測多個token。
再結合多步一致訓練,大幅提升了speculative decoding的接受率。
這意味著模型不僅能生成得更快,而且在長文本場景下依舊保持穩定。
換句話說,速度背后有機制,性能提升也能持久復現。
后訓練見真章:Instruct與Thinking雙線作戰
如果說base模型證明了Qwen3-Next的基本實力,那么Instruct和Thinking模型則展示了它在后訓練階段的全面爆發。
在Instruct模型上,Qwen3-Next-80B-A3B-Instruct的表現已經逼近Qwen3-235B Instruct,在部分任務上甚至反超。
![]()
無論是SuperGPQA、AIME25,還是Arena-Hard v2,都能看到80B模型與235B旗鼓相當,明顯領先于Qwen3-30B、32B系列。
在對于長文本處理的對比下尤為突出,在RULER測試的256k上下文范圍內,它甚至超過了235B,驗證了混合架構在超長場景下的優勢。
![]()
而在Thinking模型上,Qwen3-Next-80B-A3B-Thinking的突破更為亮眼。
在復雜推理任務中,不僅優于自家更高成本的30B、32B模型,Thinking版在多個基準上超過Gemini-2.5-Flash-Thinking:例如 IME25 87.8 vs 72.0、HMMT25 73.9 vs 64.2、LiveBench 76.6 vs 74.3、LiveCodeBench v6 68.7 vs 61.2、Arena-Hard v2 62.3 vs 56.7。
![]()
換句話說,開源社區第一次在推理能力上真正追上了閉源巨頭,并在部分場景中完成了反超。
![]()
官方在X的發布中也給出了核心口徑:80B總參但單token僅激活3B;訓練約10×更省、在32K+上下文推理約10×更快。
長文穩定、綜合均衡,網友:真香!
如果說Qwen3-Next的骨骼是極稀疏MoE與混合注意力,那它的「肌肉」就體現在長文本和綜合基準里的硬指標。
原生256K的上下文不是紙面參數,在官方RULER測試中,Qwen3-Next-80B-A3B-Instruct在256K點位拿到約93.5%的準確率,全區間平均約91.8%。
![]()
也就是說,它不僅能「裝下」超長材料,還能在長度翻倍之后依然保持理解力和穩定性,不是那種越長越糊的模型。
再看綜合能力。放進自家旗艦和競品橫向比,Qwen3-Next給出的答卷同樣驚喜:在Arena-Hard v2里拿到82.7分,已經和235B旗艦處于同一梯隊;
在LiveBench這樣的綜合評測上,它更是以75.8的成績追平甚至略超235B。
在LiveCodeBench v6上,它干脆以小博大,80B模型的56.6分超過了235B的51.8。
![]()
![]()
當然,在更吃知識冗余的數學/常識任務上,它與235B仍有半步差距,但考慮到成本對比,這已是一筆「穩賺」的交換。
除了官方成績單,社區也有第一波體驗者。
有網友實測發現,Qwen3-Next在生成長文時,版式會有一定波動,同一個prompt多次跑出的頁面排版不盡相同,需要靠更嚴格的提示去約束穩定性;
在處理長代碼時表現強勢,一次性能吐出上千行邏輯,但在「整理網頁信息」這樣的場景里,模型偶爾會「偷懶」,直接把片段抄過來而不是生成完整邏輯。
![]()
盡管如此,這位網友最后還是下了結論
100B以內的模型已經夠打,等到A100B+級別的新版本量產,會更值得期待。
百萬Token之外,還有Qwen3.5
Qwen3-Next 并不是終點。
它原生支持26萬token的上下文,在實際測試中,通過YaRN技術已經可以穩定擴展到百萬級。
這意味著,無論是整本書的理解,還是跨月的長周期對話,都已經不再是實驗室里的概念,而是真正可落地的能力。
更重要的是,團隊已經在籌備Qwen3.5。
在Qwen3-Next打下的架構基礎上,未來的版本將進一步強化智能水平和生產力表現。
對研究者和開發者來說,這不僅是一代模型的更新,更是開源社區與閉源巨頭競爭的加速信號。
從80B小體量撕開235B的防線,到百萬級上下文的突破,再到即將到來的Qwen3.5,Qwen系列正在不斷刷新行業對性價比和可能性的認知。
參考資料:
https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct
https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking
https://www.reddit.com/r/LocalLLaMA/comments/1nefmzr/qwen_released_qwen3next80ba3b_the_future_of/
https://qwen.ai/blog?id=4074cca80393150c248e508aa62983f9cb7d27cd&from=research.latest-advancements-list
https://x.com/Alibaba_Qwen/status/1966197643904000262





京公網安備 11011402013531號