9月12日,阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數(shù)兩方面不斷擴(kuò)展(Scaling)的未來趨勢而設(shè)計(jì),采用全新的高稀疏MoE架構(gòu),并對經(jīng)典Transformer核心組件進(jìn)行了重構(gòu),創(chuàng)新線性注意力和自研的門控注意力結(jié)合的混合注意力機(jī)制,實(shí)現(xiàn)了模型訓(xùn)練和推理的雙重性價(jià)比突破。
基于這一新架構(gòu),阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數(shù) 80B 僅激活 3B,性能可媲美千問3旗艦版235B模型,模型計(jì)算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens超長上下文。





京公網(wǎng)安備 11011402013531號(hào)