每經(jīng)杭州9月12日電(記者葉曉丹)9月12日,阿里通義發(fā)布下一代基礎(chǔ)模型架構(gòu)Qwen3-Next。Qwen3-Next針對大模型在上下文長度和總參數(shù)兩方面不斷擴展(Scaling)的未來趨勢而設(shè)計,采用全新的高稀疏MoE架構(gòu),并對經(jīng)典Transformer核心組件進行了重構(gòu),創(chuàng)新采用線性注意力和自研門控注意力結(jié)合的混合注意力機制,實現(xiàn)了模型訓(xùn)練和推理的雙重性價比突破。
基于這一新架構(gòu),阿里通義“打樣”了Qwen3-Next-80B-A3B系列模型,開源指令(Instruct)和推理(Thinking)兩大模型版本。新模型總參數(shù)80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,并可支持百萬Tokens(文本處理的最小單位?)超長上下文。




京公網(wǎng)安備 11011402013531號