IT之家 7 月 31 日消息,階躍星辰宣布新一代基礎大模型 Step 3 正式開源,Step 3 API 已上線階躍星辰開放平臺(platform.stepfun.com),用戶也可以在“階躍 AI”官網(stepfun.com)和“階躍 AI”App 進行體驗。
據介紹,Step 3 的多模態能力圍繞“輕量視覺路徑”與“穩定協同訓練”展開,重點解決視覺引入帶來的 token 負擔與訓練干擾問題。為此,其采用 5B Vision Encoder,并通過雙層 2D 卷積對視覺特征進行降采樣,將視覺 token 數量減少到原來的 1/16,減輕上下文長度壓力,提升推理效率。
IT之家附官方對 Step 3 模型的介紹如下:
核心要點Step 3 兼顧智能與效率,專為追求性能與成本極致均衡的企業和開發者設計,旨在面向推理時代打造最適合應用的模型。Step 3 采用 MoE 架構,總參數量 321B,激活參數量 38B。Step 3 擁有強大的視覺感知和復雜推理能力,可準確完成跨領域的復雜知識理解、數學與視覺信息的交叉分析,以及日常生活中的各類視覺分析問題。通過 MFA(Multi-matrix Factorization Attention) & AFD(Attention-FFN Disaggregation)的優化,在各類芯片上推理效率均大幅提升。面向 AFD 場景的 StepMesh 通信庫已隨模型一同開源,提供可跨硬件的標準部署接口,支持關鍵性能在實際服務中的穩定復現。模型限時折扣中,所有請求均按最低價格計算,每百萬 token 價格低至輸入 1.5 元,輸出 4 元。
Step 3 API 已上線階躍星辰開放平臺(platform.stepfun.com),大家也可以在“階躍 AI”官網(stepfun.com)和“階躍 AI”App(應用商店搜索下載)進行體驗。
行業領先的模型性能
我們在 MMMU、MathVision、SimpleVQA、AIME 2025、GPQA-Diamond、LiveCodeBench (2024.08-2025.05)等評測集上對 Step 3 進行了測試,在同類型開源模型中,Step 3 成績行業領先。
![]()
技術亮點
Step 3 重點解決多模態協同、系統解碼成本與推理效率問題,在訓練路徑、架構設計和推理部署上做了系統級優化。
1、預訓練架構
Step 3 的核心結構采用自研 MFA 注意力機制,有效降低注意力計算中的 KV 緩存開銷與算力消耗。在不犧牲模型能力的前提下,這一方案實現了資源利用與推理效率的平衡,使得模型可在 8×48GB 顯卡上完成大吞吐量推理,具備真實部署的可行性。
2、多模態預訓練
Step 3 的多模態能力圍繞“輕量視覺路徑”與“穩定協同訓練”展開,重點解決視覺引入帶來的 token 負擔與訓練干擾問題。為此,我們采用 5B Vision Encoder,并通過雙層 2D 卷積對視覺特征進行降采樣,將視覺 token 數量減少到原來的 1/16,減輕上下文長度壓力,提升推理效率。
為保證多模態訓練的穩定性,訓練過程分為兩個階段:第一階段強化 Encoder 感知,第二階段凍結視覺編碼器,僅優化主干與連接層,以減少梯度干擾。訓練語料也需與策略匹配,保障穩定協同。多模語料涵蓋 Pair、Interleave 與多任務數據,在清洗環節中引入相似度過濾、重采樣與任務比例控制,進一步提升圖文協同質量與訓練魯棒性。
3、AFD 解耦系統
Step 3 在系統架構層重構了解碼流程,重點解決 Attention 與 FFN 混合執行帶來的推理瓶頸以及資源不匹配問題。為此,我們實現了高性能的 AFD(Attention-FFN Disaggregation)方案,將兩類計算任務解耦成為兩個子系統,并通過多級流水線并行調度,有效提升整體吞吐效率。
由于解耦后的子系統之間對數據傳輸有極高要求,我們同時研發了面向 AFD 場景的 StepMesh 通信庫,基于 GPU Direct RDMA 實現跨卡的低延遲和高帶寬傳輸,同時兼備不占用 GPU 計算資源、適配多類異構硬件等優勢。在 50ms 解碼的 SLA 前提下,Step 3 在 Hopper GPU 上的吞吐達到 4039 token / gpu / s,顯著高于類似設置下的 DeepSeek V3(2324 token / gpu / s),且該性能增益在特定硬件與長文場景會進一步放大至 300%。
StepMesh 庫已隨模型一同開源,提供可跨硬件的標準部署接口,支持關鍵性能在實際服務中的穩定復現。之后我們也會積極與各開源社區合作推廣,讓以上技術更容易被采納和使用。





京公網安備 11011402013531號