![]()
新智元報道
編輯:定慧 桃子
新一代多模態推理基模Step 3橫空出世了!是專為推理時代打造的最適合應用的模型,以最高可達DeepSeek-R1 300%的推理效率擊破行業天花板。7月31日,Step 3將正式開源,問鼎開源最強多模推理模型。
2025年,AI模型到底有多卷?
谷歌和OpenAI從年初開始「打生打死」,發布會一場接一場,最近OpenAI更是為了和谷歌DeepMind爭奪「IMO金牌第一推理模型」互相撕臉。
![]()
閉源模型們神仙打架,開源模型卻是「格局已變」。
開源模型這塊,國內已經快一枝獨秀了,DeepSeek、Qwen、StepFun、Kimi K2等成為海外討論的焦點。
曾經的開源之光meta的Llama已經被人遺忘,逼得扎克伯格顧不得體面瘋狂挖人。
喧囂之后:什么才是真正「好用」的AI模型?
時至今日,整個行業都意識到,真正的問題是,到底什么樣的模型才能真正服務于千行百業,而不僅僅是刷新各個Bench的榜單。
遺憾的是,放眼望去,能同時滿足「開源」,又能提供「多模態能力」,還能「推理」的模型,還真的數不出幾個,更別說好用了。
2025 WAIC大會上,階躍星辰的新一代主力基座模型Step 3,帶來了意想不到的驚喜。
![]()
Step 3:開源多模態推理新標桿
新一代旗艦基模Step 3的發布,標志著階躍多模態大模型又一個新里程碑。
它采用了原創MFA架構,通過模型和系統聯合創新,實現了行業領先的推理效率、極致性價比。
要說Step 3的核心亮點,可以概括為四個字——「多開好省」。
具體來說,多代表「多模態」,開代表「開源」,好代表「強智能」,省代表「低成本」。
接下來,就我們一一拆解,這四大維度背后代表的真正含義。
作為AI界「多模態卷王」,階躍首發的Step 3綜合實力究竟有多強?
Step 3在MMMU、MathVision、SimpleVQA、AIME 2025、LiveCodeBench(2024.08-2025.05)等榜單上直接拿下了開源多模態推理模型的SOTA成績。
![]()
榜單成績刷的再高,不如真正拉出來遛一遛。
能看會道,雙商太高了
現在,直接進入階躍AI的網頁版和手機版,即可開啟Step 3的最新體驗。
![]()
傳送門:https://www.stepfun.com/chats/new
在視覺推理實測中,Step 3能夠對圖片中的細節,充分理解到位。
比如,扔給階躍AI一張貓咪圖,并問「圖片里有幾只貓」?
![]()
Step 3思考后給出回復,一眼識別出「一只貓+影子」,并給出了導致視覺錯覺的原因。
![]()
再上一個難度測試,當你看到如下這張圖后,能否發現圖片中寫了什么?
別說AI了,眼神不太好的人,硬是盯半天也不一定能看出來。
![]()
Step 3經過長時間推理后,一步一步解讀出圖片中從上至下的字母,并將其組合成「AI MAKE LIFE BETTER」的正確答案。
![]()
再比如,正在減肥期間的你,想要隨時監測食物卡路里,同樣交給Step 3就可以了。
上傳一張食物訂單圖,提問「2個人一餐吃了這些,人均攝入多少卡路里」?
![]()
不一會兒功夫,Step 3就給你算的明明白白。
![]()
再來個經典視覺難題「吉娃娃還是松餅」,堪稱AI視覺領域的「圖靈測試」,曾難倒了不少大模型。
那么,Step 3的表現又如何呢?
![]()
令人驚喜的是,經過縝密的思考之后,Step 3準確列出了圖中所有吉娃娃的所在位置。
![]()
再比如室友小聚,需要AA制但又懶得分賬時,可以把相關圖片上傳給Step 3。
一張聊天截圖,一張購物單,問下每個人均攤多少?
![]()
在仔細推敲之后,Step 3針對5個人的花費給出了詳細的解答。
多開好省,最適合應用
更重要的是,這充分體現了Step 3「多開好省」的核心亮點。
這四大維度,對于用戶來說至關重要。
人們在選擇模型時,這一過程就好比「木桶理論」,不僅要關注模型的單一優勢,而是要綜合考量多維度的整體表現。
![]()
作為階躍首個全尺寸、原生多模態推理模型,Step 3非常適合落地應用。
一直以來,數學、代碼成為業界考驗模型能力的重要方向,但在實際應用中,多模態才是真正的剛需。
谷歌DeepMind CEO Hassabis曾在公開演講中提到,「原生多模態模型是通向AGI的關鍵」。
![]()
也就是說,未來的AI系統需要超越單一模態,真正理解和整合多種感官信息,才能在復雜場景中發揮作用,從「實驗室標桿」走向「產業剛需」。
在「性能好」方面,Step 3不僅知識豐富,還具備了嚴謹的邏輯和多步推理能力,滿足了強化學習范式下,對強大推理能力的需求。
發布會上,階躍官宣,預計7月31日,Step 3將面向全球企業和開發者開源。
如此強大的多模態推理模型開源后,意味著企業和開發者都可以基于自身條件進行私有化部署,對其進行訓練和微調。
Step 3的另一大殺手锏,便是對所有芯片友好。這也是「省」一大特點背后的關鍵因素。
要降低推理模型的成本,核心要素是提高解碼效率。
市面上的主流開源模型,雖然針對解碼做了大量優化,但這些優化方案主要適配國際高端芯片,在中端及國產芯片上的解碼效率仍有提升空間。
為了突破這點,Step 3進行了系統性的技術創新,在架構設計階段就充分考量了系統與硬件的特性,能夠實現廣泛硬件平臺上的高效推理,解碼效率達到行業領先水平。
根據原理分析,Step 3在國產芯片上的推理效率最高可達DeepSeek-R1的300%。
在基于NVIDIA Hopper 架構的芯片進行分布式推理時,實測Step 3相較于DeepSeek-R1的吞吐量提升超70%。
![]()
這意味著Step 3具備廣泛的普適性,在各種硬件環境下部署,都能大幅降低推理成本。
那么Step 3究竟采用了怎樣的技術架構,才能實現如此卓越的多模態推理能力與成本效率?
系統創新,提升推理效率
大模型技術發展至今,尤其是在長上下文推理任務中,大部分模型都面臨較低的解碼效率。
Step 3能做到「大而實惠」,得益于階躍星辰在軟硬件協同設計優化,這是模型和硬件平衡的藝術。
![]()
Step 3在國產芯片上的推理效率最高可達DeepSeek-R1的300%,且對所有芯片友好。
在基于NVIDIA Hopper架構的芯片進行分布式推理時,實測Step 3相較于DeepSeek-R1的吞吐量提升超70%。
Step 3總共擁有316B參數,激活參數為38B。此外還有一個5B參數的視覺編碼器。
對于FFN前饋神經網絡,Step 3采用了受到DeepSeekMoE啟發的共享專家設計。
對于MFA,Step 3配置了64個注意力頭,KV維度256,Query維度2048。
![]()
Step 3能夠實現高性價比(高成本效益)的解碼,其核心在于一套深度集成的模型-系統協同設計 (model-system co-design)理念。
注意力-前饋網絡解耦
Step 3的推理系統,可能是首個利用注意力-前饋網絡解耦(Attention-FFN Disaggregation,AFD)理念并實現高吞吐量解碼的生產級服務系統之一。
AFD是Step 3實現高效解碼的系統級基石。
它將傳統大語言模型中交錯的Attention層和FFN(前饋網絡)層在物理上分離開,部署到不同的專用GPU集群上。
這種架構上的分離使得每個子系統可以采用最適合其計算特性的不同并行策略。
在處理4K平均上下文長度的特定場景下,Step 3僅需32個GPU,遠少于DSv3在類似任務中所需的128個GPU。
當上下文長度為8K,Step 3的理論解碼成本最低。每1M解碼token的成本約為0.055美元。
![]()
各模型在不同硬件上的理論解碼成本分析(單位:美元)。注意:這些模型的激活參數數量不同:DSv3 37B,Qwen3 MoE 22B,Qwen3 32B,MM M1 46B,ERNIE 4.5 47B,Pangu Pro MoE 16.5B和Step 3 38B
![]()
不同模型和推理配置的解碼成本(每1M個token)
Step 3在非Hopper系列的廉價硬件上依然保持很高的成本效益。
軟硬協同
計算強度(Arithmetic Intensity)指計算操作與內存訪問字節數的比率。
Step 3的MFA的算術強度設計為128,這使得它能更好地匹配各類加速器(如A800、910B)的硬件特性,避免了因算力或帶寬的單一瓶頸而導致效率低下。
![]()
解碼過程中不同注意力設計的計算和內存訪問
Step?3的MFA同時實現了低計算和內存訪問。
上圖顯示它的所需計算量是DSv3的四分之 一,其所需內存訪問量是Qwen3的三分之一。
使用AFD,注意力機制和FFN組件都可以分別輕松擴展。
![]()
AFD架構中的模塊解耦。FFN可以部署在TP-only、 EP-only或混合TP+EP的方式,具體取決于硬件和模型架構
這為利用非旗艦硬件進行注意力部分或FFN部分的處理創造了更多機會。
![]()
此外,Step 3還為AFD量身定制了高性能AF通信庫StepMesh。
![]()
上圖展示了為AFD量身定制的StepMesh通信工作流程:
1) 異步 API 和專用線程;
2) 基于CPU的操作執行;
3) 預注冊張量以實現高效通信。
![]()
用于多個加速器的StepMesh框架
上圖展示了StepMesh框架,該框架設計為高度可擴展的架構,能夠集成新型加速器。
此框架將加速器視為后端,并建立了一組用于AFD通信的關鍵后端接口。
這些接口涵蓋了內存分配和流同步等核心功能。
通過遵循這些定義良好的接口,新型加速器可以輕松集成到StepMesh框架中。
StepMesh實現了異構加速器之間的無縫通信,不同類型硬件都能夠高效協作。
兩年多箭齊發,真·多模態卷王
階躍星辰雖然僅成立兩年多,但其實已經是名副其實的「多模態卷王」。
![]()
隨著Step 3發布,階躍也構建起獨創的「1+N」的 Step 系列大模型矩陣,持續突破技術邊界。
「1」是指Step 3基礎大模型;「N」則為Step系列的多模態大模型矩陣,廣泛覆蓋語音、視覺理解、圖像編輯、圖像和視頻生成、音樂等領域。
本次WAIC期間,階躍升級了多模態模型,包括階躍首個多模理解生成一體化模型Step 3o Vision,第二代端到端語音大模型Step-Audio 2,都可以在「階躍AI」官網(stepfun.com)和「階躍AI」App進行體驗。
我們淺玩了一下「階躍AI」的視頻通話功能后發現,真有點鋼鐵俠里「賈維斯」那味兒了。
它可以開啟攝像頭,觀察周圍環境,還能識別環境中的復雜物體。
比如可以識別出套著黑色外殼的蘋果耳機,也可以在白色桌面上識別出透光的眼鏡。
即使在環境光強反射下,依然能夠穩定識別全英文包裝的藥品。
可以一字不差的檢測出手里拿著的是「BLACKMORES」魚油品牌,并且還準確給出了產品功效的解讀。
成立兩年多以來,Step系列已經發布了26款自研基座模型,多模態占比超七成,而且模型性能也保持著行業的頂尖水平。
在不斷追求模型智能上限的同時,階躍也在持續探索著模型的落地應用。
與其他廠商只發模型不同,Step 3更進一步,實現了商業價值的大幅聯動。階躍認為要讓大模型真正用起來,不僅僅是訓練一個模型,需要全產業鏈的聯合創新。
在發布會現場,階躍星辰宣布聯合近 10 家芯片及基礎設施廠商,共同發起「模芯生態創新聯盟」,致力于打通芯片、模型和平臺全鏈路技術。
通過底層聯合創新提升大模型適配性和算力效率,該聯盟將為企業和開發者提供高效易用的大模型解決方案,加速應用落地。
首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。
目前,華為昇騰芯片已首先實現Step 3的搭載和運行。沐曦、天數智芯和燧原等也已初步實現運行Step 3。其它聯盟廠商的適配工作正在開展。
![]()
階躍的AGI之路并不單純追求炫技,而是在每一代模型的研發中都思考如何讓大模型真正用起來,無論是尋求突破系統級創新,還是聯合全鏈條技術產業一起探索更底層的協同創新。
階躍星辰創始人、CEO 姜大昕說,「從Step 1到Step 2兩代基模的快速迭代,促使我們深入思考什么才是最適合應用的模型。隨著大模型進入到強化學習發展階段,新一代推理模型成為主流,模型性能的提升固然顯著,但這是否完全等同于模型價值?面對這一產業之問,我們必須回歸客戶需求,立足真實應用場景,探索模型創新落地的可行路徑。這是我們研發新一代Step 3基礎模型的出發點」。
在通往AGI征程中,階躍星辰正以開拓者之姿,引領中國AI駛向更廣闊的星辰大海。
![]()





京公網安備 11011402013531號