衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
推理模型和具身智能,絕對是今年WAIC上最搶眼的存在。
一個搶占了現階段AI發展的話語權,一個是外界給予重望的“下一件有形之物”——尤其是推理模型這條線,逛展剛第二天,我的腦子已經有點“轟炸過載”了。
當迷失在各家的最新推理模型性能指標之中時,一個念頭突然冒了出來。我把這個念頭寫在這里,同時也是想問問各位朋友們:
什么樣的推理模型,能稱得上真正好用?
![]()
在我這里,答案或許是:
多模態,推理強,用得起,最好還是開源的。
幾句話說起來簡單,但真能兼顧這幾點的模型,在市場上幾乎處于空缺狀態。
直到我發現了階躍星辰在WAIC期間發布的新一代基礎大模型Step 3——市場上的這個空缺,終于被填上了。
Step 3是一個總參數321B的MoE模型,具備多模態推理能力,將于下周四(7月31日)正式開源。
在MMMU等多個多模態榜單上,它一現身就取得了開源多模態推理模型新SOTA的成績。
![]()
更重要的是,Step 3不是單純追求效果的“學術卷”,階躍稱這款模型兼顧智能與效率。
實測顯示,Step 3的推理解碼成本僅為DeepSeek的1/3,且效率更高;在國產芯片上的跑分更是一騎絕塵,推理效率最高可達DeepSeek-R1的300%。
多模態卷王的新SOTA“四字訣”
過去一年,行業在變。
生成式AI步入推理時代后,多模態模型全面涌現,推理能力成為新焦點,開源成為廠商和用戶的首選考量。
與此同時,各個榜單里更替速度極快的高排名,不再是衡量一個模型性能的唯一定論。效率、成本、部署友好性,都成為綜合考察點的一部分。
階躍看到了這些現象和趨勢,并直接在Step 3身上體現了自己對這些需求的回應。
階躍將其概括為四字訣:多、開、好、省。
這也是階躍對“什么是真正好用的推理模型”簡短有力的回應。
多
多,指多模態。
是的,Step 3依舊是熟悉的階躍味道——它是個多模態模型。
Step 3是一個321B參數的視覺語言模型(VLM),激活參數38B。其架構包含獨立的視覺編碼器(5B參數)和語言模型(316B參數)。
![]()
多模態卷王之所以還在多模態這條路上卷,是因為階躍觀察到,多模態對用戶來說才是剛需。
“數學和代碼是各大榜單最喜歡測試模型能力的方向。”階躍星辰創始人、CEO姜大昕表示,就連測試Step 3的時候,都免不了會選擇相關測試集,“但實際應用場景中,用戶并不需要這個模型是個數學奧賽金牌選手,我們往往需要的是一個能說會看的模型。”
作為階躍首個全尺寸原生多模態推理模型,Step 3擁有強大的視覺感知和復雜推理能力,可準確完成日常生活中的各類視覺分析問題。
比如,只報上身高體重,然后丟給它商場中某品牌褲子的標簽,問自己能不能穿。
它成功識別出了品牌,還因為提問中沒有清晰表示提問的“我”是男是女,于是分情況進行了分析和回答:
日常生活外,跨領域的復雜知識理解、數學與視覺信息的交叉分析也不在Step 3的話下。
現在,階躍AI App和網頁(stepfun.com)上,所有普通用戶都已經能體驗到Step 3的多模態推理能力。
尤記得今年2月,也是在上海,階躍承諾將在多模態推理領域持續深耕,如今放出Step 3,也算是對這個承諾的階段性兌現。
開
25日,Step 3公開發布,并承諾于7月31日正式開源。
這一舉打破了市場上“強模型不開源,開源模型不強”的尷尬局面。
瞥了一眼,GitHub上的項目倉已經建好了~
雖然“will be released soon”,但已經107顆星星在手,nice。
![]()
好
這個“好”字,姜大昕作出如下解釋:
模型不僅要知識豐富,善解人意,還要有這個嚴謹的邏輯推理能力。
如他所述,尤其是從今年上半年開始,強推理能力已經成為新一代模型的標配。
給它一張沒有任何文字信息的WAIC現場實拍圖,它一眼就看出吃瓜群眾圍得里三層外三層,是為了看右下角兩個戴著頭盔的機器人在拳擊。
再追問,Step 3甚至能根據場館布置特色和風格,推測出這是發生在WAIC上的一幕:
省
“該省省,該花花”這套生活哲學,終于也被活學活用到大模型身上了。
“省”字對應的其實是所有用戶——無論是企業還是開發者——最樸實無華的需求:在模型能力足夠好的前提下,成本要盡可能地降低。
Step 3給出的解決方案是系統協同設計(Model-system Co-design),即重點通過模型系統架構的創新來提升解碼效率并降低推理成本。
這里關鍵介紹兩點創新:
一個是系統層的AFD分布式推理系統。
傳統情況下,模型關于Attention和FNN的推理計算任務,會交給同一組GPU同時處理,常常導致資源浪費。
AFD全稱為Attention-FFN Disaggregation,它的做法是將Attention和FNN拆開,使兩者在獨立子系統中運行,實現分布式推理和流水線優化。
![]()
這樣一來,Attention和FNN可以分別部署到不同GPU集群,避免專家負載不均和網絡擁堵問題,顯著提升解碼效率。
實驗結果表明,AFD分布式推理系統優于與DeepSeek-V3采用的專家并行方案DeepSeek EP。
另一個創新是模型層的MFA注意力機制。
MFA全稱Multi-Matrix Factorization Attention。其實早在去年年底,階躍就在Step-2的基礎上首次公開發布了MFA機制。
它是一種硬件感知的低秩注意力設計,通過矩陣分解優化KV緩存和計算效率,同時保持高注意力表達力。
技術報告顯示,Step 3的KV緩存大小小于DeepSeek-V3,更適用于長上下文場景。
![]()
值得注意的是,MFA的算術強度控制在128,這是一個權衡結果——高于H20的74,避免內存墻;又低于H800的591,避免算力浪費。
這個設計直接帶來三個結果:跨硬件兼容性、成本優勢擴大、長上下文彈性。
同時,Step 3支持FP8全量化,將內存訪問減半并兼容“低比特存儲-高比特計算”方案,進一步降低延遲。
系統層和模型層兩處創新,二者協同,讓Step 3僅使用32張Hopper GPU,吞吐量就達到4039 tokens/GPU/s;而DeepSeek官方數據顯示,使用128張Hopper GPU的DeepSeek-V3,官方吞吐量為2324 tokens/GPU/s。
一套操作下來,最終達到的效果是這樣的——
在A800上,Step 3的成本低于所有同類模型;在H20上,Step 3的成本僅有DeepSeek-V3的30%。
![]()
整體看下來,在SOTA已經不是驚艷四座新鮮事的現在,Step 3給推理時代的大模型SOTA提供了一個新的定義:
既是最強,又是最值。
Step 3可稱作“開源”“多模態”“推理”“SOTA”四角俱全的代表——被行業里叫做多模態卷王,不是沒道理。
推理落地難,軟、硬、Infra一起卷
Step 3無愧于階躍多模態推理模型新旗艦,但是——
如果沒有配套的算力環境,即便Step 3再好,也可能只是高處不勝寒。
真正讓它落地有聲的,是產業鏈的聯合進化。
過去模型落地常卡在兩個點,一個是API價格太高,一個是國產卡推不動。
但誰都知道,API價格戰固然能帶來一時普及,唯有在模型與系統架構上實現本質性突破,才能支撐AI長久可持續地走進日常與產業。
![]()
為了打破推理大模型普及最大瓶頸——成本,階躍不靠API價格戰,而是朝硬件下手,推動模型和算力層協同發展。
在設計之初,Step 3就考慮了國產芯片適配。
Step 3的友好,是對所有芯片友好。
目前,華為昇騰已首先實現Step 3的搭載和運行;沐曦、天數智芯和燧原等也已初步實現運行Step 3。
敲黑板,這里提到的適配的不是閹割版,而是在完整多模態能力下實現高性價比推理。
更棋高一著的事情是,為了進一步打通上下游,階躍聯合近10家芯片及基礎設施廠商發起“模芯生態創新聯盟”。
據了解,該聯盟是一個打通了芯片、模型、Infra完整技術鏈路的創新生態體系。
Step 3發布當天,該聯盟公開的首批成員包括華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、無問芯穹、寒武紀、摩爾線程、硅基流動等。
![]()
姜大昕表示,階躍會從底層和各個芯片、Infra伙伴進行聯合創新,提升模型適配性和算力應用效率。
芯片廠提供可落地的推理算力,模型廠做硬件友好的模型架構,Infra平臺做高效調度、服務部署與推理加速,最終實現推理能用、成本可控、國產芯片跑得起來。
終端智能Agent落地成果豐碩,2025全年預計收入沖刺10億
如果說模型能力是基礎盤,那么應用落地就是成敗的分水嶺。
在這方面,階躍的表現可以說是:多模態推理模型能跑的地方,它都跑過了。
尤其是在終端智能Agent方向,階躍已經形成清晰的落地節奏,且來自汽車、手機、具身智能、IoT等領域的客戶都很買單。
在這兩天的WAIC上,展示場景落地能力的階躍展臺,也是被人從眾爭相圍觀體驗的熱門展位。
![]()
看到上圖左下角這個蛋艙沒?
這就是搭載了階躍多模態模型能力的下一代智能座艙,能感知用戶狀態,記住車主偏好,開啟人機共駕時代。
而在離我們當下現實生活更近的汽車端,可以看看旁邊的吉利銀河M9。
它首發搭載階躍星辰端到端語音大模型——這是行業內端到端語音大模型首次實現量產上車。
![]()
手機是階躍Agent終端落地的另一個重點場景。
它使用人群最廣泛、占據我們日常最大使用時長,因此也是一個更普惠所有用戶的場景。
階躍官方表示,目前,國內Top10手機廠商過半都已接入階躍的多模態能力,OPPO、榮耀、中興的旗艦機型都已搭載適配。
一方面通過高效推理降低了端側的功耗壓力,另一方面真正做到了在本地實現AI伴聊“AI視頻通話搭子”、記錄手機碎片化信息的“AI記憶收納師”等功能。
說適配搭載階躍能力的手機是每個人的隨身Agent,并不夸張。
![]()
大模型很熱,但很多時候熱在人們的交談里,熱在媒體的報道里,或者只是熱在你爭我奪的各種榜單上。
而階躍,已經讓多模態大模型可用、可跑、可部署、可落地。
這就讓它成為當前基礎模型賽道中,少數幾個具備清晰商業化路徑和收入規模的玩家之一。
據階躍方面透露,2025年全年預計收入近10億人民幣。
此次發布的Step 3,是階躍在推理模型當道的現在,給出的一套系統性打法。
它其實不是天降神兵般突然出現的一個兼顧智能與效率的多模態推理模型,而是階躍一路卷來,鉆研技術與工程,又洞悉市場需求的一份答卷。
而且它靠著“多開好省”四字秘訣,一腳踹開了推理模型商用落地的那扇門。
![]()
沒錯哦,當別人還只在卷參數卷指標,階躍已經開始算收入了;別人還在拼一張張榜單,Step 3已經裝進了車里、手機里、機器人里。
最強模型的牌面總在刷新,最強的皇冠王座可以輪換,但市場不會撒謊。
那些真正好用、能落地、能適配的模型才是開發者和企業長久追著找的剛需款。
在一輪輪淘汰賽之后,誰是AI產業的長期務實性選項,已經越來越清楚了。
Step 3的“多開好省”聽著像是口號,實則可能是一道選擇題:
你想做SOTA的路過者,還是能跑進終端、留在產業線里的長跑者?
階躍已經選了它的答案。
你呢?





京公網安備 11011402013531號