![]()
智東西
作者 程茜
編輯 漠影
螞蟻集團(tuán)這波操作大圈粉!
智東西10月28日報道,10月25日,螞蟻集團(tuán)在arXiv上傳了一篇技術(shù)報告,一股腦將自家2.0系列大模型訓(xùn)練的獨家秘籍全盤公開。
![]()
今年9月至今,螞蟻集團(tuán)百靈大模型Ling 2.0系列模型陸續(xù)亮相,其萬億參數(shù)通用語言模型Ling-1T多項指標(biāo)位居開源模型的榜首;Ling-mini-2.0總參數(shù)160億,每個Token僅激活14億參數(shù);Ling-flash-2.0總參數(shù)1000億、激活僅6.1B,性能媲美400億級別參數(shù)模型……
這些模型的表現(xiàn),標(biāo)志著大模型發(fā)展從單純堆參數(shù)邁向以高效方式實現(xiàn)智能的新階段,而這一轉(zhuǎn)變的核心支撐正是Ling 2.0技術(shù)體系,此次螞蟻技術(shù)報告對此進(jìn)行了全盤解讀。
Ling 2.0的核心亮點清晰聚焦:依托高稀疏度混合專家設(shè)計、推理導(dǎo)向的數(shù)據(jù)流水線、多階段對齊策略,以及基于FP8的萬億級訓(xùn)練基礎(chǔ)設(shè)施,無一不是在為通用推理模型搭建具備可擴(kuò)展性的堅實技術(shù)底座。
當(dāng)我們將目光放大至整個行業(yè),可以發(fā)現(xiàn),大模型的競爭力正向用用最少的資源解決最多的場景問題轉(zhuǎn)變,而Ling 2.0面向模型架構(gòu)、預(yù)訓(xùn)練、后訓(xùn)練、基礎(chǔ)設(shè)施各個環(huán)節(jié)的深度融合創(chuàng)新,正在為其提高切實可行的技術(shù)路徑。
在這一背景下,圍繞Ling-min-2.0、Ling-flash-2.0、萬億參數(shù)非思考模型Ling-1T三款模型的具體性能,以及螞蟻新技術(shù)報告,我們將拆解大模型時代當(dāng)模型架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練策略與基礎(chǔ)實施深度融合后,模型智能會如何飛躍。
技術(shù)報告:https://arxiv.org/abs/2510.22115
Hugging Face開源主頁:https://huggingface.co/inclusionAI
一、每一次激活都提升推理能力!架構(gòu)、預(yù)訓(xùn)練、后訓(xùn)練、基礎(chǔ)設(shè)施全棧融合創(chuàng)新
參數(shù)規(guī)模達(dá)數(shù)千億乃至萬億參數(shù)的超大規(guī)模模型加速涌現(xiàn),其在大模型產(chǎn)業(yè)中的重要性與日俱增。
但伴隨模型向更高參數(shù)規(guī)模、更強(qiáng)模型能力突破的同時,仍面臨模型訓(xùn)練效率與成本的平衡、模型推理能力提升、長上下文處理、模型性能與評估體系迭代慢等多重關(guān)鍵問題。
針對這些痛點,Ling 2.0的核心解法就是“讓每一次激活都提升推理能力”,從而實現(xiàn)在稀疏激活下最大限度地提高推理精度和效率。而這一技術(shù)優(yōu)化的關(guān)鍵也就是推理環(huán)節(jié)的效率與精度兼顧的痛點,使得大模型訓(xùn)練在保證計算資源高效利用的同時,直接推動推理能力的提升。
大模型的實際性能表現(xiàn),是衡量其技術(shù)路徑優(yōu)劣最直接、最有力的證明。如今,基于Ling 2.0,螞蟻集團(tuán)已經(jīng)發(fā)布三款不同參數(shù)規(guī)模模型,160億參數(shù)規(guī)模的Ling-mini-2.0、1000億參數(shù)規(guī)模的Ling-flash-2.0以及萬億參數(shù)模型Ling-1T。
在效率層面,Ling 2.0系列模型中,Ling-mini-2.0每Token激活參數(shù)僅14億,其性能就可媲美百億參數(shù)級稠密模型,Ling-flash-2.0每次推理激活參數(shù)61億,就可媲美400億級稠密模型,激活計算效率約7倍。Ling 2.0模型實現(xiàn)了以更低計算成本,實現(xiàn)更高性能回報。
推理性能上,萬億規(guī)模模型上,Ling-1T每次推理激活約510億參數(shù),在2025年美國數(shù)學(xué)邀請賽AIME benchmark中,其突破了推理準(zhǔn)確率與推理長度的帕累托邊界,實現(xiàn)既支持更長文本、更多輪次的高效思考,又能保證復(fù)雜任務(wù)下答案的精準(zhǔn)求解,尤其在數(shù)學(xué)與編程任務(wù)中優(yōu)勢明顯。
與此同時,這三款模型還展現(xiàn)出了一致性,Ling 2.0系列模型參數(shù)規(guī)模從百億到萬億,性能也隨之穩(wěn)步提升,這一結(jié)果直接驗證了其架構(gòu)設(shè)計與訓(xùn)練策略的可擴(kuò)展性。
模型的實際表現(xiàn)證明,Ling 2.0 技術(shù)正在解決大模型推理效率與精度難以兼顧的核心矛盾中,持續(xù)創(chuàng)造價值,讓每一次參數(shù)激活都服務(wù)于推理能力提升,避免了無效計算。
通過對螞蟻這份新發(fā)技術(shù)報告的深度拆解,我們得以完整看清這一技術(shù)路徑的底層邏輯和關(guān)鍵原理。
二、模型架構(gòu):高稀疏MoE與Ling縮放定律
首先是模型架構(gòu),其作為核心支柱直接決定了模型性能上限。
在Ling 2.0中,研究人員采用了統(tǒng)一的MoE基礎(chǔ)架構(gòu),然后集成aux-loss-free負(fù)載均衡策略和多Token預(yù)測(MTP)進(jìn)一步提升性能,并通過Ling scaling law進(jìn)行精準(zhǔn)外推擴(kuò)展。
具體來看,其基于高稀疏度、細(xì)粒度的設(shè)計,使得每個模型配置256個路由專家,8個激活專家和1個共享專家,整體激活率約為3.5%。同時將三個模型的初始層分別指定為1層、1層和4層稠密層,這種方法可以在保持模型性能的同時減少總參數(shù)量,并提升路由平衡性。
![]()
▲Ling 2.0系列的模型架構(gòu)配置
底座搭建完成后,研究人員進(jìn)一步通過設(shè)計優(yōu)化提升其效率、性能、可擴(kuò)展性。
Ling 2.0的路由均衡策略遵循與DeepSeek-V3類似的設(shè)計,其無輔助損失均衡策略可同時促進(jìn)專家專業(yè)化和負(fù)載均衡,并應(yīng)用路由器門縮放提高訓(xùn)練穩(wěn)定性。
同時,Ling 2.0還原生集成MTP作為輔助訓(xùn)練目標(biāo),為每個模型規(guī)模引入一個MTP層,并將MTP損失權(quán)重設(shè)置為0.1,通過在Megatron訓(xùn)練框架內(nèi)為MTP模塊實現(xiàn)細(xì)粒度的流水線并行(PP)劃分,以降低MTP的性能開銷。
研究報告指出,研究人員最初就將訓(xùn)練萬億參數(shù)模型作為長期目標(biāo),因此從一開始就制定了Ling scaling law用于指導(dǎo)超參數(shù)與架構(gòu)的選擇。其關(guān)鍵作用包括,確定Ling 2.0的超參數(shù)與架構(gòu)配置,確保架構(gòu)效率接近最優(yōu)水平;提供標(biāo)準(zhǔn)化流程,僅需全量訓(xùn)練計算成本的 1%,即可驗證針對Ling 2.0的新想法與新興技術(shù)。
這就使得其計算結(jié)果可以更加可靠地被外推到規(guī)模超100倍的計算場景中,讓萬億級規(guī)模的模型落地能更加高效推進(jìn)。
其制定的統(tǒng)一EL縮放定律整合了計算預(yù)算(C)、激活率(A)和專家粒度(G)的影響:
![]()
研究人員的實驗結(jié)果顯示,與傳統(tǒng)消融實驗相比,Ling風(fēng)洞實驗(低成本實驗評估框架)的成本效益更高,其總計算成本僅為傳統(tǒng)方法的35%。
![]()
▲Ling風(fēng)洞實驗設(shè)計圖(a)及實例分析(b)
三、預(yù)訓(xùn)練:20T高質(zhì)量數(shù)據(jù)集與多階段訓(xùn)練策略
預(yù)訓(xùn)練相當(dāng)于為大模型打下扎實的基礎(chǔ)認(rèn)知,其核心在于讓模型學(xué)會通用知識和推理,同時為之后完成下游任務(wù)的快速微調(diào)、可擴(kuò)展性打基礎(chǔ)。
因此,數(shù)據(jù)集的質(zhì)量以及到底要怎么訓(xùn)練就是這一階段的關(guān)鍵。
在數(shù)據(jù)選擇與準(zhǔn)備階段,Ling 2.0的目標(biāo)是構(gòu)建高效的數(shù)據(jù)處理基礎(chǔ)設(shè)施和管理語料庫,廣泛涵蓋高質(zhì)量的通用數(shù)據(jù),包括但不限于常識、代碼、數(shù)學(xué)、多語言內(nèi)容等。
其數(shù)據(jù)種類多元化,既包括從網(wǎng)頁、書籍、論文和維基百科等海量多樣化數(shù)據(jù)集中獲取到的常識數(shù)據(jù),還包括主要增強(qiáng)通用推理能力的Ling代碼語料庫和數(shù)學(xué)語料庫,以及多語言數(shù)據(jù)、長上下文數(shù)據(jù)。
![]()
▲Ling數(shù)學(xué)語料庫實驗結(jié)果
訓(xùn)練策略是讓數(shù)據(jù)最大程度發(fā)揮價值的另一關(guān)鍵。
在此基礎(chǔ)上,研究人員在預(yù)訓(xùn)練和中期訓(xùn)練階段采用了多階段訓(xùn)練策略:在大規(guī)模通用語料庫上進(jìn)行通用預(yù)訓(xùn)練;在中等規(guī)模、特定任務(wù)語料庫上進(jìn)行中期訓(xùn)練。
![]()
▲Ling 2.0的預(yù)訓(xùn)練和中期訓(xùn)練階段
通用預(yù)訓(xùn)練階段,Ling 2.0消耗了大量數(shù)據(jù),以確保整體性能的穩(wěn)健性;中期訓(xùn)練階段其將上下文長度擴(kuò)展至128K,并通過引入思路鏈(CoT)數(shù)據(jù)預(yù)先激活模型的推理能力。
此外,在模型訓(xùn)練中期,提升訓(xùn)練有效性的關(guān)鍵手段是學(xué)習(xí)率(LR)衰減,但該方式存在明顯短板,既限制了訓(xùn)練過程的靈活性,又額外增加了調(diào)優(yōu)開銷。為解決這一問題,Ling 2.0系列創(chuàng)新采用WSM(預(yù)熱-穩(wěn)定-合并)調(diào)度程序,其核心改進(jìn)是用檢查點合并替代傳統(tǒng)的LR衰減,能提供更高的靈活性和可擴(kuò)展性。
為了讓預(yù)訓(xùn)練的質(zhì)量更可靠,研究人員將預(yù)訓(xùn)練從結(jié)果評估變成全流程可控,也就是不僅評估最終模型,還會在整個訓(xùn)練過程中持續(xù)監(jiān)控基礎(chǔ)模型的基準(zhǔn)性能。
這些綜合優(yōu)化設(shè)計之下,Ling 2.0不僅可以基于高質(zhì)量數(shù)據(jù)拔高基礎(chǔ)模型能力性能,還可以進(jìn)一步降低其訓(xùn)練與落地的成本。
四、后訓(xùn)練:分層優(yōu)化,編程、推理能力優(yōu)于多個主流模型
兼顧快速日常查詢和復(fù)雜需求準(zhǔn)確應(yīng)對,是Ling 2.0后訓(xùn)練階段的關(guān)鍵。
在這一層,研究人員采用了分離訓(xùn)練的監(jiān)督微調(diào)、進(jìn)化推理強(qiáng)化學(xué)習(xí)、人類偏好一致的群體競技獎勵結(jié)構(gòu)化三階段方法,并將其建立在可擴(kuò)展、高吞吐量的獎勵計算基礎(chǔ)設(shè)施之上。
![]()
▲Ling 2.0后訓(xùn)練流程
首先在第一階段,其引入了一種通過差異化系統(tǒng)提示構(gòu)建訓(xùn)練數(shù)據(jù)的監(jiān)督式方法解耦微調(diào)(DFT),使模型能夠建立專用的深度推理模式。
第二階段,Ling 2.0提出進(jìn)化思維鏈(Evo-CoT),可以向反射級非思維模型中灌輸自適應(yīng)推理,使它們能夠根據(jù)問題的復(fù)雜性擴(kuò)展推理深度。
第三階段,研究人員設(shè)計了群體競技場獎勵(GAR)機(jī)制和擴(kuò)展領(lǐng)域規(guī)則RubriX,提升主觀任務(wù)優(yōu)化的穩(wěn)定性, 最終實現(xiàn)技術(shù)層面準(zhǔn)確、且能自然貼合用戶意圖的生成效果。
這一階段,研究人員也充分引入了評估策略,其提出Apexeval,以獲得強(qiáng)化學(xué)修訓(xùn)練的最佳檢查點,從而有效地初始化強(qiáng)化學(xué)習(xí)。
![]()
▲基于Apexeval的Ling-mini-2.0模型檢查點選擇實驗
其評估結(jié)果顯示,Ling-mini-2.0、Ling-flash-2.0和Ling-1T在涉及編程、數(shù)學(xué)和推理等任務(wù)上的表現(xiàn)優(yōu)于大多數(shù)業(yè)界領(lǐng)先模型,在AIME 2025評測集上,Ling-1T在推理精度和效率上取得了比DeepSeek-V3.1、Kimi-K2、gemini 2.5 pro更優(yōu)的平衡。
![]()
五、基礎(chǔ)設(shè)施:面向萬億級模型訓(xùn)練進(jìn)行工程優(yōu)化
Ling-2.0算法架構(gòu)的創(chuàng)新提供了大模型低成本擴(kuò)展的理論路線,但與之匹配的基礎(chǔ)設(shè)施能力,直接決定大模型能否訓(xùn)得出來、跑得起來、用得好。其論文中提到,在沒有任何工程優(yōu)化的情況下,這種高度稀疏的MoE架構(gòu)在性能上并不優(yōu)于密集模型。
然而當(dāng)下構(gòu)建可支持萬億參數(shù)高效訓(xùn)練的基礎(chǔ)設(shè)施系統(tǒng)面臨顯著挑戰(zhàn),核心難點在于難以同時平衡成本控制與訓(xùn)練效率提升兩大需求。
因此,Ling 2.0針對此進(jìn)行了系統(tǒng)級的工程優(yōu)化,包括全量FP8訓(xùn)練、異構(gòu)細(xì)粒度流水線并行、分布式訓(xùn)練框架優(yōu)化,以及基于4C原則構(gòu)建大模型軟件工程。
![]()
具體來看,Ling 2.0采用細(xì)粒度的塊級FP8量化策略,激活和梯度以[1, 128]大小的塊進(jìn)行量化,權(quán)重以[128,128]大小的塊進(jìn)行量化。研究人員還針對交錯1F1B流水線策略存在的挑戰(zhàn)對PP框架進(jìn)行了優(yōu)化。
除了FP8訓(xùn)練和異構(gòu)調(diào)度,研究人員針對分布式訓(xùn)練框架進(jìn)行了包括節(jié)點內(nèi)DeepEP、引入多種融合算子、使用完全重新計算、長上下文訓(xùn)練等的優(yōu)化,以增強(qiáng)Ling 2.0訓(xùn)練的性能和穩(wěn)定性。
在Ling 2.0模型訓(xùn)練和分布式框架開發(fā)過程中,框架開發(fā)經(jīng)常成為模型訓(xùn)練的瓶頸,嚴(yán)重時甚至?xí)绊懹?xùn)練效果,因此,研究人員進(jìn)一步引入正確、一致、完整和協(xié)同設(shè)計的4C原則,以保證模型訓(xùn)練在降低相關(guān)成本的同時,能提高開發(fā)效率和交付質(zhì)量。
最后在模型評估層面,研究報告中,其基于OpenCompass重新設(shè)計了整個評估流程,與原始OpenCompass相比,每個檢查點的總評估時間減少了2/3以上。
這一系列的研究結(jié)果證明,MoE模型可以通過架構(gòu)、訓(xùn)練和基礎(chǔ)設(shè)施方面的協(xié)同創(chuàng)新,同時提升推理能力和計算效率。
結(jié)語:螞蟻集團(tuán)開源之路,開啟大模型高效推理時代
當(dāng)前大模型領(lǐng)域正從參數(shù)競賽轉(zhuǎn)向效率與性能的平衡,螞蟻集團(tuán)此前開源了諸多模型從輕量推理模型到萬億參數(shù)模型,Ling 2.0的技術(shù)報告又通過諸多技術(shù)細(xì)節(jié),清晰展示了模型規(guī)模與效率并非對立的技術(shù)路徑。
從其結(jié)果來看,這一策略為后續(xù)模型開發(fā)提供了可借鑒的范例,推動行業(yè)從單純的參數(shù)競賽轉(zhuǎn)向更注重效率和性能的發(fā)展路徑。





京公網(wǎng)安備 11011402013531號