![]()
這項(xiàng)由中國(guó)科學(xué)技術(shù)大學(xué)深圳校區(qū)的張哲祥、王燁團(tuán)隊(duì),聯(lián)合中國(guó)電信人工智能研究院、深圳環(huán)大灣區(qū)研究院等多家機(jī)構(gòu)共同完成的研究,發(fā)表于2025年12月的arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2512.13525v2)。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢完整論文。
當(dāng)我們提到人工智能的發(fā)展,很多人會(huì)自然地想到那些能夠回答各種問(wèn)題的聊天機(jī)器人。但是,支撐這些智能系統(tǒng)運(yùn)行的底層技術(shù)——大型語(yǔ)言模型,正面臨著一個(gè)非常現(xiàn)實(shí)的挑戰(zhàn):如何在保證響應(yīng)速度的同時(shí),高效地利用計(jì)算資源。特別是那些被稱為"專家混合模型"(Mixture-of-Experts,簡(jiǎn)稱MoE)的先進(jìn)架構(gòu),就像一個(gè)擁有眾多專業(yè)技能的超級(jí)團(tuán)隊(duì),雖然能力強(qiáng)大,但管理起來(lái)卻異常復(fù)雜。
研究團(tuán)隊(duì)敏銳地觀察到,現(xiàn)有的AI模型推理系統(tǒng)就像一個(gè)管理混亂的大公司,所有部門都被強(qiáng)制使用相同的資源配置,無(wú)論是負(fù)責(zé)"理解"的注意力機(jī)制部門,還是負(fù)責(zé)"專業(yè)處理"的專家網(wǎng)絡(luò)部門。這種一刀切的管理方式導(dǎo)致了嚴(yán)重的資源浪費(fèi),就好比讓搬運(yùn)工和工程師使用完全相同的工具和工作空間一樣不合理。
為了解決這個(gè)問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為JANUS的創(chuàng)新系統(tǒng)。JANUS這個(gè)名字來(lái)源于古羅馬神話中雙面神雅努斯,象征著這個(gè)系統(tǒng)能夠同時(shí)面向兩個(gè)不同的處理任務(wù)——注意力計(jì)算和專家網(wǎng)絡(luò)計(jì)算,并為它們提供最適合的資源配置。
一、專家混合模型的運(yùn)行挑戰(zhàn)
要理解JANUS系統(tǒng)的創(chuàng)新之處,我們首先需要了解專家混合模型的工作原理。想象一個(gè)大型咨詢公司,公司里有數(shù)百名不同領(lǐng)域的專家,比如金融專家、法律專家、技術(shù)專家等等。當(dāng)客戶提出一個(gè)復(fù)雜問(wèn)題時(shí),公司不需要讓所有專家都參與,而是選擇最相關(guān)的幾位專家來(lái)處理。
專家混合模型就是按照這個(gè)思路設(shè)計(jì)的。以目前最先進(jìn)的DeepSeek-V3模型為例,它擁有256個(gè)專家,每處理一個(gè)詞語(yǔ)時(shí),只需要激活其中最相關(guān)的幾個(gè)專家。這種設(shè)計(jì)的巧妙之處在于,模型的總?cè)萘糠浅}嫶螅看螌?shí)際工作的部分相對(duì)較小,就像一個(gè)擁有眾多專家的咨詢公司,雖然專家?guī)旌艽螅總€(gè)項(xiàng)目只需要?jiǎng)佑貌糠謱<摇?/p>
然而,這種設(shè)計(jì)帶來(lái)了三個(gè)主要挑戰(zhàn)。首先是內(nèi)存壓力巨大。就像咨詢公司需要為所有專家準(zhǔn)備辦公室一樣,即使某個(gè)專家暫時(shí)不工作,他的辦公空間也不能被其他人占用。研究數(shù)據(jù)顯示,在DeepSeek-V3這樣的模型中,專家參數(shù)占據(jù)了整個(gè)模型內(nèi)存的93.7%,需要至少16塊H100 GPU才能完整加載。
其次是工作負(fù)載的動(dòng)態(tài)變化。在真實(shí)的應(yīng)用場(chǎng)景中,用戶的請(qǐng)求就像潮水一樣起伏不定,有時(shí)是高峰期,有時(shí)是低谷期,而且每個(gè)請(qǐng)求的復(fù)雜程度也不相同。現(xiàn)有系統(tǒng)很難靈活應(yīng)對(duì)這種變化,往往只能按照最高負(fù)載需求來(lái)配置資源,導(dǎo)致在低負(fù)載時(shí)期出現(xiàn)大量資源閑置。
第三個(gè)挑戰(zhàn)是注意力計(jì)算和專家網(wǎng)絡(luò)計(jì)算的需求完全不同。注意力機(jī)制就像是企業(yè)的總經(jīng)理,需要統(tǒng)覽全局,協(xié)調(diào)各部門的工作,它的計(jì)算特點(diǎn)是需要處理大量相互關(guān)聯(lián)的信息。而專家網(wǎng)絡(luò)更像是專業(yè)技術(shù)人員,每個(gè)專家專注于自己的領(lǐng)域,計(jì)算特點(diǎn)是內(nèi)存密集型的。把這兩類完全不同的工作放在相同的環(huán)境下,就像讓總經(jīng)理和技術(shù)工程師共用一間辦公室,效率自然不高。
研究團(tuán)隊(duì)通過(guò)深入的性能分析發(fā)現(xiàn)了一個(gè)重要規(guī)律:在目前的在線推理場(chǎng)景中,專家網(wǎng)絡(luò)的執(zhí)行時(shí)間幾乎完全取決于同時(shí)激活的專家數(shù)量,而不是具體激活了哪些專家或者處理多少數(shù)據(jù)量。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了生產(chǎn)線的關(guān)鍵瓶頸,為后續(xù)的優(yōu)化指明了方向。
二、JANUS系統(tǒng)的分工協(xié)作架構(gòu)
基于對(duì)問(wèn)題的深入理解,研究團(tuán)隊(duì)設(shè)計(jì)了JANUS系統(tǒng)的核心理念:讓注意力計(jì)算和專家網(wǎng)絡(luò)計(jì)算各自在最適合的環(huán)境中工作,就像讓不同類型的員工在最適合他們的辦公環(huán)境中發(fā)揮最大效能。
JANUS系統(tǒng)采用了分離式架構(gòu)設(shè)計(jì),將整個(gè)GPU集群分為兩個(gè)專門的子集群。注意力子集群專門負(fù)責(zé)處理注意力計(jì)算和管理用戶對(duì)話的歷史記錄,就像公司的管理部門,需要保持對(duì)全局信息的掌控。專家子集群則專門運(yùn)行各種專業(yè)的專家網(wǎng)絡(luò),就像公司的技術(shù)部門,每個(gè)GPU負(fù)責(zé)托管多個(gè)專家。
這種分離帶來(lái)了顯著的靈活性提升。過(guò)去,系統(tǒng)只能以整個(gè)模型為單位進(jìn)行擴(kuò)縮容,就像只能整體搬遷整個(gè)公司。現(xiàn)在,系統(tǒng)可以根據(jù)實(shí)際需求獨(dú)立調(diào)整兩個(gè)子集群的規(guī)模。當(dāng)用戶請(qǐng)求增多但問(wèn)題相對(duì)簡(jiǎn)單時(shí),可以主要擴(kuò)展注意力子集群;當(dāng)請(qǐng)求涉及復(fù)雜專業(yè)問(wèn)題時(shí),可以重點(diǎn)擴(kuò)展專家子集群。這種精細(xì)化的資源管理使得系統(tǒng)的資源利用率大大提升。
為了讓兩個(gè)子集群能夠高效協(xié)作,JANUS設(shè)計(jì)了一套巧妙的通信機(jī)制。傳統(tǒng)的做法就像每個(gè)部門的每個(gè)員工都要和其他部門的所有人直接溝通,這會(huì)造成信息傳遞的混亂。JANUS采用了"兩階段通信"的方法,先讓同一個(gè)節(jié)點(diǎn)內(nèi)的多個(gè)實(shí)例進(jìn)行內(nèi)部整合,然后再進(jìn)行跨節(jié)點(diǎn)的批量傳輸。這就像先在部門內(nèi)部開(kāi)會(huì)統(tǒng)一意見(jiàn),然后派代表參加跨部門會(huì)議,大大減少了溝通成本和時(shí)間延遲。
更巧妙的是,JANUS會(huì)根據(jù)實(shí)際的通信需求自適應(yīng)地選擇不同的傳輸策略。當(dāng)目標(biāo)節(jié)點(diǎn)較少時(shí),采用直接傳輸;當(dāng)需要大量數(shù)據(jù)交換時(shí),則采用中轉(zhuǎn)傳輸。這種自適應(yīng)機(jī)制確保了在各種工作負(fù)載下都能保持最優(yōu)的通信效率。
三、智能負(fù)載均衡調(diào)度算法
JANUS系統(tǒng)面臨的一個(gè)關(guān)鍵挑戰(zhàn)是如何在微秒級(jí)的時(shí)間內(nèi)做出最優(yōu)的專家調(diào)度決策。這就像是一個(gè)超級(jí)繁忙的調(diào)度中心,需要在極短時(shí)間內(nèi)決定哪些專家處理哪些任務(wù),既要保證工作質(zhì)量,又要避免某些專家過(guò)度勞累而其他專家閑置。
系統(tǒng)采用了一種名為"激活專家均衡調(diào)度"的算法。這個(gè)算法的核心思想是盡可能讓每個(gè)GPU上同時(shí)運(yùn)行的專家數(shù)量保持均衡,從而避免出現(xiàn)某個(gè)GPU因?yàn)閷<疫^(guò)多而成為整個(gè)系統(tǒng)的瓶頸。
調(diào)度過(guò)程就像一個(gè)高效的任務(wù)分配流水線。首先,系統(tǒng)會(huì)快速掃描一批待處理的數(shù)據(jù),識(shí)別出需要哪些專家參與。然后,對(duì)于那些只有一個(gè)副本的專家,系統(tǒng)會(huì)直接分配給對(duì)應(yīng)的GPU,沒(méi)有選擇余地。對(duì)于有多個(gè)副本的專家,系統(tǒng)會(huì)選擇當(dāng)前負(fù)載最輕的GPU來(lái)處理,這樣可以保持整體負(fù)載的均衡。
最后,系統(tǒng)會(huì)將原本的邏輯專家請(qǐng)求轉(zhuǎn)換為具體的物理專家分配,并將任務(wù)分發(fā)給相應(yīng)的GPU進(jìn)行并行處理。整個(gè)過(guò)程就像一個(gè)經(jīng)驗(yàn)豐富的項(xiàng)目經(jīng)理在短時(shí)間內(nèi)完成了任務(wù)分解、資源評(píng)估和人員分配的全過(guò)程。
為了達(dá)到微秒級(jí)的調(diào)度速度,JANUS做了兩個(gè)重要的設(shè)計(jì)決策。第一是將調(diào)度算法實(shí)現(xiàn)為GPU內(nèi)核程序,這樣可以避免CPU和GPU之間的數(shù)據(jù)傳輸延遲,就像把決策權(quán)直接下放到現(xiàn)場(chǎng),避免了層層匯報(bào)的時(shí)間消耗。第二是采用完全分布式的調(diào)度方式,每個(gè)GPU都獨(dú)立運(yùn)行相同的調(diào)度算法,由于算法是確定性的,所有GPU會(huì)得出相同的調(diào)度結(jié)果,這樣既避免了跨GPU的通信協(xié)調(diào)開(kāi)銷,又保證了調(diào)度的一致性。
研究團(tuán)隊(duì)的測(cè)試結(jié)果表明,即使在處理512個(gè)并發(fā)請(qǐng)求的高負(fù)載情況下,JANUS的調(diào)度開(kāi)銷仍然保持在100微秒以下,相比于專家網(wǎng)絡(luò)幾百微秒的執(zhí)行時(shí)間,這個(gè)開(kāi)銷幾乎可以忽略不計(jì)。
四、動(dòng)態(tài)專家管理和資源優(yōu)化
除了實(shí)時(shí)的負(fù)載調(diào)度,JANUS還實(shí)現(xiàn)了一套長(zhǎng)期的專家管理策略,就像一個(gè)智能的人力資源管理系統(tǒng),能夠根據(jù)業(yè)務(wù)需求的變化來(lái)調(diào)整專家團(tuán)隊(duì)的配置。
系統(tǒng)會(huì)持續(xù)監(jiān)控每個(gè)專家的使用頻率,發(fā)現(xiàn)一些專家經(jīng)常被需要,而另一些專家很少被調(diào)用。基于這個(gè)觀察,JANUS會(huì)為熱門專家創(chuàng)建更多副本,就像為受歡迎的醫(yī)生安排更多坐診時(shí)間。同時(shí),對(duì)于那些經(jīng)常同時(shí)被需要的專家組合,系統(tǒng)會(huì)盡量將它們分散到不同的GPU上,避免某個(gè)GPU因?yàn)槌袚?dān)過(guò)多相關(guān)專家而成為瓶頸。
這種動(dòng)態(tài)調(diào)整不僅考慮了專家的受歡迎程度,還考慮了專家之間的協(xié)作模式。比如,如果金融專家和法律專家經(jīng)常需要為同一個(gè)項(xiàng)目協(xié)作,系統(tǒng)就會(huì)確保不要把它們都放在同一個(gè)GPU上,這樣可以提高整體的并行處理能力。
在資源擴(kuò)縮容方面,JANUS實(shí)現(xiàn)了真正的細(xì)粒度管理。傳統(tǒng)系統(tǒng)只能以完整模型為單位進(jìn)行擴(kuò)縮容,就像只能整棟樓一起租或退租。JANUS可以獨(dú)立調(diào)整注意力子集群和專家子集群的規(guī)模,甚至可以在實(shí)例級(jí)別進(jìn)行調(diào)整,就像可以獨(dú)立調(diào)整辦公室的數(shù)量而不影響整棟樓的運(yùn)營(yíng)。
這種靈活性的價(jià)值在實(shí)際應(yīng)用中非常明顯。研究團(tuán)隊(duì)通過(guò)模擬真實(shí)工作負(fù)載發(fā)現(xiàn),相比于傳統(tǒng)的整體擴(kuò)縮容方式,JANUS的細(xì)粒度資源管理可以節(jié)省25%的GPU使用量,同時(shí)保持相同的服務(wù)質(zhì)量。
五、性能評(píng)估和實(shí)際效果
為了驗(yàn)證JANUS系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大量的實(shí)驗(yàn)測(cè)試。他們使用了包括DeepSeek-V2在內(nèi)的多個(gè)主流專家混合模型,在不同規(guī)模的GPU集群上進(jìn)行了對(duì)比測(cè)試。
測(cè)試結(jié)果令人印象深刻。在保證相同服務(wù)質(zhì)量的前提下,JANUS系統(tǒng)相比傳統(tǒng)的SGLang系統(tǒng)實(shí)現(xiàn)了最高3.9倍的單GPU吞吐量提升。這個(gè)提升主要來(lái)自于兩個(gè)方面:一是更高效的資源利用,二是更智能的負(fù)載均衡。
具體來(lái)說(shuō),在處理輕負(fù)載任務(wù)時(shí),JANUS會(huì)選擇最小的注意力配置(比如1個(gè)注意力實(shí)例配6個(gè)專家實(shí)例),將更多GPU資源集中用于專家處理,從而獲得更高的吞吐量。隨著負(fù)載增加,系統(tǒng)會(huì)逐步增加注意力實(shí)例的數(shù)量,始終保持最優(yōu)的資源配置比例。
在通信優(yōu)化方面,JANUS的兩階段通信機(jī)制相比直接通信減少了18%的延遲。這個(gè)改進(jìn)在高負(fù)載情況下尤為明顯,因?yàn)榇藭r(shí)跨節(jié)點(diǎn)的通信量很大,傳統(tǒng)的多對(duì)多通信會(huì)產(chǎn)生嚴(yán)重的網(wǎng)絡(luò)擁塞。
負(fù)載均衡調(diào)度的效果也很顯著。測(cè)試顯示,在沒(méi)有JANUS調(diào)度算法的情況下,不同GPU上激活專家數(shù)量的差異可能達(dá)到8個(gè),而使用JANUS后,這個(gè)差異降低到4個(gè)左右,有效減少了系統(tǒng)中的性能瓶頸。
更重要的是,JANUS在長(zhǎng)期運(yùn)行中展現(xiàn)出了出色的適應(yīng)性。研究團(tuán)隊(duì)使用真實(shí)的工作負(fù)載數(shù)據(jù)進(jìn)行了為期兩天的模擬測(cè)試,發(fā)現(xiàn)JANUS能夠根據(jù)負(fù)載的日常變化動(dòng)態(tài)調(diào)整資源配置,相比固定配置的傳統(tǒng)系統(tǒng)節(jié)省了25%的GPU資源消耗。
六、技術(shù)突破的意義和未來(lái)展望
JANUS系統(tǒng)的成功不僅僅是一個(gè)技術(shù)優(yōu)化的成果,更重要的是它代表了AI推理系統(tǒng)設(shè)計(jì)思路的重要轉(zhuǎn)變。從過(guò)去的"一刀切"資源管理,轉(zhuǎn)向"因材施教"的精細(xì)化管理,這個(gè)轉(zhuǎn)變對(duì)整個(gè)AI產(chǎn)業(yè)都有重要意義。
隨著AI模型規(guī)模的不斷增長(zhǎng),如何高效地利用計(jì)算資源已經(jīng)成為制約AI普及和發(fā)展的關(guān)鍵因素。JANUS提供的解決方案表明,通過(guò)深入理解不同計(jì)算模塊的特性,并為它們提供量身定制的運(yùn)行環(huán)境,可以顯著提升整體系統(tǒng)的效率。
這種設(shè)計(jì)思路也為未來(lái)的AI系統(tǒng)架構(gòu)提供了新的啟發(fā)。研究團(tuán)隊(duì)指出,JANUS的核心技術(shù)可以很容易地?cái)U(kuò)展到其他類型的AI模型中,比如支持不同的并行策略組合,或者適應(yīng)異構(gòu)硬件環(huán)境。在異構(gòu)硬件環(huán)境中,注意力計(jì)算可以分配給計(jì)算能力強(qiáng)的GPU,而專家網(wǎng)絡(luò)可以分配給內(nèi)存容量大的GPU,進(jìn)一步優(yōu)化資源利用效率。
研究團(tuán)隊(duì)還提到了JANUS與其他AI優(yōu)化技術(shù)的兼容性。比如,可以將預(yù)處理和解碼階段的分離技術(shù)與JANUS結(jié)合,在每個(gè)階段內(nèi)部再進(jìn)行注意力和專家的分離,形成更加精細(xì)的優(yōu)化策略。同樣,微批處理技術(shù)也可以很自然地集成到JANUS中,通過(guò)流水線方式讓注意力和專家模塊并行工作在不同的微批次上。
從產(chǎn)業(yè)發(fā)展的角度來(lái)看,JANUS系統(tǒng)解決的問(wèn)題具有很強(qiáng)的現(xiàn)實(shí)意義。當(dāng)前,訓(xùn)練和部署大型AI模型需要巨大的計(jì)算資源投入,這不僅推高了AI服務(wù)的成本,也限制了技術(shù)的普及范圍。JANUS這樣的優(yōu)化技術(shù)可以顯著降低AI服務(wù)的運(yùn)營(yíng)成本,使更多的企業(yè)和開(kāi)發(fā)者能夠負(fù)擔(dān)得起先進(jìn)的AI能力。
歸根結(jié)底,JANUS系統(tǒng)的成功證明了一個(gè)重要觀點(diǎn):在AI技術(shù)快速發(fā)展的今天,系統(tǒng)級(jí)的優(yōu)化創(chuàng)新同樣重要。通過(guò)深入理解AI模型的工作特性,設(shè)計(jì)出更加智能和高效的運(yùn)行框架,我們可以在不改變模型本身的情況下獲得顯著的性能提升。這種"軟硬結(jié)合"的優(yōu)化思路,為AI技術(shù)的持續(xù)發(fā)展和普及應(yīng)用開(kāi)辟了新的道路。
這項(xiàng)研究的成果已經(jīng)在開(kāi)源社區(qū)中得到了應(yīng)用,基于SGLang框架的JANUS實(shí)現(xiàn)為其他研究者和開(kāi)發(fā)者提供了實(shí)用的工具。隨著更多團(tuán)隊(duì)對(duì)這類技術(shù)的關(guān)注和改進(jìn),我們有理由相信,未來(lái)的AI推理系統(tǒng)將變得更加高效、靈活和經(jīng)濟(jì),為AI技術(shù)的廣泛應(yīng)用創(chuàng)造更好的條件。
Q&A
Q1:JANUS系統(tǒng)是如何提高AI模型推理效率的?
A:JANUS通過(guò)將注意力計(jì)算和專家網(wǎng)絡(luò)分離到不同的GPU子集群來(lái)提高效率。就像讓不同類型的員工在最適合的環(huán)境中工作,注意力部分專門處理全局協(xié)調(diào),專家部分專門處理專業(yè)任務(wù),避免了傳統(tǒng)系統(tǒng)中所有組件必須使用相同資源配置的浪費(fèi)問(wèn)題,從而實(shí)現(xiàn)最高3.9倍的性能提升。
Q2:JANUS的兩階段通信機(jī)制是怎么工作的?
A:JANUS的兩階段通信就像公司內(nèi)部先開(kāi)部門會(huì)議再開(kāi)跨部門會(huì)議。第一階段,同一節(jié)點(diǎn)內(nèi)的多個(gè)實(shí)例先進(jìn)行內(nèi)部數(shù)據(jù)整合,第二階段再進(jìn)行跨節(jié)點(diǎn)的批量傳輸。這樣可以減少小數(shù)據(jù)包的傳輸次數(shù),降低網(wǎng)絡(luò)延遲18%,特別是在高負(fù)載情況下效果更明顯。
Q3:為什么JANUS能節(jié)省25%的GPU資源?
A:JANUS實(shí)現(xiàn)了細(xì)粒度的資源管理,可以獨(dú)立調(diào)整注意力和專家模塊的資源配置,而不是像傳統(tǒng)系統(tǒng)那樣必須整體擴(kuò)縮容。當(dāng)工作負(fù)載變化時(shí),系統(tǒng)可以精確地只增加需要的部分,避免過(guò)度配置。通過(guò)智能的專家調(diào)度和動(dòng)態(tài)資源分配,在保持相同服務(wù)質(zhì)量的前提下顯著減少了資源浪費(fèi)。





京公網(wǎng)安備 11011402013531號(hào)