近日,安謀科技(Arm China)發(fā)布了全新的中高算力NPU“周易”X3,作為安謀科技自研的第六代NPU IP,“周易”X3一個很顯著的特點是采用了專為大模型而生的最新DSP+DSA架構,即通用NPU(GPNPU)架構,旨在兼顧AI加速器對性能與通用性的需求。
![]()
從初代“周易”Z1 NPU到第五代“周易”X3 NPU,產(chǎn)品迭代大幅提升了性能、計算效率,也進行了架構的演進。“周易”NPU X3針對Transformer及當下主流大模型進行了架構升級,成為一款單Cluster支持8-80 FP8 TFLOPS算力且可靈活配置、單Core帶寬高達256GB/s的新一代邊端側AI NPU IP產(chǎn)品。
![]()
“周易”X3 NPU的推出,一方面體現(xiàn)AI技術日新月異,展現(xiàn)安謀科技始終站在邊緣和端側AI的最前沿不斷更新迭代。另一方面,也代表著AI加速器的競爭正處于“混亂”階段,CPU、GPU、NPU都在大幅提升其AI性能。
安謀科技Arm China NPU產(chǎn)品線負責人兼首席架構師舒浩博士對雷峰網(wǎng)表示,“AI計算架構現(xiàn)在處于‘混亂發(fā)展期,大家在從不同維度探索,最終一定會收斂到一個相對最優(yōu)的解決方案,這是任何技術發(fā)展都必經(jīng)的過程。當下是一個‘百花齊放、百家爭鳴’的時代。安謀科技會站在技術演進的潮頭不斷創(chuàng)新、持續(xù)演進,當好中國智能計算的生態(tài)領航者。”
為什么定義8-80 FP8 TFLOPS的NPU算力?
在芯片定義的早期,最關鍵也是最難的問題是到底要定義一款多大算力的芯片。“面對這一問題,我們首先要思考兩點:第一,我們要瞄準哪些領域和應用場景?第二,這些場景下產(chǎn)品對于NPU的系統(tǒng)約束是什么?”舒浩說,“針對邊端側的主流場景和產(chǎn)品形態(tài),我們進行了系統(tǒng)的分析和調研,定義了8-80 FP8 TFLOPS的產(chǎn)品算力規(guī)格。進而,針對不同領域和場景的需求,我們規(guī)劃了靈活可配的產(chǎn)品特性,可以靈活、快速地適配不同場景對于NPU算力的差異化需求。此外,針對當下主流大模型對于FP8數(shù)據(jù)格式的需求,我們也及時進行了算力規(guī)格的支持。”
![]()
可以看到,“周易”X3 NPU聚焦基礎設施、智能汽車、移動終端、智能物聯(lián)網(wǎng)四大核心領域,定義了8-80 FP8 TFLOPS的AI算力,可應用于加速卡、智能座艙、ADAS、具身智能、AI PC、AI手機、智能網(wǎng)關、智能IPC等AI設備。
![]()
全新的“周易”X3 NPU,相較于前代“周易”X2,CNN模型性能提升30%~50%,多核算力線性度達到70%~80%。在同算力規(guī)格下,AIGC大模型能力提升10倍,這得益于16倍的FP16 TFLOPS、4倍的計算核心帶寬,以及超10倍的Softmax和LayerNorm性能提升共同驅動。
安謀科技產(chǎn)品戰(zhàn)略總監(jiān)張冰表示,“‘周易’X3的8-80 FP8 TFLOPS的算力在邊端側是面向中大AI算力場景,和Arm的Ethos的小算力形成了互補,Arm+Arm China的產(chǎn)品組合可以覆蓋整個邊端側的AI算力需求。”
為什么是DSP+DSA的通用NPU架構?
明確了芯片面向的場景以及所需的算力之后,下一步我們需要確定這些領域所需的AI算法和網(wǎng)絡。通過系統(tǒng)地分析AI算法和網(wǎng)絡的成熟度、發(fā)展狀態(tài)以及在不同領域中的應用狀態(tài),這樣我們就可以進一步確定合適的技術路線。“周易”X3 NPU選擇的是DSP+DSA的架構,這使得“周易”X3可以同時滿足傳統(tǒng)CNN模型,以及最新的Transformer模型的需求,在計算效率、互連帶寬、精度適配、任務調度四大維度實現(xiàn)升級。
![]()
不過在數(shù)據(jù)類型的支持上,這款通用NPU呈現(xiàn)出一種看似“矛盾”的特性:一方面積極采用低比特量化以節(jié)省資源,另一方面又不吝資源地支持高精度的浮點數(shù)據(jù)格式。
“周易”X3 NPU新增端側大模型運行必備的W4A8/W4A16計算加速模式,新的計算加速模式對模型權重進行低比特量化,大幅降低帶寬消耗,支持云端大模型向端側的高效遷移。
而與此同時,“周易”X3 NPU支持全面的矩陣計算數(shù)據(jù)格式:int4/int8/int16/ fp4/fp8/fp16/bf16以及混合精度計算,增強了浮點運算FLOPS,可以實現(xiàn)從定點到浮點計算的轉換和兼容,同時滿足了傳統(tǒng)模型和大模型的計算需求。
對于端邊側的NPU來說,資源有限的情況下,業(yè)界在努力探索通過量化的方式在端側實現(xiàn)更好的AI體驗,“周易”X3 NPU為什么強調浮點數(shù)據(jù)格式的支持?
舒浩解釋道:“對于傳統(tǒng)模型來說,模型的能力已經(jīng)滿足了實際需求,這個時候大家的關注點會集中在模型效率和硬件計算效率上。針對這一類型的模型,業(yè)界會花更多的精力在量化等相關技術上,同時硬件層面也只要支持整形計算就可以滿足模型的要求,進而獲取更好的計算效率。但是,在大模型時代,目前整形數(shù)據(jù)格式還不能比較好地滿足模型對精度的要求,業(yè)界的趨勢是使用低精度的浮點數(shù)據(jù)格式和混合精度計算來做一個精度和效率之間權衡。同時,大模型網(wǎng)絡仍在快速發(fā)展和不斷演進之中,這個時候如何能夠更快速地進行網(wǎng)絡適配和端側部署是更為重要的一件事。因此,”周易” X3 NPU著重強調了對浮點數(shù)據(jù)格式以及混合精度計算的支持,其中包括了Deepseek率先使用的fp8數(shù)據(jù)格式。”
他補充道,“另外,針對大模型算法,單從技術上來講,我覺得現(xiàn)在業(yè)界沒有一個足夠高效和強大的網(wǎng)絡滿足應用的需求。無論是模型還是量化算法都還有很多的不確定性。在這個過渡期,量化數(shù)據(jù)格式并不知道最終會收斂于浮點還是定點,所以各種手段都要上,‘周易’X3就同時支持定點和浮點。”
支持浮點還有一個顯著的優(yōu)勢,通過剪枝、蒸餾、量化等一系列方式進行模型等輕量化,在端側部署時,會面臨模型精度下降帶來的體驗下降,浮點計算能帶來更高精度。
從系統(tǒng)層面上來說,這涉及到從模型、輕量化到硬件多個層面的復雜問題,“周易” X3 NPU的策略是提供相對全面的全棧優(yōu)化能力,將更多的優(yōu)化空間留給客戶。
舒浩也指出,“如果客戶是傳統(tǒng)領域,不需要全部的浮點類型,或者有的客戶只需要浮點計算,‘周易’X3 NPU都可以靈活配置,針對不同領域配置出相對最優(yōu)的NPU方案。”
![]()
同時支持更低比特的量化和浮點計算正是DSP+DSA架構的通用NPU的優(yōu)勢。舒浩博士分享,在計算架構的演進上, “周易” X3 NPU還將繼續(xù)沿著混合架構這個方向前進,在NPU中吸納更多CPU和GPU的思想,讓AI的應用可以更高效地運行在NPU上,最終衍生出真正面向AI的NPU計算架構。
“但這并不意味著NPU會替代CPU,CPU可以和NPU異構計算,承擔更復雜的任務和功能。”舒浩強調。
除了DSP+DSA的架構,“周易”X3 NPU在架構層面還有其他創(chuàng)新,包括集成自研解壓硬件WDC,這使大模型Weight軟件無損壓縮后通過硬件解壓能獲得額外15%~20%等效帶寬提升。
還有,“周易”X3 NPU集成AI專屬硬件引擎AIFF(AI Fixed-Function)與專用硬化調度器,能夠實現(xiàn)超低至0.5%的CPU負載與低調度延遲,靈活支持端側多任務場景和任意優(yōu)先級調度場景,確保高優(yōu)先級任務的即時響應。
借助新特性,“周易”X3 NPU讓大模型的推理更加高效,在Llama2 7B大模型實測中,“周易”X3 NPU在Prefill階段算力利用率高達72%,并在安謀科技自研的解壓硬件WDC的加持下,實現(xiàn)Decode階段有效帶寬利用率超100%,遠超行業(yè)平均水平,滿足大模型解碼階段的高吞吐需求。
為什么提供完備的軟件平臺?
“周易”X3 NPU計算效率的大幅提升和新特性的實現(xiàn),離不開軟硬件充分協(xié)同。
安謀科技Arm China產(chǎn)品總監(jiān)鮑敏祺指出:“‘周易’X3 NPU遵循‘軟硬協(xié)同、全周期服務與成就客戶’的產(chǎn)品準則,提供從硬件、軟件到售后服務的全鏈路支持。”
![]()
與“周易”X3 NPU配套的軟件平臺是“周易”Compass AI,這一完備的軟件平臺提供覆蓋開發(fā)全流程的工具鏈,平臺中的NN Compiler(神經(jīng)網(wǎng)絡編譯器)集成Parser(模型解析)、Optimizer(優(yōu)化器)、GBuilder(生成器)及AIPULLM(大模型運行工具),可實現(xiàn)主流模型的高效轉化、自動化優(yōu)化與部署配置生成,并且具備五大核心能力,包括:
廣泛的框架與模型支持:支持超160種算子與270種模型,兼容TensorFlow、ONNX、PyTorch、Hugging Face等主流AI框架,提供開箱即用的Model Zoo。
創(chuàng)新的Hugging Face模型“一鍵部署”:通過AIPULLM工具鏈,直接支持Hugging Face格式模型,實現(xiàn)“一站式”轉化與部署,極大降低開發(fā)門檻。
先進的模型推理優(yōu)化:實現(xiàn)業(yè)界領先的大模型動態(tài)shape支持,高效處理任意長度輸入序列;同時提供包括Tensor/Channel/Token Level多樣量化方式,以及GPTQ等大模型主流量化方案,并增加對LLM/VLM/VLA及MoE等模型的高性能支持,保障推理精度并實現(xiàn)云到端快速遷移。
靈活的開發(fā)者賦能:提供多種開放接口,支持用戶模型與自定義算子的開發(fā)與調試;配備豐富的調試工具與Bit精度軟件仿真平臺,支持多層次白盒開發(fā)與性能調優(yōu),極大簡化算法移植與部署。
全面的系統(tǒng)與異構兼容:支持Android、Linux、RTOS、QNX等多種操作系統(tǒng),并通過TVM/ONNX實現(xiàn)SoC異構計算,高效調度CPU、GPU、NPU等計算資源。
作為IP提供商,安謀科技為何要提供完備的軟件平臺?舒浩表示:“邊端側AI落地過程中,客戶需要投入大量的人力、物力進行模型適配、調優(yōu)和部署。如果沒有完備軟件平臺的支持,這會極大地增加客戶業(yè)務落地的難度和工作量。‘周易’ X3 NPU提供了完備的軟件棧支持和豐富的工具,可以有效幫助客戶加速AI業(yè)務的端側部署工作。‘周易’ X3 Compass端到端軟件平臺正是我們作為AI智能計算領航者一個很好的體現(xiàn)。作為一個開放的AI軟件生態(tài),‘周易’ X3 Compass軟件平臺可以幫助客戶降低工作量,提升開發(fā)效率,在此基礎上我們也開放了很多的軟件接口,客戶可以構建其差異化的AI系統(tǒng)解決方案,進而構建差異化的產(chǎn)品競爭力。”
![]()
這是否意味著對于使用“周易”X3 NPU開發(fā)芯片產(chǎn)品的芯片公司來說,甚至不用在軟件棧方面投入就可以給開發(fā)者使用?
舒浩解釋,如果是與AI強相關的軟件棧及標準模型,基本上客戶不需再投入,使用“周易” X3 Compass軟件棧就可以完成模型適配、調優(yōu)等各種工作。“我們的目標就是避免客戶對于這些組件的重復投入與開發(fā)。同時,這種情況下我們也不建議客戶進行額外的投入:因為NPU的軟硬件耦合非常緊密,只在軟件層面投入研發(fā),在對硬件沒有足夠的了解的情況下,很難獲取系統(tǒng)性有效的提升,這種投入可能是一個‘災難’。”
“另一方面,我們的‘周易’ X3 Compass AI軟件平臺在runtime(運行時)層面提供了更多的自定義接口,包括:自定義算子接口、自定義圖優(yōu)化接口、NPU驅動接口等,使用這些接口客戶可以根據(jù)SoC架構和軟件系統(tǒng)構建適合于自己的NPU軟件方案。”舒浩補充道。
由此可見,“周易”Compass AI軟件平臺完備的組件和工具,既可以滿足開發(fā)者白盒部署需求,支持更易用的DSL算子編程語言,開發(fā)者也可以在深度開發(fā)模式下,使用平臺中的Compiler、Debugge和DSL語言開發(fā)自定義算子,也可通過Parser、Optimizer等工具打造專屬的模型編譯器,極大提升開發(fā)效率。
一個能充分體現(xiàn)“周易”X3 NPU卓越硬件融合的例證是前面提到的AIFF模塊軟硬件設計中,硬件端充分結合軟件使用場景,通過增大總線帶寬、增加數(shù)據(jù)流水線并行及復雜算子加速等方式提升數(shù)據(jù)搬運、數(shù)據(jù)并行效率,軟件端則針對硬件特性設計專屬使用模式,如對模型進行合理切分以充分發(fā)揮多核并行優(yōu)勢。
All in AI戰(zhàn)略,安謀科技保持AI領導力
“周易”X3 NPU是安謀科技Arm China“All in AI”產(chǎn)品戰(zhàn)略下誕生的首款重磅產(chǎn)品,也是“AI Arm CHINA”戰(zhàn)略發(fā)展方向的關鍵實踐。
在這一戰(zhàn)略之下,安謀科技會大力投入NPU IP,保持業(yè)界領先地位,并以開放合作的態(tài)度積極適配主流模型和OS,致力于為客戶提供涵蓋硬件、軟件、技術服務的完整解決方案。
![]()
其實從過去五代“周易”NPU就能看出其領先性,接下來安謀科技的團隊還會關注PD分離在端側的衍生應用,存算一體以及3D IC等前沿半導體技術,保持在AI方面的持續(xù)投入和領先地位。雷峰網(wǎng)





京公網(wǎng)安備 11011402013531號