![]()
智東西
作者 云鵬
編輯 漠影
機器人走貓步引爆行業(yè)、舞蹈功夫如人類般絲滑;AI手機一句話訂外賣做報告、懂你所想知你所言;AI PC本地部署模型,打造超級端側(cè)智能體給企業(yè)提效降本;AI眼鏡智能識物、隨拍隨聊,智能汽車毫秒級實時分析路況……
今天,從AI手機、AI PC、AI穿戴、智能汽車到具身智能,AI從云端加速走向端側(cè)。
端側(cè)AI的發(fā)展正進入加速演進的新紀(jì)元,大模型向多模態(tài)方向發(fā)展,海量優(yōu)秀端側(cè)模型涌現(xiàn)、快速迭代,模型小型化、垂類化發(fā)展趨勢明顯,Agentic AI成為重要趨勢方向。
一系列變化給AI算力側(cè)帶來新的挑戰(zhàn)。
端側(cè)AI任務(wù)從早期單一語音識別發(fā)展至復(fù)雜環(huán)境感知、多模態(tài)交互等方向,AI計算工作的規(guī)模和復(fù)雜性顯著提升,能效優(yōu)化、安全架構(gòu)、軟硬件協(xié)同、標(biāo)準(zhǔn)化生態(tài)構(gòu)建,諸多問題擺在面前。
端側(cè)AI需要的不是單純的算力堆疊,而是效率優(yōu)先,行業(yè)需要一個綜合性、系統(tǒng)性、全局優(yōu)化且更加靈活、生態(tài)兼容性出色的算力底座。
在這樣的趨勢下,異構(gòu)計算模式成為主流方向,芯片設(shè)計正在從“通用計算”向“定制化異構(gòu)計算”轉(zhuǎn)變,其中具有獨特優(yōu)勢的NPU日益成為關(guān)鍵支撐部分。
![]()
昨日,安謀科技Arm China正式發(fā)布了專為端側(cè)大模型而生的最新一代NPU IP——“周易”X3,與Arm架構(gòu)CPU、GPU協(xié)同,組成異構(gòu)算力“更優(yōu)解”,直指端側(cè)AI落地行業(yè)關(guān)鍵痛點。
![]()
在安謀科技看來,新一代NPU是引領(lǐng)端側(cè)AI進化的關(guān)鍵。從全面的模型支持、通用的硬件架構(gòu)、成熟開放的軟件生態(tài)、出色的算力帶寬、優(yōu)化的能效面效到優(yōu)秀的擴展性和系統(tǒng)一致性,安謀科技給端側(cè)AI算力破局提供了“芯”路徑。
一、端側(cè)AI時代,NPU成異構(gòu)算力重要組成,“周易”劍指行業(yè)痛點
今天,端側(cè)AI的發(fā)展勢不可擋,其在響應(yīng)速度、數(shù)據(jù)安全、網(wǎng)絡(luò)依賴性、運行成本等方面均有明顯優(yōu)勢,但在端側(cè)AI的落地過程中所涌現(xiàn)出的問題和挑戰(zhàn)同樣不容忽視。
計算平臺基礎(chǔ)AI算力不足、存儲帶寬遇到瓶頸、終端設(shè)備的電池續(xù)航相對有限、散熱空間和散熱能力有限、模型適配同樣不夠完善。
在這樣的背景下,NPU(神經(jīng)網(wǎng)絡(luò)處理器)作為專為AI計算和機器學(xué)習(xí)而設(shè)計的重要計算單元,幾乎已經(jīng)成為今天各類端側(cè)AI設(shè)備實現(xiàn)優(yōu)秀AI體驗的“剛需”,在執(zhí)行當(dāng)下主流的端側(cè)AI推理任務(wù)時,能實現(xiàn)更高計算效率和更好的能效比。
在安謀科技看來,“周易”NPU團隊是驅(qū)動創(chuàng)新的核心引擎,NPU也一直是安謀科技的戰(zhàn)略核心產(chǎn)品。
從2018年開始,安謀科技就組建了國內(nèi)最早的NPU研發(fā)團隊之一,目前已經(jīng)交付了5代NPU,并實現(xiàn)了在終端領(lǐng)域的商業(yè)落地,研發(fā)團隊在硬件、軟件、工具工具、方案等方面均有技術(shù)積累。據(jù)稱“周易”NPU的研發(fā)和支持100%來自中國本土團隊。
![]()
今天,中國無疑是端側(cè)AI落地的橋頭堡,擁有著規(guī)模最大同時最具增長潛力的市場。我們看到,在AI手機、AI PC、AI眼鏡、智能汽車、具身智能等熱門終端賽道,頭部玩家?guī)缀蹙灾袊髽I(yè)占據(jù)主導(dǎo)。
我們看到,安謀科技背靠Arm架構(gòu)技術(shù)與生態(tài)系統(tǒng),將Arm CPU、GPU與安謀科技自研業(yè)務(wù)產(chǎn)品異構(gòu)融合,“周易”NPU作為更聚焦國內(nèi)市場需求的異構(gòu)計算解決方案,無疑會為國內(nèi)端側(cè)AI落地注入重要驅(qū)動力。
二、多年迭代沉淀,“周易”X3揭開面紗,軟硬深度協(xié)同是殺手锏
“周易”NPU歷經(jīng)多年迭代與技術(shù)沉淀,已構(gòu)建完整的硬件IP和Compass軟件平臺,涵蓋X系列與Z系列的多款產(chǎn)品。此次發(fā)布的“周易”X3,是安謀科技基于對當(dāng)前技術(shù)發(fā)展趨勢和行業(yè)需求痛點精準(zhǔn)研判,對NPU IP的一次重要升級。
具體來看,“周易”X3重點在性能和易用性進行了升級,定位是“專為大模型而生”,采用了最新的DSP+DSA架構(gòu),從定點轉(zhuǎn)向浮點計算,其最核心的特點是通用、靈活、高效、軟硬件緊密協(xié)同的計算架構(gòu)。
![]()
新的“周易”X3 NPU IP可以兼顧傳統(tǒng)CNN架構(gòu)與當(dāng)下主流的Transformer架構(gòu),可以滿足各類端側(cè)大模型的計算需求,進而加速Gen AI、Agentic AI與Physical AI在端側(cè)的落地。
硬件架構(gòu)方面,在關(guān)鍵性能提升上,“周易”X3單Cluster算力可以支持8-80TFLOPS(FP8),靈活可配,單核心帶寬最高為256GB/s,可以實現(xiàn)更高的數(shù)據(jù)吞吐量。
帶寬可以說是大模型流暢運行的“生命線”,是影響大模型響應(yīng)速度與性能的關(guān)鍵硬件指標(biāo),帶寬能力的大幅提升,其重要性不言而喻。
同時,“周易”X3還支持端側(cè)大模型必備的W4A8和W4A16計算加速模式,集成了 安謀科技自研的解壓硬件WDC,可以讓大模型Weight軟件無損壓縮后通過硬件解壓獲得額外約15%的等效帶寬,進而提升計算效率和計算密度。
此外,“周易”X3采用了AI專屬硬件引擎AIFF,配合專用硬化調(diào)度器,可以實現(xiàn)低至0.5%的CPU負(fù)載和低調(diào)度延遲,讓NPU在并行處理多項AI任務(wù)時可以更高效,實際AI應(yīng)用體驗更流暢。
軟件生態(tài)方面,“周易”Compass AI軟件平臺可以稱得上是“金牌輔助”,歷經(jīng)多輪迭代,從各個方面優(yōu)化了大模型端到端性能,提供統(tǒng)一的端到端工具鏈支持全系列“周易”NPU。
![]()
目前Compass AI軟件平臺已經(jīng)兼容了TensorFlow、ONNX、Pytorch等主流AI框架,有著出色的大模型動態(tài)Shape支持能力,同時支持GPTQ等大模型主流量化方案、Hugging Face模型庫,以及LLM、VLM、VLA、MoE等多種類型的模型。
在模型支持方面,“周易”X3支持的算子數(shù)量超過160個、支持的模型數(shù)量超過270個。在Compass AI軟件平臺的加持下,開發(fā)門檻顯著降低,進一步加速“周易”NPU生態(tài)的擴展。
面向廣大開發(fā)者,Compass AI平臺可以提供先進的量化和性能優(yōu)化算法,讓開發(fā)者充分優(yōu)化精度和性能。同時,平臺支持用戶模型和自定義算子等開發(fā)和調(diào)試,以及賦能客戶進行產(chǎn)品差異化設(shè)計,這些能力均與當(dāng)下開發(fā)者的關(guān)鍵訴求相一致。
總體來看,軟硬技術(shù)深度協(xié)同是“周易”X3的核心優(yōu)勢,其CNN模型性能相較上一代提升了30-50%。基于對各類大模型推理進行深度優(yōu)化,“周易”X3在相同算力規(guī)格下,AIGC大模型能力提升了10倍左右。
其多核算力線性度可以達(dá)到70-80%,大模型Prefill階段算力利用率提升至72%,Decode階段有效帶寬利用率在開啟安謀科技自研的解壓引擎WDC情況下超過100%,可以更充分地釋放硬件算力潛力。
可以說,“周易”X3給端側(cè)AI計算效率立了一個新的標(biāo)桿。
三、從AI手機、AI PC到智能座艙、具身智能,“周易”NPU生態(tài)迸發(fā)巨大潛力
此次在發(fā)布會現(xiàn)場的Demo展區(qū),我們看到基于“周易”NPU IP實現(xiàn)的諸多場景化落地解決方案,優(yōu)秀的端側(cè)AI體驗,正加速走向現(xiàn)實。
從“周易”Z1的AI人臉識別、AI物體識別、AI語音識別到“周易”Z2的圖像超分辨率優(yōu)化、智能座艙應(yīng)用,再到“周易”X1的AI圖像降噪、“周易”X2的文生圖、文搜圖AI應(yīng)用,我們看到“周易”系列NPU是持續(xù)迭代的,是能夠“進化”的,與技術(shù)發(fā)展緊密同步,與行業(yè)需求緊密結(jié)合。
![]()
這次在“周易”X3上,我們看到其在多模態(tài)方面的諸多AI應(yīng)用,比如在當(dāng)下業(yè)內(nèi)大火的AI視覺識物、AI讀懂世界方面,基于“周易”X3,AI PC本地運行MinicpM v2.6模型,可以實現(xiàn)隨時拍照隨時識圖,AI快速圖解各類事物。
![]()
從現(xiàn)場演示案例來看,AI對照片的描述是具體準(zhǔn)確的,可以給出“日落時寧靜的海灘景色”這類描述,甚至可以讀出圖中的一些“氣氛”、“意境”,對于沙灘、海浪和一些景物紋理、形狀都可以有比較具體的描述。
在經(jīng)典的文生圖應(yīng)用方面,基于“周易”X3,AI PC本地運行Stable Diffusion v1.5,可以實現(xiàn)流暢高質(zhì)量的端側(cè)文生圖,從演示案例來看,圖片的清晰度不錯,同時生成速度僅為“秒級”,AI可以幫助創(chuàng)作者更高效地將創(chuàng)意想法變?yōu)楝F(xiàn)實。
在基礎(chǔ)的文生文應(yīng)用中,我們看到“周易”X3可以支持端側(cè)運行DeepSeek-R1-Distill-Qwen-1.5B,AI對話的流暢度、tokens生成速度都有比較明顯的提升。
整體來看,相比前代產(chǎn)品,X3在性能方面的大幅提升以及生態(tài)方面的出色支持,帶來的最直觀效果就是AI應(yīng)用實際體驗的流暢度大幅提升,“又快又好”成為常態(tài)。
今天我們在現(xiàn)場看到的演示只是“冰山一角”,從加速卡、AI PC、AI手機、具身智能、智能座艙、ADAS(高級駕駛輔助系統(tǒng))到智能IPC等終端,聚焦端側(cè)各類場景的“周易”X3 NPU IP已經(jīng)可以覆蓋基礎(chǔ)設(shè)施、智能汽車、移動終端、智能物聯(lián)等領(lǐng)域。
![]()
展望未來,隨著AI行業(yè)發(fā)展,NPU潛力正愈發(fā)凸顯。Agentic AI快速發(fā)展、物理AI嶄露頭角,AI沿著這些重要路徑快速發(fā)展,端側(cè)AI領(lǐng)域涌現(xiàn)出諸多新藍(lán)海。
安謀科技提到,未來其“周易”NPU產(chǎn)品將繼續(xù)迭代,當(dāng)前計算架構(gòu)持續(xù)演進,更高效的通用計算能力、更強的計算擴展能力、更多的數(shù)據(jù)格式支持、更高效的軟件使用界面都將是后續(xù)NPU架構(gòu)未來演進的方向。
![]()
雖然技術(shù)發(fā)展的趨勢和方向在不斷調(diào)整,但性能、能效、時延、安全、成本等核心命題的重要性仍然不會變。
正如安謀科技所提到的,他們“要在不確定性中尋找確定性”,比如在低比特量化、浮點運算等方向持續(xù)推動,在提升產(chǎn)品核心能力的基礎(chǔ)上,保持產(chǎn)品出色的靈活性,以應(yīng)對復(fù)雜的行業(yè)挑戰(zhàn)和客戶對靈活性的高要求。
可以看到,今天的“周易”NPU基于自身獨特優(yōu)勢,面向端側(cè)AI加速落地的未來展現(xiàn)出巨大潛力。
結(jié)語:前瞻性布局端側(cè)AI,安謀科技用技術(shù)和生態(tài)領(lǐng)跑行業(yè)
今天,端側(cè)AI的浪潮正在重塑人機交互的未來,推動“千人千面”的實時智能深入千行百業(yè)。從計算IP、開源軟件棧、工具鏈到算法優(yōu)化,安謀科技有著Arm全棧技術(shù)生態(tài)支撐,加之自身出色技術(shù)創(chuàng)新能力,賦能國內(nèi)芯片賽道玩家抓住端側(cè)AI機遇。
專為端側(cè)大模型設(shè)計的安謀科技“周易”X3,憑借其專用化設(shè)計與軟硬件協(xié)同優(yōu)化能力,給端側(cè)AI應(yīng)用體驗帶來了一次躍遷升級,無疑將成為推動行業(yè)變革的核心技術(shù)底座。
多年來,安謀科技一直專注于核心IP設(shè)計,進行前瞻布局,解決客戶自研AI芯片的關(guān)鍵痛點。目前安謀科技的核心戰(zhàn)略發(fā)展方向已經(jīng)很明確,就是全力“All in AI”。
![]()
值得一提的是,從多年來的技術(shù)和產(chǎn)品布局來看,安謀科技對AI的全力以赴并非是追熱點,而是一種長期主義的堅持,做“正確但困難”的事情。在今天的中國,有這樣一群工程師,正“以硅為筆,以夢為墨”,書寫著中國智能計算的新故事。





京公網(wǎng)安備 11011402013531號