AI人工智能正進入洶涌浪潮的新時代。
無論是底層算力芯片硬件,還是中間層開發框架,又或者頂層應用生態,都呈現出了百花齊放、百舸爭流的無限活力,也常常會引發猜想和爭論:
到底誰才是適應未來潮流的最佳AI計算平臺?GPU是否真的讓其他所有計算芯片都黯然失色?新勢力如何崛起?傳統勢力如何激發活力?
近日,一年一度的Arm Tech Symposia年度技術大會在亞太五大城市巡回舉辦,尤其是在國內的上海、深圳兩站,帶來了4場主題演講、4場深度對話、13場生態伙伴技術演講、33場Arm專題技術演講、2場開發者工作坊,共有超過3500位行業專業人士、工程師、開發者參會探討。
從這次技術盛宴中,或許我們可以得到一些思考。


AI已經誕生超過半個世紀,不斷演進變革,如今更是迎來了全新的AI計算時代,極有潛力成為當代人類歷史上最重要的技術。
事實上,AI一直都在,包括看似普通的手機解鎖、影視特效、照片修復等等日常操作,都離不開AI的力量。
當然對許多人而言,ChatGPT的出現才讓AI真正爆發,真正觸達普通人的日常生活和工作,甚至是科學研究。
比如DeepMind最近使用AI預測蛋白質結構而榮獲諾貝爾化學獎,比如AI將臨床試驗的時間縮短高達50%,這些努力都將挽救難以計數的生命,提高人類生存質量。
在中國,AI更是有著無窮的潛力和廣闊的前景。有機構預測,到2026年底,中國的道路上將有100多萬輛搭載L3級別ADAS(高級駕駛輔助系統)的汽車。
在智能終端領域,預計到今年年底,中國將有1.7億臺以上支持AI的智能手機,55%的PC都會支持AI功能。

正是這些AI,在改變著我們與世界交互的方式,讓我們的生活更簡單、更安全,為更美好的未來奠定了基礎。
在技術上,AI比歷史上任何一項技術變革都需要更高的算力、更大的內存、更好的能效,需要將大量算力部署在極度受限的功耗環境中,而這正是Arm的強項。
歷史上,每一步計算技術的變革與轉型,都需要具備卓越性能、能效、擴展性的計算解決方案,能夠加速產品上市與普及,這正是面向未來的Arm計算平臺的核心特性。
如今說起AI計算,很多人都會下意識地想到GPU,想到NVIDIA,想到黃仁勛。
確實,老黃打造的一代又一代高性能GPU,算力無可匹敵,生態更是牢不可破,一直是AI大模型訓練、AI計算加速的首選方案,老黃甚至多次得意地宣稱“GPU將會徹底取代CPU”。
不過說實話,老黃自己內心肯定也明白,這不過是宣傳話術,他自己都不信,不然為什么還要費心費力打造Arm架構的Grace CPU來搭配GPU加速器組成完整的服務器?為什么還一直念念不忘要進入AI PC CPU市場?
誠然,GPU算力最強,還不斷涌現各種AI加速芯片方案,NPU、TPU、ASIC、FPGA等都在爭奪一席之地,但是幾十年來,CPU的核心中樞地位從未改變。
在某個特定方面,CPU肯定不如五花八門的加速芯片,但它強就強在通用性和適應性,什么都能做,而且就像個指揮家,可以調動、聯合任何其他硬件,滿足各種各樣的AI計算所需,發揮最高效率與能效。
更何況,CPU本身也在不斷自我革新進化,計算性能突飛猛進,可以靈活地滿足各種計算與控制需求。

那么,AI計算時代,我們需要什么樣的CPU?
Arm 基礎設施事業部產品解決方案副總裁Dermot O’ Driscoll指出,AI需求龐大,促使我們重新思考如何打造計算要素,同時我們正面臨全新的需求,無是算力、性能、能效,還是上市時間,需求都在不斷提升,因此我們需要重新思考一切。

構建計算的方式也必須隨之演變。芯片不再是單一的模塊或組件,這樣無法充分釋放性能和能效,需要整體的解決方案,需要深度的集成,需要充分的功能協作,從而實現更低的延遲、更高的帶寬、更高的能效。
為了充分滿足未來AI計算所需,我們需要強大、彈性的計算平臺,需要釋放足夠的性能與能效,需要豐富、易用的開發工具,需要打造廣闊的生態,需要方案快速上市落地。
基于這樣的思考,Arm正在AI計算時代重塑自己,重塑整個行業。
Arm CPU歷史源遠流長,憑借其優秀強大的架構設計、豐富靈活的技術特性、超高的能效,已經進入我們工作生活的方方面面,幾乎無所不在。
從智能手機到消費電子,從智能家居到智能汽車再到智能物聯網,乃至從服務器到PC,到處都可以看到Arm芯片的影子。
迄今為止,合作伙伴基于Arm架構的芯片,出貨量已超過3000億顆!
如今,Arm已經不再是單一的芯片IP提供商,而是成功轉型成為綜合性的計算平臺公司,特別是通過架構創新、軟硬件深度融合,在這個AI時代持續引領計算的變革。
可以說,未來十年的Arm計算平臺,都將持續為AI而優化,而所有這些功能將通過軟硬件能力的結合來實現。

為了適應新的計算發展需求,Arm傾力打造了Arm計算子系統(CSS),采用更全面的系統級設計思維,針對服務器、客戶端、汽車等不同應用市場都有對應的解決方案,服務于整個生態系統。
CSS特別強調硬件與軟件的協同優化,尤其是擴展了底層技術,以滿足不斷演化的AI計算需求。

早在十多年前,Arm就已經悄然將AI功能引入Arm架構,Armv8架構又首次引入了64位技術,大大強化了計算能力。
不過,真正開啟AI時代的,還是新一代的Armv9,經過多年連續投資與演化,又加入大量以AI為核心的功能,使得這一架構更加適用于未來發展,而這一進程還在持續。
Armv9架構有兩大關鍵技術:
一是可伸縮向量擴展(SVE/SVE2),允許靈活的向量長度實現,使其能夠在現在或將來的多應用場景下實現伸縮,允許CPU設計者自由選擇向量的長度來實現。
已應用于一些領先的計算產品,
二是可伸縮矩陣擴展(SME),為開發者提供通用指令集,能夠一次在多個硬件平臺上實現Arm架構中的加速效果。

目前,Armv9架構和相關技術已經在大量產品中逐步落地,比如阿里巴巴的倚天710處理器,支撐著阿里倚天ECS的底層架構,可提供3.0GHz的高主頻、雙路256核心的高計算密度、空間節省50%的1U緊湊設計,等等。
再比如聯發科的新一代天璣9400處理器,可利用SVE2加速工作負載,尤其是提升視頻和圖像處理,提供更好的照片質量。
Arm終端事業部產品管理副總裁James McNiven強調,Armv9作為最新的技術架構,設計伊始就是為支撐AI計算而生的,并且持續迭代更新,通過SVE、SVE2、SME等關鍵技術,不斷優化AI計算體驗,實現卓越的AI性能。

有了堅實的硬件,就相當于蓋好了房子,而要想得到舒適的居住與生活體驗,離不開精致的裝修與布置,只有強大、全面、易用的開發,以及豐富、好用的軟件體驗,才能將硬件實力全部發揮出來,才能真正讓人們感受到技術的進步,讓生活和工作都更加美好。
如果沒有良好的軟件支持,再好的硬件也毫無意義,我們也見過一些令人驚艷的硬件,但由于軟件表現不佳,甚至根本沒有軟件支持,結果沒能發揮潛力。
業界趨勢的變化,也充分說明了這一點,比如創業公司在AI浪潮前后在硬件和軟件工程師的比例呈現了很大的變化。
Arm認為,更多的硬件帶來更龐大的軟件需求,而這樣的需求又將進一步敦促硬件能力的提升,形成一個正向循環。

多年來,Arm平臺匯聚了超過2000萬的全球優秀開發者,積累了深厚的開發經驗,而在AI時代,Arm更是適時打造了一整套的統一開發工具鏈,全面覆蓋云側、邊緣側、端側等各個領域,為開發者提供強大支持。
Arm希望開發者不需要關心技術如何實現,而是專心思考想要開發什么,為此抽象化了許多硬件相關的技術細節,真正實現對開發者友好的設計,讓他們能專注于打造優秀的軟件與簡單的整合。

因此,Arm推出了Arm全面設計(ATD)生態合作平臺,整合晶圓制造廠商、固件開發廠商、IP供應廠商、EDA設計廠商、芯片設計廠商等整個產業鏈,幫助生態系統合作伙伴專注于各自擅長的領域,更快、更具成本效益地開發出更好、更強大的產品。
截至今年10月,剛剛推出一年的ATD,生態企業已快速增加到30家,產品設計也在加速,尤其是基于Neoverse N系列或V系列計算子系統(CSS),以及采用chiplet芯粒設計的方案。
值得一提的是,聯發科也在今年6月加入了ATD,預示著聯發科也有望提出自己的Arm服務器芯片產品,還有傳聞稱聯發科正在準備進入PC市場,芯片底層架構自然還是Arm。

說到PC,基于Arm架構的AI PC也正在興起,比如高通的驍龍X Elite/Plus系列就掀起了一股新的浪潮。
對于大家最關心的Arm架構AI PC軟件生態問題,進展也是相當神速,無論是開發者工具,還是原生應用,都在日益豐富,滿足人們的日常生活和工作已經問題不大,當然空間依然是巨大的。

聯想全球中小企業產品和解決方案總經理鄭愛國指出,聯想將Windows on Arm(WoA)視為一項前瞻性的長期戰略布局,一方面不斷投入打造領先的產品,另一方面繼續與包括Arm、微軟在內的眾多合作伙伴攜手,共同推進生態的繁榮發展,為用戶帶來更多元化、更高質量的產品體驗。

Arm還與開源社區有著持續的良好合作,特別是在中國市場,Arm與龍蜥社區、歐拉社區、OpenCloud OS等都有合作。
Arm 中國區業務全球副總裁鄒挺表示,“支持全球開源社區是確保軟件在基于 Arm 技術硬件上“開機即用”的重要一環。Arm 投入了大量的工程資源與時間用以支持開源項目,并通過持續擴大開源合作伙伴關系,為全球軟件開發者提供更多訪問資源,以助力其實現更高性能。”
本次大會上,阿里云智能集團研發副總裁、龍蜥社區理事長馬濤就分享了阿里云專為云原生時代設計的處理器Anolis 23,并闡述了阿里云的AI思考、異構計算概念,以及如何結合軟硬件協同優化的方式、開源社區的眾測共創,有效應對AI時代的復雜挑戰。

此外,Arm還在構建AI框架、AI軟件庫、AI技術——KleidiAI。
它能確保全球領先的AI框架,可以快速運行在Arm平臺上,釋放最佳性能,而且當新的AI模型發布時,需要額外的工作,就可以第一時間運行并展現良好性能。
比如,在基于Arm架構的AWS Graviton處理器上運行Llama 3大模型時,詞元(token)首次響應時間可提高2.5倍。

可說,無論現在還是未來,Arm CPU都將是AI運行的基石,同時結合Arm面向基礎設施、汽車、終端等多個市場推出的Arm計算子系統、Arm全面設計,以及強大的Arm生態優勢,Arm已成功轉型為面向未來的應用廣泛且至關重要的計算平臺技術提供商。
預計到2025年底,全球將有超過1000億臺具備AI能力的Arm設備,為AI的深入普及提供堅實支持。



京公網安備 11011402013531號