6月初的臺北電腦展上,AMD正式發布了基于新一代Zen 5架構的銳龍AI 300系列筆記本處理器、銳龍9000系列桌面處理器,均將在7月份上市。
當時,AMD比較罕見地大方公布了具體型號命名、規格參數(隔壁的Lunar Lake還只有架構和技術),不過關于新的CPU/GPU/NPU架構并沒有講太多,桌面上的新一代主板芯片組也只說了一個大概,算是留了一些懸念。

上周,AMD特意在美國舉辦了一場Zen 5 Tech Day技術活動,終于揭開了新架構的神秘面紗,并公布了更多性能數據、技術特性,尤其是新的處理器與內存超頻。
至于確切的上市時間,銳龍AI 300筆記本是7月28日,銳龍9000系列是7月31日。

Zen架構誕生于2017年,相比于此前的推土機架構IPC大幅提升52%,遠超當初設定的40%目標,在整個微處理器歷史上都是極為罕見的進步。
7年來,Zen架構不斷深入打磨,如今已經演化到第五代,是一次相當大幅度的變革,包括增加每時鐘周期指令數、拓展指令分派與執行帶寬、翻倍緩存數據帶寬、AI加速等等。
CPU架構設計是一個極為復雜的工程,哪怕是個升級版本。
Mike Clark已經在AMD工作了31年之久,如今是AMD院士、芯片設計工程師,也是歷年來Zen架構研發的靈魂人物,被稱為“Zen之父”(Father of Zen)、“Zen老爹”(Zen Daddy)。
他動情地表示,人們往往意識不到CPU架構設計有多難,需要多么漫長的時間,比如Zen 5的研發,就是全球多地大量的設計、驗證、軟件等團隊多年來全身心投入的心血結晶,它甚至已經融入了大家的血液之中,很多人吃飯甚至做夢的時候都想著它,而最終看到自己的努力開花結果,是一件相當了不起的事情。


Zen 5的三位設計師,左一為Mike Clark
接下來我們就看看Zen 5架構在不同模塊的變化,當然我們只能大略地講一講高級層面的,不涉及太深入的細節。
其實,現代CPU架構都有著成熟的體系,整體可分為前端、后端兩大部分,細分包括指令預取與解碼、整數執行、浮點執行、載入存儲、緩存等不同單元模塊。
除非出現完全顛覆性的計算體系,CPU架構設計師要做的,就是根據預設目標,確定不同單元模塊的規格規模,然后有機地組合為一個整體,發揮出最大效率,既不能造成浪費,也不能出現瓶頸。
就像一條水渠或者水管,一般情況下自然是水流量越大越好,但也不能一味地加寬加粗,從源頭到末端要整體協調一致,既不能讓水不夠了,也不能讓水堵住了,講究的就是一個平衡。

Zen 5的整體思路就是適當放大規模,很多地方甚至翻番,比如前端部分改成了雙預取、雙解碼流水線,可以更高效地處理各種負載,打個比方就是源頭水閘更開放,能釋放的水流量更足。
同時,分支預測也做了極大提升,吞吐量更大,精度更高,延遲更低,而且指令緩存的延遲和帶寬同樣得到了提升,就像是水渠也更寬敞了,面對更多的水流不會出現溢出情況。

整數執行單元加寬了指令的分派與執行通道,包括分派與引退增加到8個寬度,執行窗口增大,一體化ALU調度器數量更多,包括六個ALU與四個AGU。

浮點與矢量執行單元那部分,最核心變化就是在Zen 4架構引入AVX-512指令集的基礎上,從僅支持256位數據寬度,強化為支持完整的512位。
256位下的靈活性更高,因為不是所有的指令都需要用到512位這么寬,而現在加入512位滿血版之后,可長可短,可以在保持靈活性的同時,大大提升執行效率和性能。
更耐人尋味的是,Intel方面由于異構混合架構設計的緣故,新一代的Lunar Lake、Arrow Lake都不支持AVX-512,何時能夠回歸也不一定。
誰能想到,Intel當年的獨門武器,如今反而成了AMD的私房菜。
另外,浮點單元的流水線有6條,FADD指令的延遲只有2個時鐘周期。

載入存儲單元部分大大提升了數據帶寬,其中一級數據緩存容量從32KB增大到48KB,同時從8路增強為12路。
通往一級緩存、浮點單元的最大帶寬,也比上代翻了一番,并改進了相應的數據預取。

另外,數學加速單元的性能有了突飛猛進,單核心執行數學學習、AES-XTS指令的速度分別可提升最多32%、35%。
這有啥好處?當然是可以極大地加速AI運算的效率,更適應當下環境,特別是在EPYC處理器中搭配Instinct加速器,效果更是相得益彰。


憑借這一系列改進,Zen 5架構的IPC提升平均多達16%(可以理解為同頻性能提升),部分場景提升甚至高達35%。
其中貢獻最大的是指令執行與引退部分的改進,然后是數據帶寬、指令解碼與OP緩存的提升,最后是指令預取與分支預測的變化。
根據歷年的官方數據,Zen+、Zen 2、Zen 3、Zen 4相比前代的IPC提升平均幅度分別為3%、15%、19%、13%。
五代六個版本演進累積下來,Zen 5相比于初代Zen IPC平均提升幅度已經高達約85%!
別忘了頻率也在不斷拉高,初代最高只有4.0GHz,如今已經高達5.7GHz,提升幅度約43%。

產品方面,面向臺式機的銳龍9000系列,會使用純粹的Zen 5,還是CCD+IOD的組合。
CCD部分工藝從5nm升級為4nm,每個里邊最多8核心,總計最多16核心。
IOD部分沿用銳龍7000系列的,因此還是6nm,集成兩個RDNA 2架構的GPU圖形核心。

移動端的銳龍AI 300系列全部都是Zen 5、Zen 5c的組合,如上圖右下角部分,下方四個橙色調的是Zen 5,上方八個紫紅色調的是Zen 5c。
不同于Intel異構架構,Zen 5、Zen 5c還是完全相同的架構設計、IPC性能、ISA指令集,不同之處只是后者緩存更小、頻率更低(但能效更高)。
銳龍AI 300系列的制造工藝為4nm,和上代銳龍7000/8000系列一樣。

在數據中心端,第五代Turin EPYC將在今年下半年發布,使用先進的4nm、3nm工藝組合,這也是AMD第一次引入3nm。
Turin EPYC將升級到多達192核心384線程,新特性方面官方特別提到了基于Trust IO功能的AI加密,無疑可以更好地滿足當今的云端AI部署需求。

接下來,我們將會看到Zen 6、Zen 6c,后續的Zen 7也在研發之中,你猜都會用什么工藝?
憑借雄厚的積累,AMD在集顯領域一直獨領風騷,銳龍AI 300系列更是集成了專門設計的RDNA 3.5架構,并擴大了核心規模,新一代的Radeon 800M系列再上一個新臺階,根本找不到敵手。

RDNA 3.5在架構設計上自然承襲了RX 7000獨立顯卡使用的RDNA 3,并針對筆記本的應用場景需求做了三個方面的專門優化:
一是優化能效比。
比如,大多數通用紋理采樣操作的速率翻了一倍,大多數差值、對比用的富矢量指令集的速率也翻了一番,可以大大提升常規游戲中的紋理、著色性能。
二是優化內存性能(performance/bit)。
通過改進原語批處理,減少對系統內存的依賴和占用,效率也更高,特別是優化對LPDDR5內存的訪問和使用,此外還改進了壓縮技術、 降低了負載。
三是優化電池續航。
通過集成先進的電源管理機制,可以大大降低活躍狀態下的功耗,對筆記本更加友好。

按照官方說法,在同樣的15W功耗釋放下,Radeon 800M系列對比前代的3DMark理論性能,在Night Raid和Timespy項目中分別提升了多達19%、32%。
當然,理論跑分不等于實際游戲性能,但是OEM廠商也可以靈活設定功耗釋放,配合更高頻率的內存,進一步挖掘RDNA 3.5的潛力。

銳龍7040系列是全球第一款集成NPU AI獨立引擎的x86處理器,銳龍8040系列在此基礎上大幅提升性能。
目前,AMD已經積累了豐富的AI PC生態,硬件方面有宏碁、華碩、戴爾、惠普、聯想等各大品牌的支持,軟件方面發展了100多個AI優化功能,無論是Windows 11系統本身,還是Adobe、Black Magic、Blender、Topaz Labs、Webex、Zoom等頭部應用都已支持。
AMD預計今年會有150多家ISV軟件商支持AMD AI PC功能。


銳龍AI 300系列升級到了全新的XDNA 2架構,也是AMD的新一代NPU。
最直觀的變化,就是AI引擎單元從20個大幅增加到32個(分為四行八列),而每個單元內的MAC數量也翻了一番。
再加上板載內存容量增加1.6倍、Block FP16塊狀浮點格式支持、非線性增強支持、8條并發空間流(翻倍),算力從初代的10 TOPS大幅增加到50 TOPS (INT8和Block FP16)。
這是全球第一個達到如此高度的NPU,遠超Intel Lunar Lake、高通驍龍X Elite、蘋果M4等競品。

值得一提的是,XDNA 2不但增加了核心單元,還可以靈活分區使用,包括空間分區、時間分區。
空間分區適合并發實時模型,可以將不同列的核心單元分配給不同的任務,比如2個列負責實時視頻、2個列負責實時音頻、4個列負責App應用。
時間分區適合大模型,可以整體先后執行不同的任務,比如先全力處理LLM大語言模型,然后集體進行視頻編輯。
根據負載不同,XDNA 2可以按照一個或多個列分別開關(4/8/16/20/24/28/32),也就是輕度任務下能關掉部分核心,從而節省功耗,能效比初代提高了一倍。


對于AI應用來說,數據類型是至關重要的,XDNA 2架構行業首創支持了開放的Block FP16浮點格式,綜合了8位數據的性能、16位數據的精度。
它本質上也是一種16位格式,因此擁有非常接近傳統FP16(單精度)甚至是FP32(雙精度)的高精度,AMD官方數據顯示一般可以做到FP32格式的99.7%到100%,也就是幾乎無損,可以無縫銜接使用FP16、FP32、BF16訓練的模型,不需要額外的量化。
此外,Block FP16還有著類似9位格式的存儲空間、8位格式的吞吐性能,因此模型體積相比于FP16可減小足足44%,計算性能與INT8格式相當、是FP16的兩倍。

AMD宣稱,Llamav2 7B大模型用上銳龍AI 300系列、Block FP16格式,響應速度可以達到Intel酷睿Ultra 100處理器的整整5倍。


AMD現場就演示了銳龍AI 300處理器運行Llama 2 7B大模型時的RAG(檢索增強能力)。
比如直接問它AMD的新一代NPU架構的名字,因為沒有學習過,就會胡亂回答什么7nm RDNA,然后喂給它AMD在臺北電腦展上的演講,它立刻就能學習并給出正確的答案,不僅知道XDNA 2架構的名字,還知道它的新特性。


NPU能力的發揮,離不開開發平臺的支持,AMD也制定了長期、穩定的銳龍AI路線圖。
第三季度將有銳龍AI 1.2版本,正式支持Block FP16數據格式、C++ API,以及各種最新AI模型,比如Llama 2/3、通義千問1.5、Stable Diffusion XL-Turbo等等。
第四季度升級到1.3版本,擴展支持更多模型,并首次支持WSL Linux子系統。
明年第一季度繼續升級到1.4版本,首次帶來AMD一體化AI堆棧,并繼續為新的SOTA Gen模型進行優化。

AMD還舉了一個典型案例,能將手機作為專業攝像頭的免費軟件Camo,已經支持AMD NPU,而且得益于方便的銳龍AI開發套件,可以輕松將現有的ONNX運行模型從GPU集顯遷移到NPU上。

AMD還披露了下一代NPU的規劃,算力、能力進一步強化,可以直接處理大模型,更多接手和分擔CPU、GPU的工作。


銳龍9000系列首發四款型號的規格大家都已經有所了解,不再贅述了。
從定位上講,銳龍9 9900X、銳龍7 9700X、銳龍5 9600X對標的分別是i9-14900K、i7-14700K、i5-14600K。
至于旗艦級的銳龍9 9950X……寂寞無敵啊。
值得一提的是,之前有傳聞稱AMD有意提高銳龍7 9700X的功耗,從現有的65W開放到120W,從而在性能上超過銳龍7000X3D,但最終還是選擇了按兵不動。
畢竟,銳龍9000X3D也不遠了,而且按照AMD給出的數據,65W的銳龍7 9700X游戲性能已經領先于初代3D緩存版105W功耗釋放的銳龍7 5800X3D,而且功耗更低,這就夠了。

銳龍9000系列每一款型號的性能都比前代有了較大的提升,少則11%、多則22%不等,但更值得關注的是功耗反而更低了,除了旗艦銳龍9 9950X之外熱設計功耗都降低了一個檔次,銳龍7 9700X、銳龍5 9600X更是只有以往標準版的水平。
除了新架構、新工藝,這也得益于散熱能力的提升,官方表示改進了15%,因此還帶來了另一個好處,就是溫度更低,同等TDP下一般要低7℃左右。


超頻方面,AMD第二代支持DDR5內存,已經掌握得相當熟練,玩法更多了。
默認頻率支持為JEDEC 5600MHz,通過新的AGESA代碼和BIOS更新,可以輕松超到8000MHz。
新增內存實時超頻,可以在系統正常運行過程中,搭配內存優化性能配置檔案,隨時通過Ryzen Master軟件,一鍵超至自己需要的頻率,也可以隨時切換回來。
更進一步地,所有AM5平臺芯片組都會開放內存超頻,不做限制,當然超頻能力肯定會有所不同,具體要看主板相關設計。

處理器超頻的話,最方便的自然是直接打開PBO,交給系統自行處理,一般來說能輕松帶來6-15%的性能加持。

如果你動手能力比較強,要挖掘更多潛力,AMD也在繼承原有Curve Opitimizer的同時,提供了新的“Curve Shaper”。
Curve Shaper更進一步允許玩家最大化地調節降壓曲線,提供多達15組頻率/溫度組合(3種溫度+5種頻率),可以自行添加或刪除,但暫時還不支持自定義具體數值。
注意,這一設置適用于所有核心,不能單獨針對某個核心進行調節。

芯片組方面是新的AMD 800系列,旗艦型號是X870E,雙芯片,相比于X670E主要是標配USB4接口,支持更高DDR5 EXPO頻率。
X870簡化為單芯片,PCIe擴展會少一些,但是也會更便宜。
B850用于取代B650,顯卡升級支持PCIe 5.0。
B840是新增的低端型號,不支持處理器超頻,但可以超內存,顯卡和SSD都是PCIe 4.0,也不支持USB4,擴展通道只有PCIe 3.0。

不得不夸一下AMD接口的長壽命,實在良心——Intel Arrow Lake可是又要更換LGA 1851。
AM4經歷了長達9年的生命周期,累計發展出了145款CPU/APU處理器。
AM5剛剛進入第二代,已有產品38款,官方承諾將會延續到2027+年,比之前說的2026+年又多了一年。
銳龍AI 300系列更簡單,首發只有兩款型號,銳龍AI 9 HX 370、銳龍AI 9 365,關于它們的規格參數也不再重復。
可以確認的是,銳龍AI 9 HX 370包含4個Zen 5、8個Zen 5c核心,銳龍AI 9 365則是4個Zen 5、6個Zen 5c的組合。
AMD官方也確認,這種組合設計只用于筆記本移動端,不會用于桌面。這和Intel的大小核大相徑庭。




性能方面,AMD不僅對比了酷睿Ultra9 185H,更對比了勢態咄咄逼人的高通驍龍X Elite,無論CPU生產力、內容創作性能,還是GPU游戲性能,自然都不是對方可以媲美的,差距相當明顯。
特別是高通的ARM架構在Windows PC下面臨著難以根治的兼容性問題,在x86陣營超過60億臺Windows設備、超過10萬款Windows游戲、超過3500萬款Windows應用的生態面前不值一提,尤其是不少游戲甚至根本跑不起來。
新一代的Radeon 890M則憑借升級的RDNA 3.5架構、更多的核心單元(16個),已經可以在高畫質下流暢運行不少3A游戲。

AI方面,銳龍AI 300系列一方面與微軟密切合作,完全支持Windows 11 Copilot+的各項功能,包括回顧、視頻會議、實時翻譯、共同創作等,各大OEM廠商也在紛紛開發推廣各自的AI應用。
比如華碩的StoryCube、華擎的LiveArt、惠普的AI Companion、聯想的小天智能體等等。

更何況,AMD有著行業唯一的全鏈條AI平臺,從云側到邊緣計算,從企業到消費級,強大的CPU、GPU、NPU三位一體,可以帶來全范圍、無妥協的AI體驗。
銳龍AI 300系列,也必將是AI PC歷史上濃墨重彩的一筆。





京公網安備 11011402013531號