10月11日美國(guó)舊金山現(xiàn)場(chǎng)報(bào)道:
在Advancing AI 2024大會(huì)上,AMD正式發(fā)布了新款GPU加速卡“Instinct MI325X”。
它在大獲成功的MI300X基礎(chǔ)上再進(jìn)一步,主要是增強(qiáng)了HBM內(nèi)存部分。




MI325X配備了多達(dá)256GB HBM3E內(nèi)存,相比于MI300X又增加了64GB,還是八顆,但單顆容量從24GB增至32GB。
同時(shí),帶寬從5.3TB/s來(lái)到了6TB/s,同樣增加了大約13%,Infinity Fabric總線的帶寬則還是896GB/s。
性能方面倒是沒(méi)啥變化,還是FP16 1.3 PFlops(每秒1300萬(wàn)億次)、FP8 2.6 PFlops。
很自然的,核心規(guī)格也是原封不動(dòng):5nm XCD模塊搭配6nm IOD模塊,3.5D封裝,1530億個(gè)晶體管,304個(gè)計(jì)算單元。
不過(guò),AMD透露MI325X的功耗達(dá)到了1000W,相比MI320X增加了750W。


MI325X也支持八塊并行組成一個(gè)平臺(tái),這就有多達(dá)2TB HBM3E、48TB/s帶寬,總的性能高達(dá)FP16 10.4 PFlops(每秒1.04億億次)、FP8 20.8 PFlops(每秒2.08億億次)。
這個(gè)規(guī)模對(duì)比NVIDIA H200 HGX,分別有80%、30%、30%的優(yōu)勢(shì)。



對(duì)比NVIDIA H200,無(wú)論單卡還是八卡平臺(tái),不同大模型推理的性能都可以領(lǐng)先20-40%。
訓(xùn)練性能方面,單卡可領(lǐng)先H200 10%,八卡平臺(tái)則是持平。

MI325X加速卡和平臺(tái)將在四季度內(nèi)投產(chǎn),而合作伙伴的整機(jī)系統(tǒng)、基礎(chǔ)架構(gòu)解決方案,將從明年第一季度起連續(xù)推出。


GPU加速器這樣的產(chǎn)品要想成功,不但要有強(qiáng)大的硬件規(guī)格與性能,甚至更重要的還有兩點(diǎn),一是生態(tài)合作,二是軟件支持。
生態(tài)方面,AMD Instinct系列的“朋友圈”不斷壯大,領(lǐng)先的OEM整機(jī)廠商、云服務(wù)廠商、AI方案廠商都選擇了AMD,那些我們熟悉的行業(yè)巨頭名字都在這份越來(lái)越長(zhǎng)的名單中。
尤其是微軟、OpenAI、meta,都在部署越來(lái)越多的Instinct平臺(tái)。

軟件方面,AMD ROCm開(kāi)發(fā)平臺(tái)是一套完整的AI軟件堆棧,硬件之上,運(yùn)行時(shí)、編譯器、開(kāi)發(fā)工具、庫(kù)、AI框架、AI模型與算法一應(yīng)俱全。
AMD ROCm的進(jìn)化速度也在加快,新特性新功能不斷加入進(jìn)來(lái),不但已經(jīng)支持全部重要的AI框架與模型,還在不斷優(yōu)化對(duì)生成式AI的支持,包括新的算法、新的庫(kù)等等,對(duì)開(kāi)發(fā)者也越來(lái)越友好。


ROCm開(kāi)發(fā)平臺(tái)的性能也在不斷優(yōu)化提升,最新的6.2版本對(duì)比6.0版本,不同大模型的訓(xùn)練性能提升了1.7-1.9倍,平均約1.8倍;推理性能更是提升了1.9-2.8倍,平均約2.4倍。
這些都是無(wú)需升級(jí)硬件,完全靠軟件優(yōu)化得來(lái)的,可以說(shuō)是“白撿”。

同時(shí),AMD與開(kāi)發(fā)者社區(qū)一直保持著良好、深度的合作,也是最大的貢獻(xiàn)者之一,尤其是在PyTorch機(jī)器學(xué)習(xí)庫(kù)、Triton編程語(yǔ)言和編譯器上提供了及時(shí)、全面的支持。
AMD一直堅(jiān)持開(kāi)放開(kāi)源的原則,不但自己的諸多技術(shù)對(duì)外公開(kāi),還全力支持著開(kāi)源社區(qū),不斷壯大開(kāi)源的力量。


以MI300X為例,上機(jī)無(wú)需任何調(diào)試適配,就能支持超過(guò)100萬(wàn)個(gè)生成式AI模型,尤其是第一時(shí)間支持Llama 3.1/3.2等領(lǐng)先大模型的最新版本。
良好的支持當(dāng)然不僅僅是能用,更是好用,比如Llama 3 405B大模型上,MIX300X的延遲相比NVIDIA H100有著1.2倍的領(lǐng)先。

順帶一提,AMD近期還以6.65億美元的價(jià)格,完成了對(duì)歐洲最大的私人AI實(shí)驗(yàn)室Silo AI的收購(gòu),獲得了全面的端到端AI解決方案、約300名AI專家,勢(shì)必會(huì)大大增強(qiáng)AMD在歐洲的AI業(yè)務(wù)實(shí)力,分析人士認(rèn)為有望超越NVIDIA。
附MI325X官方精美圖賞——












京公網(wǎng)安備 11011402013531號(hào)