AMD發(fā)布新GPU加速卡Instinct MI325X：八卡2TB HBM3E、FP8性能超每秒2億億次

IP屬地中國(guó)·北京 編輯：吳俊驅(qū)動(dòng)之家 時(shí)間：2024-10-11 08:06:26

10月11日美國(guó)舊金山現(xiàn)場(chǎng)報(bào)道：
在Advancing AI 2024大會(huì)上，AMD正式發(fā)布了新款GPU加速卡“Instinct MI325X”。
它在大獲成功的MI300X基礎(chǔ)上再進(jìn)一步，主要是增強(qiáng)了HBM內(nèi)存部分。
MI325X配備了多達(dá)256GB HBM3E內(nèi)存，相比于MI300X又增加了64GB，還是八顆，但單顆容量從24GB增至32GB。
同時(shí)，帶寬從5.3TB/s來(lái)到了6TB/s，同樣增加了大約13％，Infinity Fabric總線的帶寬則還是896GB/s。
性能方面倒是沒(méi)啥變化，還是FP16 1.3 PFlops(每秒1300萬(wàn)億次)、FP8 2.6 PFlops。
很自然的，核心規(guī)格也是原封不動(dòng)：5nm XCD模塊搭配6nm IOD模塊，3.5D封裝，1530億個(gè)晶體管，304個(gè)計(jì)算單元。
不過(guò)，AMD透露MI325X的功耗達(dá)到了1000W，相比MI320X增加了750W。
MI325X也支持八塊并行組成一個(gè)平臺(tái)，這就有多達(dá)2TB HBM3E、48TB/s帶寬，總的性能高達(dá)FP16 10.4 PFlops(每秒1.04億億次)、FP8 20.8 PFlops(每秒2.08億億次)。
這個(gè)規(guī)模對(duì)比NVIDIA H200 HGX，分別有80％、30％、30％的優(yōu)勢(shì)。
對(duì)比NVIDIA H200，無(wú)論單卡還是八卡平臺(tái)，不同大模型推理的性能都可以領(lǐng)先20-40％。
訓(xùn)練性能方面，單卡可領(lǐng)先H200 10％，八卡平臺(tái)則是持平。
MI325X加速卡和平臺(tái)將在四季度內(nèi)投產(chǎn)，而合作伙伴的整機(jī)系統(tǒng)、基礎(chǔ)架構(gòu)解決方案，將從明年第一季度起連續(xù)推出。
GPU加速器這樣的產(chǎn)品要想成功，不但要有強(qiáng)大的硬件規(guī)格與性能，甚至更重要的還有兩點(diǎn)，一是生態(tài)合作，二是軟件支持。
生態(tài)方面，AMD Instinct系列的“朋友圈”不斷壯大，領(lǐng)先的OEM整機(jī)廠商、云服務(wù)廠商、AI方案廠商都選擇了AMD，那些我們熟悉的行業(yè)巨頭名字都在這份越來(lái)越長(zhǎng)的名單中。
尤其是微軟、OpenAI、meta，都在部署越來(lái)越多的Instinct平臺(tái)。
軟件方面，AMD ROCm開(kāi)發(fā)平臺(tái)是一套完整的AI軟件堆棧，硬件之上，運(yùn)行時(shí)、編譯器、開(kāi)發(fā)工具、庫(kù)、AI框架、AI模型與算法一應(yīng)俱全。
AMD ROCm的進(jìn)化速度也在加快，新特性新功能不斷加入進(jìn)來(lái)，不但已經(jīng)支持全部重要的AI框架與模型，還在不斷優(yōu)化對(duì)生成式AI的支持，包括新的算法、新的庫(kù)等等，對(duì)開(kāi)發(fā)者也越來(lái)越友好。
ROCm開(kāi)發(fā)平臺(tái)的性能也在不斷優(yōu)化提升，最新的6.2版本對(duì)比6.0版本，不同大模型的訓(xùn)練性能提升了1.7-1.9倍，平均約1.8倍；推理性能更是提升了1.9-2.8倍，平均約2.4倍。
這些都是無(wú)需升級(jí)硬件，完全靠軟件優(yōu)化得來(lái)的，可以說(shuō)是“白撿”。
同時(shí)，AMD與開(kāi)發(fā)者社區(qū)一直保持著良好、深度的合作，也是最大的貢獻(xiàn)者之一，尤其是在PyTorch機(jī)器學(xué)習(xí)庫(kù)、Triton編程語(yǔ)言和編譯器上提供了及時(shí)、全面的支持。
AMD一直堅(jiān)持開(kāi)放開(kāi)源的原則，不但自己的諸多技術(shù)對(duì)外公開(kāi)，還全力支持著開(kāi)源社區(qū)，不斷壯大開(kāi)源的力量。
以MI300X為例，上機(jī)無(wú)需任何調(diào)試適配，就能支持超過(guò)100萬(wàn)個(gè)生成式AI模型，尤其是第一時(shí)間支持Llama 3.1/3.2等領(lǐng)先大模型的最新版本。
良好的支持當(dāng)然不僅僅是能用，更是好用，比如Llama 3 405B大模型上，MIX300X的延遲相比NVIDIA H100有著1.2倍的領(lǐng)先。
順帶一提，AMD近期還以6.65億美元的價(jià)格，完成了對(duì)歐洲最大的私人AI實(shí)驗(yàn)室Silo AI的收購(gòu)，獲得了全面的端到端AI解決方案、約300名AI專家，勢(shì)必會(huì)大大增強(qiáng)AMD在歐洲的AI業(yè)務(wù)實(shí)力，分析人士認(rèn)為有望超越NVIDIA。
附MI325X官方精美圖賞——

免責(zé)聲明：本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系我們，本站將會(huì)在24小時(shí)內(nèi)處理完畢。

同類資訊

黑芝麻智能：快速增長(zhǎng)背后，全維度競(jìng)爭(zhēng)

OpenAI最強(qiáng)代碼模型GPT-5.2-Codex上線

存儲(chǔ)成本飆升沖擊全球手機(jī)市場(chǎng)：明年均價(jià)上漲6.9%！所有廠商出貨量下跌

最強(qiáng)編程模型！OpenAI發(fā)布GPT-5.2-Codex

vivo S50 Pro mini實(shí)拍：mini小直屏，長(zhǎng)焦Live搭滿血性能鐵三角

12國(guó)外交官組團(tuán)體驗(yàn)阿里千問(wèn)APP：60秒生成PPT驚艷全場(chǎng)

全站最新

黑芝麻智能：快速增長(zhǎng)背后，全維度競(jìng)爭(zhēng)

OpenAI最強(qiáng)代碼模型GPT-5.2-Codex上線

存儲(chǔ)成本飆升沖擊全球手機(jī)市場(chǎng)：明年均價(jià)上漲6.9%！所有廠商出貨量下跌

最強(qiáng)編程模型！OpenAI發(fā)布GPT-5.2-Codex

熱門(mén)推薦

大眾汽車歡迎歐盟放寬2035年汽車排放規(guī)則之舉

?捷達(dá)汽車科技公司成立，地方國(guó)資產(chǎn)業(yè)基金持股逾26%

中國(guó)成為《瘋狂動(dòng)物城2》全球最大票倉(cāng)

華為系具身初創(chuàng)企業(yè)「具腦磐石」與紐泰格科技集團(tuán)達(dá)成戰(zhàn)略合作

寧德時(shí)代等成立國(guó)聯(lián)芯材科技公司# 注冊(cè)資本約1.7億

銀河通用機(jī)器人完成超3億美元新一輪融資

VITURE Pro在德國(guó)被禁售

康師傅飲品投資公司董事長(zhǎng)變更

2025國(guó)內(nèi)「年度字詞」為「深度求索（DeepSeek）」

奇瑞汽車等成立新產(chǎn)業(yè)投資合伙企業(yè)

三星首款三折疊手機(jī)Galaxy Z TriFold正式開(kāi)售

十周年感恩回饋！華為WATCH 5優(yōu)惠500元：售價(jià)2199元起

Mythic 融資 1.25 億美元，力圖以超高能效 AI 芯片挑戰(zhàn) NVIDIA

騰訊元寶宣布支持微信一句話設(shè)置提醒

AI 刻畫(huà)時(shí)代！DeepSeek 當(dāng)選“漢語(yǔ)盤(pán)點(diǎn) 2025”年度國(guó)內(nèi)詞