最強AI芯片！AMD發布MI325X，性能超英偉達H200

IP屬地中國·北京 編輯：陳陽藍鯨財經 時間：2024-10-12 15:42:29

文|半導體產業縱橫
今日，老牌芯片巨頭AMD交出了一份令人印象深刻的AI答卷。
美國時間10月10日，AMD在舊金山召開了Advancing AI發布會。這一次，他們帶來了三款核心硬件產品：新版Instinct MI325X 、第五代EPYC 服務器和最新的第三代 DPU Pensando系列。
這些新技術將于明年推出，AMD 承諾將在生成式 AI 性能方面樹立新標準。這些技術是 AMD 持續進軍數據中心芯片領域的一部分。AMD 在該領域已經搶占了長期競爭對手英特爾公司的市場份額，占據了 34% 的數據中心芯片收入。AMD 專注于讓這些芯片更好地適應 AI。
“我們的目標是讓 AMD 成為端到端 AI 的領導者，”首席執行官蘇姿豐 (Lisa Su)在今天上午的活動主題演講中表示。她列舉了微軟公司、meta Platforms Inc.、Databricks Inc. 和甲骨文公司等 AI 領導者的高管，以及 Reka AI Inc.、Essential AI Labs Inc.、Fireworks AI 和 Luma AI Inc. 等初創公司的高管，他們對與 AMD 的合作大加贊賞。
AMD已迅速崛起，對英偉達公司在人工智能基礎設施行業的主導地位構成了越來越大的威脅，其熱銷的 MI300X 人工智能芯片的成功正在進一步鞏固其市場地位。該芯片于今年早些時候推出，預計將為該公司帶來超過 40 億美元的人工智能芯片銷售額。
01 AMD 迄今為止最強大的 AI 芯片
AMD Instinct MI325X 基于該公司的 CDNA 3 架構，旨在實現超快的性能和更高的能效，以執行最苛刻的 AI 任務，包括訓練大型語言模型、微調其性能和 AI 推理，然后由模型將結果提供給用戶。
MI325X加速器采用了 AMD CDNA 3 GPU 架構，配備 256GB 下一代 HBM3E 高帶寬內存。內置 1530 億個晶體管。它提供了 6TB/s 的內存帶寬，在 FP8 和 FP16 精度下分別達到 2.6 PF 和 1.3 PF 的峰值理論性能。
與英偉達上一代的旗艦GPU 加速器H200相比，MI325X的內存容量更大（256Gvs141G），內存帶寬也更高（6TB/s vs 4.8TB/s）。在算力方面，雖然英偉達官方宣稱H200的FP16 算力可達1.9 PF，但經semianalysis實測，其實際算力約為1 PF，與H100持平，比MI325X低了30%。
因此AMD MI325X在推理方面的表現平均超越H200 30%，與其算力比提升相符。保持了上一代的領先優勢。
由MI325X核心集成的GPU平臺包含 8 個 MI325X。該平臺總共提供 2TB HBM3E 高帶寬內存，FP8 精度下的理論峰值性能達到 20.8 PF，FP16 精度下達到 10.4 PF。系統配備 AMD Infinity Fabric 互連技術，帶寬高達 896 GB/s，總內存帶寬達到了 48 TB/s。
相比于H200的集成平臺H200 HGX，MI325X平臺提供1.8倍的內存量，1.3倍的內存帶寬和1.3倍的算力水平。
在推理方面能相較H200 HGX提升至多1.4倍的表現水平。
AMD版GPU軟件系統ROCm在過去一年內和主流AI開發平臺的適配性一直在磨合期，這導致其訓練效果有待提升。但這一年來AMD一方面加強升級ROCm，一方面與AI開發平臺深度合作，總算是讓它有了一倍左右的提升。
這一提升的結果是，針對meta Llama-2這種主流模型，MI325X的單GPU訓練效率終于超越了H200。而在集群中，其訓練效率仍和H200 HGX相當。
MI325X預計將于 2024 年第四季度開始出貨，與H200的大規模交付相差僅一個季度。鑒于目前英偉達遇到了B200和B100的封裝瓶頸，規模發貨被延遲，交付給OpenAI的也僅僅是工程樣機。如果MI325X的發貨規模能快速爬升，那理論上的代差就會被實際的出貨情況抹平，MI325X在市場上的實際對手就是H200，而它還比H200性能稍高。
02 構建人工智能的網絡基礎
AMD 打算將最新的 Instinct 加速器與新的網絡技術相結合，包括 AMD Pensando Salina DPU 和 AMD Pensando Pollara 400，后者聲稱這是業界首款支持超級以太網的 AI 網絡接口卡。新技術對于連接 AMD 的新 AI 加速器并確保足夠的吞吐量以共享數據至關重要。
AMD Pensando Salina DPU 代表 AMD 網絡的前端，負責將數據傳送至 Instinct 加速器集群，而 AMD Pensando Pollara 400 則代表后端，負責管理各個加速器和集群之間的數據傳輸。這兩款產品將于明年初上市。
Pensando Salini DPU 是其 DPU 系列的第三代產品，性能是其前代產品的兩倍，可用帶寬和規模增加了一倍以上。總而言之，它支持 400G 吞吐量，確保數據中心有史以來最快的數據傳輸速率。因此，它將成為 AI 前端網絡集群的關鍵組件，幫助優化 AI 應用程序的性能、效率和可擴展性。
在發布會上，AMD 網絡技術與解決方案事業部高級副總裁兼總經理、AMD于 2022 年收購的 Pensando Systems Inc. 聯合創始人 Soni Jiandani強調了網絡的重要性。她解釋說，AI 系統需要為用戶連接網絡的前端，而在后端則必須連接到數千個 GPU 以確保性能。
“后端網絡推動著 AI 系統的性能，”她說。“meta 表示，其訓練周期的 30% 時間通常都在等待聯網時流逝。因此，聯網不僅至關重要，而且是推動 AI 性能的基礎。”
IDC 分析師 Brandon Hoff 對此表示同意。他解釋說：“AI 工作負載，尤其是生成性 AI 工作負載，是第一個能夠消耗服務器節點中的所有計算、內存、存儲和網絡的工作負載。AI 還可以擴展到單個 AI 工廠節點之外，這需要所有 GPU 相互通信。”
因此，他補充道，“AI Factory 節點之間的通信時間稱為‘網絡時間’，最多可占訓練或多節點推理 AI 運行處理時間的 60%。換句話說，如果超大規模企業在 GPU 上花費 10 億美元，他們完成了 4 億美元的工作，而 6 億美元的 GPU 處于閑置狀態。高性能網絡至關重要，也是第二重要的部分。”
因此，對于 AMD 來說，他說：“擁有一套強大的網絡產品是打造其 AI 業務的重要組成部分。這些是適合 DPU 和 SmartNIC 的產品，而以太網是值得投資的正確技術。”
Bajarin 表示，AMD 在網絡技術方面取得了長足進步。“我認為，AMD 能夠通過收購 ZT 系統將這一技術融入到其針對機架進行優化的全棧方法中，那么他們的網絡技術就會變得更加重要，”他說。
03 未來 GPU 正在研發中
Salina DPU 和 Pollara 400 也將于明年初推出，但在公司等待這些技術面世的同時，他們至少可以展望未來的發展。
除了即將推出的新芯片和網絡技術之外，AMD 還預覽了其下一代芯片 AMD Instinct MI350 系列加速器，預計將于明年下半年推出。
據 AMD 介紹，Instinct MI350 將基于該公司的 CDNA 4 架構打造，與 Instinct MI325X 相比，在推理性能方面實現了令人難以置信的 35 倍提升，同時提供 288GB 的HBM3E 內存。
該公司還提到了新的 MI355X 加速器芯片計劃，預計將于 2025 年底開始批量出貨，隨后是基于全新架構的 MI400 芯片，將于 2026 年某個時候推出。
04 下一代 EPYC 服務器芯片
盡管大家都在關注人工智能，但 AMD 無意放松對數據中心服務器市場的廣泛進攻。在此次活動中，該公司還推出了最新的 EPYC 中央處理器，以前代號為“Turin”，旨在滿足企業、人工智能和云工作負載的需求。
第五代 AMD EPYC 系列處理器將基于該公司的 Zen 5 核心架構，該公司旨在提供各種核心數量以滿足不同的使用情況，從最低 8 個核心到最高 192 個核心，以滿足最苛刻的工作負載。
該公司承諾，第五代 EPYC 芯片將以現有的第四代 EPYC 平臺的性能為基礎，其最大的 192 核 EPYC 9005 系列的性能比其現有最強大的芯片高出 2.7 倍。同時，新的 64 核 EPYC 9575F 是針對 GPU 驅動的 AI 工作負載定制的，性能高達每秒 5 千兆位，處理速度比競爭芯片快 28%。
AMD 服務器業務高級副總裁兼總經理 Dan McNamara 表示，客戶可以信賴該公司的性能聲明。“憑借五代按時執行的路線圖，AMD 已證明它可以滿足數據中心市場的需求，并為客戶提供數據中心性能、效率、云、企業和 AI 工作負載解決方案和功能的標準，”他說。
05 適用于 PC 的 Ryzen AI Pro 芯片
最后，AMD 透露即將推出第三代移動處理器筆記本電腦和筆記本。新款Ryzen AI Pro 300 系列處理器采用先進的四納米工藝制造，據稱功能強大，足以支持設備上的 AI 工作負載，例如生成式 AI 副駕駛、實時字幕和 AI 翻譯。與上一代Ryzen 芯片相比，它們的 AI 性能提高了三倍，并為企業用戶提供了高級安全性和可管理性功能。
與最新的 EPYC 芯片一樣，新款 Ryzen 處理器基于 AMD 的 Zen 5 架構，與英特爾 Core Ultra 7 165U 相比，它們的性能提升高達 40%，生產效率提升高達 14%。該公司補充說，它們還將“顯著”延長設備的電池壽命。
此外，AMD 表示，它們還配備集成的神經處理單元，可提供每秒 50 萬億次運算的 AI 處理能力，超過微軟公司對其 AI 驅動的 Copilot 工具的要求。
AMD 計算和圖形事業部高級副總裁兼總經理 Jack Huynh 表示，PRO 300 系列旨在滿足企業對商用機器更高計算能力和效率日益增長的需求。“我們第三代支持 AI 的商用電腦處理器具有前所未有的 AI 處理能力、超長的電池壽命和與用戶所依賴的應用程序的無縫兼容性，”他說。
Creative Strategies 的 Bajarin 表示，最重要的是“數據中心正在經歷一場徹底的變革，我們仍處于變革的早期階段，因此在未來 10 多年的時間里，這仍然是一個開放的競爭領域。我不確定我們能否肯定地說這段時間內情況會如何，但最重要的是，有大量的市場份額和資金可供 AMD、Nvidia 和 Intel 忙個不停。”

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

零跑旗艦SUV新車D19座艙公布：靈感號稱源自“百年工藝”

華為小藝管家全新升級，語音交互體驗變革式提升，一句話的事

舊金山突發大停電，紅綠燈熄滅致大量Waymo趴窩

蘋果被罰款上億美元，涉嫌濫用市場支配地位

十年深耕智啟新章！華為WATCH十周年款重塑腕上健康科技體驗

新質生產力揚帆出海，中國無人車首次落地倫敦

全站最新

零跑旗艦SUV新車D19座艙公布：靈感號稱源自“百年工藝”

華為小藝管家全新升級，語音交互體驗變革式提升，一句話的事

舊金山突發大停電，紅綠燈熄滅致大量Waymo趴窩

蘋果被罰款上億美元，涉嫌濫用市場支配地位

熱門推薦

AI助手「元寶」實現多平臺覆蓋

比亞迪：技術人員漲薪

京東官方辟謠：謹防假冒禮品卡詐騙

阿里開源圖像生成模型Qwen-lmage-Layered

工信部：5G用戶截至11月末達11.93億戶，同比增1.79億戶

觀致汽車被申請破產審查

華為全新MatePad 11.5發布：售價1799元起

?生成式 AI 席卷游戲圈:Steam 熱銷榜前十竟有一半出自“AI 擁護者”之手

?谷歌推出 A2UI 標準，讓 AI 實時生成用戶界面

小米17 Ultra真機公布：配備直屏直邊

像租充電寶一樣租機器人！全國首個開放式平臺“擎天租”在滬發布

前特斯拉高管加盟，Pickle Robot 迎來首位 CFO，合作 UPS 再升級！

ChatGPT可手動“調溫”了！OpenAI上線熱情度滑塊，用戶可自定義AI的“情緒濃度”

零跑旗艦SUV新車D19座艙公布：靈感號稱源自“百年工藝”

華為小藝管家全新升級，語音交互體驗變革式提升，一句話的事