Elon Musk的人工智能初創(chuàng)公司 xAI 已啟動(dòng)位于田納西州孟菲斯的超級(jí)計(jì)算機(jī)集群,該集群由 100,000 個(gè) Nvidia H100 GPU 組成。特斯拉首席執(zhí)行官埃隆·馬斯克在社交媒體平臺(tái) X 上的一篇帖子中證實(shí)了這一里程碑。

xAI 的超級(jí)計(jì)算機(jī)集群預(yù)計(jì)將用于訓(xùn)練該公司的大型語言模型 Grok,該模型目前作為 X Premium 訂閱者的一項(xiàng)功能推出。本月早些時(shí)候,馬斯克在 X 上的一篇文章中指出,xAI 的 Grok 3 將在 100,000 個(gè) H100 GPU 上進(jìn)行訓(xùn)練,因此“這應(yīng)該是一件非常特別的事情”。
馬斯克進(jìn)一步詳細(xì)說明,該集群由 100,000 個(gè)液冷H100 圖形處理單元 (GPU)組成,這是 Nvidia 從去年開始提供的芯片,受到 AI 模型提供商的高度需求,包括馬斯克在OpenAI的競爭對(duì)手(和前朋友)。
馬斯克還指出,該集群在單個(gè) RDMA 結(jié)構(gòu)或遠(yuǎn)程直接內(nèi)存訪問結(jié)構(gòu)上運(yùn)行,思科指出這是一種在不增加中央處理單元 (CPU) 負(fù)擔(dān)的情況下在計(jì)算節(jié)點(diǎn)之間提供更高效、更低延遲的數(shù)據(jù)傳輸?shù)姆绞健?/p>
顯然,xAI 的目標(biāo)是在超級(jí)集群上訓(xùn)練自己的大模型。但更重要的是,馬斯克在回復(fù)中表示,該公司的目標(biāo)是訓(xùn)練“按各指標(biāo)衡量世界上最強(qiáng)大的人工智能”,并“在今年 12 月之前”實(shí)現(xiàn)這一目標(biāo)。
他還發(fā)文稱,孟菲斯超級(jí)集群將為此提供“顯著優(yōu)勢”。
5 月份,我們報(bào)道了馬斯克計(jì)劃在 2025 年秋季之前開設(shè)超級(jí)計(jì)算工廠的雄心。當(dāng)時(shí),馬斯克急于開始超級(jí)集群的開發(fā),因此必須購買當(dāng)前一代的“Hopper”H100 GPU。這似乎表明這位科技巨頭沒有耐心等待H200 芯片的推出,更不用說即將推出的基于 Blackwell 的 B100 和 B200 GPU。盡管人們預(yù)計(jì)較新的 Nvidia Blackwell 數(shù)據(jù)中心 GPU 將在 2024 年底之前發(fā)貨,但情況仍然如此。
那么,如果超級(jí)計(jì)算工廠預(yù)計(jì)將于 2025 年秋季開業(yè),那么今天的新聞是否意味著該項(xiàng)目提前一年實(shí)現(xiàn)?確實(shí)可能提前了,但更有可能的是,今年早些時(shí)候接受路透社和 The Information 采訪的消息人士在項(xiàng)目時(shí)間方面說錯(cuò)了話或被錯(cuò)誤引用了。此外,隨著 xAI 孟菲斯超級(jí)集群已經(jīng)啟動(dòng)并運(yùn)行,關(guān)于 xAI 為什么不等待更強(qiáng)大或下一代 GPU 的問題得到了解答。
超微提供了大部分硬件,該公司首席執(zhí)行官也在馬斯克的帖子下發(fā)表評(píng)論,稱贊該團(tuán)隊(duì)的執(zhí)行力。此前,超微CEO最近對(duì)馬斯克的液冷 AI 數(shù)據(jù)中心大加贊賞。
在后續(xù)推文中,馬斯克解釋說,新的超級(jí)集群將“訓(xùn)練世界上所有指標(biāo)中最強(qiáng)大的人工智能”。從之前的意向聲明中,我們假設(shè) xAI 的 100,000 個(gè) H100 GPU 安裝的功能現(xiàn)在將用于 Grok 3 訓(xùn)練。馬斯克表示,改進(jìn)后的 LLM 應(yīng)該“在今年 12 月”完成訓(xùn)練階段。
如果要將孟菲斯超級(jí)集群的計(jì)算資源放在某種背景下來看,當(dāng)然,從規(guī)模上看,新的 xAI 孟菲斯超級(jí)集群在 GPU 馬力方面輕松超越了最新 Top500 榜單上的任何一臺(tái)超級(jí)計(jì)算機(jī)。世界上最強(qiáng)大的超級(jí)計(jì)算機(jī),如 Frontier(37,888 個(gè) AMD GPU)、Aurora(60,000 個(gè) Intel GPU)和Microsoft Eagle(14,400 個(gè) Nvidia H100 GPU),似乎都遠(yuǎn)遠(yuǎn)落后于 xAI 機(jī)器。
早在6 月初的報(bào)道中就披露,xAI 將在占地 785,000 平方英尺的前伊萊克斯孟菲斯工廠建造一個(gè)超級(jí)計(jì)算機(jī)集群,非正式地稱為“計(jì)算超級(jí)工廠” 。大孟菲斯商會(huì)在一份新聞稿中表示,xAI 的超級(jí)計(jì)算機(jī)項(xiàng)目是孟菲斯歷史上新上市公司在該市進(jìn)行的最大資本投資。
xAI 的投資規(guī)模巨大。根據(jù)Benzinga 的一份報(bào)告,每塊 Nvidia H100 GPU 的成本估計(jì)在 30,000 至 40,000 美元之間。考慮到 xAI 使用了 100,000 臺(tái) Nvidia H100 單元,埃隆·馬斯克的 AI 初創(chuàng)公司似乎為該項(xiàng)目花費(fèi)了約 30 億至 40 億美元。
值得一提的是,Elon Musk旗下的特斯拉已部署了約 35,000 臺(tái) Nvidia H100用于訓(xùn)練自動(dòng)駕駛汽車,并使用其定制的 Dojo 芯片開發(fā)超級(jí)計(jì)算機(jī)。
本文作者:半導(dǎo)體行業(yè)觀察,來源:半導(dǎo)體行業(yè)觀察,原文標(biāo)題:《Elon Musk用100000個(gè)H100,打造全球最強(qiáng)集群》
風(fēng)險(xiǎn)提示及免責(zé)條款
市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。





京公網(wǎng)安備 11011402013531號(hào)