整理 | 華衛(wèi)、核子可樂
在圖形處理器(GPU)領(lǐng)域,英偉達(dá)、AMD 和英特爾占據(jù)主導(dǎo)地位已有一段時(shí)間了。雖然中國(guó)還有其他相關(guān)企業(yè),但他們要打入美國(guó)市場(chǎng)一直以來都困難重重。
近日,一家美國(guó) GPU 初創(chuàng)公司 Bolt Graphics 發(fā)布了專為游戲、渲染和超級(jí)計(jì)算機(jī)模擬等用例設(shè)計(jì)的 Zeus GPU 平臺(tái)。據(jù)了解,Bolt Graphics 沒有僅僅致力于打造低端顯卡并寄希望于擴(kuò)大規(guī)模,而是巧妙地解決了高端 GPU 計(jì)算方面的一個(gè)特定難題。該公司表示,其 Zeus GPU 不僅支持可升級(jí)內(nèi)存與內(nèi)置以太網(wǎng)接口等,而且在路徑追蹤工作負(fù)載方面的性能表現(xiàn)比英偉達(dá) GeFOrce RTX 5090 快 10 倍左右。根據(jù) Bolt Graphics 的數(shù)據(jù),280 張 RTX 5090 GPU 的算力只需 28 張 Zeus GPU 即可實(shí)現(xiàn)。

據(jù)了解,Bolt Graphics 是一家成立不到 6 年的初創(chuàng)公司,由印度人 Darwesh Singh 在 2020 年創(chuàng)立,該公司在領(lǐng)英的主頁(yè)上顯示共有 20 位員工。該公司在 2021 年獲得了第一輪融資,隨后很快又于 2022 年獲得了第二輪融資,專注于電影、模擬和游戲中的硬件加速光線追蹤技術(shù),目標(biāo)是在解決模擬和 3D 圖形等繁重任務(wù)的性能問題同時(shí)降低功耗。
創(chuàng)立 Bolt Graphics 前,Darwesh Singh 從事了十年的數(shù)據(jù)中心和云環(huán)境設(shè)計(jì)工作。多年來,他從事過從安裝機(jī)架到為大型企業(yè)設(shè)計(jì)先進(jìn)數(shù)據(jù)中心的各種工作。2014 年,Darwesh 憑借創(chuàng)新精神,在目睹了電影視覺效果的冗長(zhǎng)渲染時(shí)間后,開發(fā)出了硬件加速光線追蹤解決方案。這一突破為他于 2020 年創(chuàng)立的 Bolt Graphics 公司奠定了基礎(chǔ)。
對(duì)于 Zeus GPU 現(xiàn)在所公布的性能情況,有網(wǎng)友調(diào)侃道:“這家公司將在‘3、2、1’的倒計(jì)時(shí)結(jié)束后被英偉達(dá)收購(gòu)。”
1速度快了,功耗更低、顯存可擴(kuò)展?
與當(dāng)今許多處理器一樣,Zeus 同樣依賴于多芯片設(shè)計(jì)。據(jù)介紹,入門款 Zeus 1c26-032 配備單一處理單元以及 32 GB LPRDDR5X 內(nèi)存,傳輸帶寬為 273 GB/ 秒,可使用雙 SO-DIMM(速度為 80 GB/ 秒)和最高 128 GB 的 DDR5 內(nèi)存。Zeus GPU 還搭配有 I/O 芯片,該芯片包含一個(gè) 400 GbE/800 GbE 的 QSFP-DD 端口、兩個(gè)使用 CXL 3.0 協(xié)議的 PCIe Gen5 x16 插槽(可實(shí)現(xiàn)多卡間的高效內(nèi)存共享)以及一個(gè)用于 BMC 的 GbE 端口。該 GPU 芯片以 256 GB/ 秒的速率與其 I/O 芯片連接。

Zeus 單芯片架構(gòu)
更高端的 Zeus 2c26-064/128 則使用雙 Zeus 處理單元、一個(gè) I/O 芯片,且支持 64 GB 或 128 GB 的 LPDDR5X 內(nèi)存。最強(qiáng)大的旗艦版本 Zeus 4c26-256 則集成了四個(gè)處理單元、四個(gè) I/O 芯片、256 GB LPDDR5X 以及最高 2 TB 的 DDR5 內(nèi)存容量。四芯片版的 Zeus 不再以 GPU 卡的形式存在,而是直接作為服務(wù)器交付。

四芯片版 Zeus 的架構(gòu)
與優(yōu)先考慮帶寬的高端 GPU 不同,Bolt Graphics 顯然更重視內(nèi)存容量的絕對(duì)數(shù)值,希望借此處理更大的渲染與模擬數(shù)據(jù)集。另值得一提的是,從該公司展示的 Zeus 性能表現(xiàn)表格圖中可以看到,Zeus 的 DDR5 內(nèi)存還帶有 SO-DIMMs 后綴,這代表它是支持可插拔的。也就意味著,這塊顯卡是可以通過插入多條 DDR5 內(nèi)存來擴(kuò)展顯存。

此外,內(nèi)置的 400 GbE 及 800 GbE 端口可實(shí)現(xiàn)聯(lián)網(wǎng) GPU 之間的更快數(shù)據(jù)傳輸,這表明 Zeus 顯然是以數(shù)據(jù)中心作為主要應(yīng)用場(chǎng)景。

Zeus 高性能計(jì)算模擬用例
Zeus vs RTX 5090
據(jù)該公司介紹,高質(zhì)量渲染、實(shí)時(shí)路徑追蹤與計(jì)算是 Zeus 關(guān)注的重點(diǎn)領(lǐng)域,因此即使是入門級(jí) Zeus 1c26-32,也能提供比英偉達(dá) GeForce RTX 5090 更高的 FP64 計(jì)算性能(高達(dá) 5 TFLOPS,遠(yuǎn)高于后者的 1.6 TFLOPS),路徑追蹤性能也高得多(77 Gigarays,遠(yuǎn)高于后者的 32 Gigarays)。
功耗
Zeus 還擁有比英偉達(dá)這款旗艦級(jí)產(chǎn)品更大的片上緩存(高達(dá) 128 MB,后者為 96 MB),且運(yùn)行功耗更低(120W,后者高達(dá) 575W),約是 RTX 5090 的 21%,這使其在模擬、路徑追蹤和離線渲染等領(lǐng)域更高效。
此前,RTX 5090 曾因高功耗而受到爭(zhēng)議,其相比 RTX 4090 性能提升有限,但功耗卻多出 125W,對(duì)電源的要求較高。原本許多用戶都希望,英偉達(dá) RTX 50 系列能更注重效率而不是繼續(xù)提高功耗,特別是考慮到 RTX 4090 相比 350W 的 RTX 3090 已經(jīng)是一次大幅躍升。
價(jià)格
不過,四芯片版的 Zeus 雖然功耗低于 RTX 5090,但價(jià)格可能更貴——從數(shù)據(jù)來看,除了 FP32 和 FP16 運(yùn)算之外,四芯片版的 Zeus 在所有工作負(fù)載方面都能勝過英偉達(dá)的這款旗艦級(jí)游戲顯卡,這凸顯出 Zeus 或并不打算以傳統(tǒng)游戲畫面渲染為主要賣點(diǎn)。RTX 5090 推出時(shí)就因高昂價(jià)格引發(fā)討論,1999 美元(合人民幣約 14647 元)的 GPU 定價(jià)對(duì)普通玩家來說不是一筆不小的數(shù)目。
該公司表示,四芯片版本針對(duì)電磁場(chǎng)建模、光子學(xué)研究和快速傅里葉變換(FFT)計(jì)算進(jìn)行了優(yōu)化。憑借更大的內(nèi)存池加上對(duì)于外部存儲(chǔ)的較低依賴,Zeus 有望提高大規(guī)模模擬的運(yùn)行速度。當(dāng)然,前提是它的這套混合內(nèi)存子系統(tǒng)在所有工作負(fù)載上都能高效運(yùn)行。

Zeus 電磁波模擬輸出用例
AI 及傳統(tǒng)渲染
RTX 5090 在 AI 工作負(fù)載中似乎仍然占據(jù)主導(dǎo)地位,其 FP16 算力達(dá)到 105 TFLOPS、INT8 算力達(dá)到 1637 TFLOPS,而單芯片 Zeus 的這兩項(xiàng)指標(biāo)分別只有 10 FP16 TFLOPS 與 614 INT8 TFLOPS。如果 Zeus 可以進(jìn)行傳統(tǒng)渲染,那么 1c26-32 也只擁有 10 FP32 TFLOPS 性能,似乎遠(yuǎn)無(wú)法與 RTX 5090 的 105 TFOPS 相抗衡。
但 Bolt Graphics 還推出了 Glowstick 路徑追蹤渲染引擎功能,這可能是種很有前途的內(nèi)部實(shí)時(shí)渲染解決方案。傳統(tǒng)的渲染工作流程往往需要較長(zhǎng)的處理時(shí)間才能實(shí)現(xiàn)結(jié)果可視化,而 Zeus 則大大減少了這種延遲,因此更適用于專業(yè)的可視化應(yīng)用場(chǎng)景。與現(xiàn)有解決方案相比,Bolt Graphics 聲稱其在單芯片版本上的性能提高了 2.5 倍,且使用多張 GPU 時(shí)性能還會(huì)更高。
傳統(tǒng)圖形處理方面,但目前還不清楚 Zeus 究竟會(huì)提供怎樣的性能。與現(xiàn)代消費(fèi)級(jí)顯卡相比,Zeus 公布的矩陣吞吐量確實(shí)看似平平無(wú)奇,更不用說與數(shù)據(jù)中心級(jí)別的顯卡相比了。單塊功率限制為 700W 的英偉達(dá)圖形處理器 Blackwell B200,可提供 60 TFLOPS 的著色器 FP32 運(yùn)算能力、30 TFLOPS 的 FP64 密集矩陣運(yùn)算能力和 1.8 PetaFLOS 的稀疏 TF32 運(yùn)算能力。
2全面投產(chǎn)的挑戰(zhàn)
Zeus 的出現(xiàn)似乎代表著一種突破,但目前 Zeus 仍在純模擬環(huán)境下運(yùn)行,因此以上所有性能聲明均未通過實(shí)際硬件驗(yàn)證。Bolt Graphics 方面表示,其首批開發(fā)套件將于 2025 年底上市,全面投產(chǎn)則要等到 2026 年底,期間軟件開發(fā)者將可充分試用這款硬件。如果 Zeus 真能兌現(xiàn)承諾,則很有可能成為科學(xué)計(jì)算、路徑追蹤與離線渲染等應(yīng)用場(chǎng)景下的重要替代方案。
需要注意的是,由于 Zeus 針對(duì)的是路徑追蹤渲染技術(shù)以及計(jì)算工作負(fù)載,因此它被猜測(cè)可能沒有傳統(tǒng)的固定功能 GPU 硬件,如紋理單元(TMU)及光柵操作單元(ROP)。盡管如此,每張 Zeus GPU 都配備一個(gè) DisplayPort 2.1a 和一個(gè) HDMi 2.1b 輸出端口。但該公司則專門解釋稱,Zeus 配備了 TMU 和 ROP 引擎,且優(yōu)化工作仍在持續(xù)進(jìn)行,目前尚未披露任何規(guī)格。
在 GPU 中,ROP 負(fù)責(zé)將 3D 圖形數(shù)據(jù)轉(zhuǎn)換為 2D 像素表示,是圖形渲染過程中的重要一步,對(duì)最終輸出階段起著關(guān)鍵作用。據(jù)英偉達(dá)介紹,RTX 5090 配備了 176 個(gè) ROP 單元。但前不久被曝,有部分用戶到手的 RTX 5090 存在 ROP 數(shù)量不足的缺陷。要知道,ROP 的缺失將帶來許多明顯的游戲體驗(yàn)影響,包括游戲幀率下降、延遲增加、抗鋸齒性能降低等。英偉達(dá)當(dāng)時(shí)對(duì)此的解釋是生產(chǎn)問題,并表示故障卡的數(shù)量占比不到 0.5%。
此外, 軟件支持無(wú)疑將成為決定 Zeus GPU 成功與否的關(guān)鍵因素,畢竟單憑硬件功能其并不足以與 AMD 和英偉達(dá)等老牌廠商展開競(jìng)爭(zhēng)。與英偉達(dá)的 CUDA 和 AMD 的 ROCm 不同,Bolt Graphics 的 Zeus 缺乏成熟且得到廣泛采用的軟件生態(tài)系統(tǒng)。
根據(jù)已發(fā)布的演示文稿,與依賴專有指令集的 AMD、英特爾和英偉達(dá) GPU 不同,Bolt Graphics 的 Zeus 依賴于開源的 RISC-V ISA,其采用了一種開源無(wú)序通用 RVA32 標(biāo)量核心,同時(shí)與 FP64 算術(shù)邏輯單元(ALU)及 RVV 1.0(RISC-V 擴(kuò)展版 1.0)配合使用,能夠處理 8 位、16 位、32 位乃至 64 位的數(shù)據(jù)類型,還配備了針對(duì)加速科學(xué)工作負(fù)載所設(shè)計(jì)的其他專有擴(kuò)展功能。基于 RISC_V 架構(gòu),Zeus 可以使用現(xiàn)有的開源工具和庫(kù),但若無(wú)強(qiáng)大的開發(fā)者支持,其采用可能會(huì)受到限制。
然而,目前還不清楚 Zeus 是否支持行業(yè)標(biāo)準(zhǔn)框架,如 OpenCL、Vulkan 和 CUDA 轉(zhuǎn)換層——這些框架對(duì)于 GPU 產(chǎn)品在高性能計(jì)算(HPC)工作負(fù)載領(lǐng)域的推廣至關(guān)重要。如果 Bolt Graphics 能夠提供強(qiáng)大的開發(fā)者工具、優(yōu)秀的編譯器支持以及同 Linux HPC 環(huán)境的兼容性,Zeus 確實(shí)有望成為科學(xué)計(jì)算與渲染領(lǐng)域的一位強(qiáng)大參與者。但無(wú)論如何,與英偉達(dá)成熟生態(tài)系統(tǒng)的“艱苦”競(jìng)爭(zhēng)仍然不可避免。
驅(qū)動(dòng)程序也將是另一大潛在影響因素——即便是像英特爾這樣的科技大廠,往往也需要很長(zhǎng)時(shí)間才能解決驅(qū)動(dòng)程序帶來的問題。
簡(jiǎn)而言之,關(guān)于 Zeus GPU 家族還有太多的未解之謎和需面臨的挑戰(zhàn)。Zeus 目前才剛剛完成模擬運(yùn)行測(cè)試,實(shí)體硬件計(jì)劃于今年晚些時(shí)候推出。它會(huì)如何處理傳統(tǒng)渲染、路徑追蹤以及 AI?我們還須拭目以待。
參考鏈接:
https://www.tomshardware.com/pc-components/gpus/startup-claims-its-zeus-gpu-is-10x-faster-than-nvidias-rtx-5090-bolts-first-gpu-coming-in-2026
https://www.servethehome.com/bolt-graphics-zeus-the-new-gpu-architecture-with-up-to-2-25tb-of-memory-and-800gbe/





京公網(wǎng)安備 11011402013531號(hào)