IT之家 11 月 25 日消息,AMD 公司昨日(11 月 24 日)發(fā)布公告,宣布攜手 IBM 和 AI 初創(chuàng)公司 Zyphra,歷時(shí) 1 年多時(shí)間,成功使用 AMD 硬件訓(xùn)練出首個(gè)大型混合專家(MoE)基礎(chǔ)模型 ZAYA1。
IT之家援引博文介紹,該模型是首個(gè)完全基于 AMD 硬件生態(tài)系統(tǒng)構(gòu)建的大型混合專家(MoE)模型,其訓(xùn)練過(guò)程完全在 IBM 云上進(jìn)行,使用了 AMD Instinct MI300X GPU、Pensando 網(wǎng)絡(luò)技術(shù)和 ROCm 軟件平臺(tái),其詳細(xì)技術(shù)報(bào)告已在 arXiv 上發(fā)布。
![]()
三方為訓(xùn)練 ZAYA1 模型,共同搭建了一個(gè)大規(guī)模、高可靠性的專用訓(xùn)練集群。該集群由 128 個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)配備 8 塊 AMD MI300X GPU,總計(jì) 1024 塊 GPU,通過(guò) AMD InfinityFabric 高速互聯(lián)。
整個(gè)集群的實(shí)際訓(xùn)練性能超過(guò) 750 PFLOPs(每秒 75 億億次浮點(diǎn)運(yùn)算),同時(shí) Zyphra 為確保了訓(xùn)練過(guò)程的穩(wěn)定與高效,還開(kāi)發(fā)了一套針對(duì) AMD 平臺(tái)高度優(yōu)化的訓(xùn)練框架。
ZAYA1 基礎(chǔ)模型在預(yù)訓(xùn)練階段使用了高達(dá) 14 萬(wàn)億(14T)tokens 的數(shù)據(jù),并采用了分階段的課程學(xué)習(xí)策略:從初期的非結(jié)構(gòu)化網(wǎng)絡(luò)數(shù)據(jù),逐步過(guò)渡到結(jié)構(gòu)更清晰、信息密度更高的數(shù)學(xué)、代碼和推理數(shù)據(jù)。
![]()
基準(zhǔn)測(cè)試結(jié)果顯示,ZAYA1 的綜合性能與業(yè)界領(lǐng)先的 Qwen3 系列模型不相上下,同時(shí)優(yōu)于 SmolLM3、Phi4 等主流開(kāi)源模型。特別是在未經(jīng)特定指令微調(diào)的情況下,其推理版本在數(shù)學(xué)和 STEM 等復(fù)雜推理任務(wù)上已接近 Qwen3 的專業(yè)版本。
![]()
![]()
ZAYA1 的優(yōu)異性能還得益于其在模型架構(gòu)上的兩項(xiàng)關(guān)鍵創(chuàng)新。首先,它采用了新穎的 CCA 注意力機(jī)制(Compressive Convolutional Attention),通過(guò)在注意力模塊內(nèi)部引入卷積操作,顯著降低了計(jì)算量和顯存占用。
其次,該模型改進(jìn)了混合專家模型(MoE)中常用的線性路由(linear router),設(shè)計(jì)了新的路由結(jié)構(gòu),提升了模型的表達(dá)能力和專家模塊的專業(yè)化程度。這些創(chuàng)新共同解決了 Transformer 架構(gòu)中的計(jì)算與內(nèi)存瓶頸。
Zyphra 表示,ZAYA1 的成功發(fā)布只是第一步。目前公布的僅為基礎(chǔ)模型預(yù)覽,未來(lái)團(tuán)隊(duì)將發(fā)布經(jīng)過(guò)完整后訓(xùn)練(post-trained)的模型版本,并提供更詳盡的性能評(píng)測(cè)和訓(xùn)練經(jīng)驗(yàn)分享。
![]()





京公網(wǎng)安備 11011402013531號(hào)