自2020年起,尹首一教授前瞻性地瞄準超高性能大模型訓練與推理場景,開展了晶圓級芯片這一前沿技術路線的探索。以胡楊教授為骨干,團隊提出了晶圓級芯片“計算架構”與“集成架構”兩大核心設計方法,本次ISCA的三項成果分別面向計算架構問題、集成架構問題與大模型推理任務映射問題開展研究,構建了晶圓級芯片“計算架構-集成架構-編譯映射”協同設計優化方法學,取得了國內外學術界與工業界的廣泛認可。
在產出高水平學術研究成果的基礎上,團隊聯合清華系知名芯片企業研發了可重構算力網格芯粒,并聯合上海人工智能實驗室成功制造出國內首臺基于可重構AI芯粒的12寸晶圓級芯片驗證樣機,驗證了在次世代工藝條件下采用晶圓級集成方式趕超先進工藝芯片的理論和工程可行性,為解決國內芯片“卡脖子”難題提供了兼具引領性和可行性的技術路線。工程成果已經反哺多家產業界頭部合作伙伴,實現了產學研用高效閉環。
ISCA國際計算機體系結構研討會(International Symposium on Computer Architecture)是計算機體系結構領域的頂級會議,創辦于1973年,被譽為“計算機體系結構創新的風向標”,其收錄成果代表了該項研究的國際前沿突破性和全球創新引領性。

基于可重構AI芯粒的晶圓級芯片驗證樣機
重構軟硬件系統,
晶圓級芯片加碼AI算力
何謂晶圓級芯片?它又為何是AI行業算力突破的“明日之星”?
晶圓級芯片(Wafer-Scale Chip)是一種顛覆傳統計算形態與半導體制造模式的前沿技術。眾所周知,芯片的算力與芯片內部能夠集成的晶體管數量相關,能夠集成的晶體管數目越多則芯片的算力越高,而晶體管數量又由單位面積的晶體管密度和芯片的面積兩個關鍵的因素來協同決定。其中前者主要依賴于集成電路的工藝先進性,然而在我國目前面臨著嚴重的“卡脖子”困境。而后者主要受集成電路光刻技術的制約,在現有工藝條件下只能達到858平方毫米的面積,這也制約了常規芯片能夠達到的總算力上限。
在構建更大算力的系統時,常規芯片傳統的封裝和互連模式使得多個芯片間的互連往往需要經過中介層、基板、PCB、線纜、光模塊、交換機等層層延遲,互連密度也被封裝結構大幅稀釋,嚴重制約了其性能表現。因此,在追求極致算力與能效時,我們希望能夠構建更大的芯片并設計更加高效的集成方式。
晶圓級芯片,顧名思義,是設計和制造一顆晶圓尺寸(約40000平方毫米)的超大面積芯片,實現“One Wafer One Chip”。其典型技術路線是通過在一整片晶圓上制造高密度硅互連基板,再將數十顆算力芯粒集成到硅晶圓基板上,從而構建成一整片晶圓尺寸的算力芯片。

以Chiplet技術為基礎的晶圓級芯片制造流程
(Credit: 胡楊)
值得注意的是:晶圓級芯片不單純是一塊利用先進封裝技術拼接出來的大芯片,本質上是整個智算系統在芯片級實現的高度集成。不夸張的說,晶圓級芯片就是一款“片上數據中心”,涉及計算、存儲、互連、封裝、供電、散熱、可靠性、機械結構等多個設計因素的高度耦合,在設計時需要高度統籌計算架構與集成架構的協同優化問題。
我們可以從兩層意義上來解讀晶圓級芯片帶來的優勢:1. 如果將整個晶圓看做是一顆大芯片,在搭建具有同等算力的集群時,采用晶圓級芯片方案無疑比常規芯片方案具有更少的節點數目,因此可以獲得更佳的集群擴展線性度和性能。2. 更深一層看,晶圓級芯片在算力上可以對標一個甚至多個當前的多卡算力服務器或者超節點,同時具有更高的互連密度,更短的互連距離,更大的集成密度,因此可以獲得更高的性能和能效。經測算,其單機柜算力密度能夠達到現有超節點方案的2倍以上。可以說,晶圓級芯片是目前為止算力節點集成密度最高的一種形態。目前國際上已有美國的Cerebras WSE系列和特斯拉 Dojo系列兩款晶圓級芯片產品。
ISCA 2025論文導讀
晶圓級芯片以超大規模的單片集成方式,成為支撐下一代人工智能算力的新型芯片架構。晶圓級芯片的設計、制造和應用超越了當前“算力芯片-服務器-超節點”的常規范式,亟待突破一系列關鍵問題。本次的三篇論文從計算架構、集成架構、編譯映射角度構建了晶圓級芯片的完整體系。
《PD Constraint-aware Physical/Logical Topology Co-Design for Network on Wafer》提出了以互連為中心的晶圓級芯片計算架構(第一作者為團隊博士學生楊啟澤)。
文中指出,晶圓級芯片計算架構的核心是設計和構造全晶圓尺度的互連架構。在硅互連基板上設計片上互連網絡面臨嚴格的物理約束,包括有限且相互競爭的硅晶圓面積、不超過50mm的互連長度以及少于3層的金屬布線資源。
本文首次系統性揭示了計算架構中的關鍵矛盾并提出Tick-Tock協同設計框架,將物理拓撲與邏輯拓撲的優化緊密耦合。本文通過創新性融合Mesh的高集成度與Fat tree高效通信特性,提出Mesh-Switch物理拓撲計算架構,并設計了physical-design感知的設計空間搜索算法,可獲得最優物理拓撲配置。

Tick-Tock協同設計的晶圓級芯片計算架構
對比當前典型晶圓級芯片架構,本文提出的晶圓級芯片計算架構更有效的利用了物理資源,實現了更優物理拓撲設計。同時,針對物理拓撲特性設計雙層次邏輯拓撲,細粒度并行策略以及拓撲感知的并行方案設計,從路由算法、通信流水到并行策略實現全棧優化。實驗結果表明,該方案在主流大模型訓練任務中對比特斯拉Dojo可實現2.39倍的吞吐提升。本文突破了現有方案的性能瓶頸,確立物理約束下物理拓撲-邏輯拓撲-并行方案協同設計的新范式,為晶圓級芯片提供了關鍵理論基礎與具體方案。《Cramming a Data Center into One Cabinet, a Co-Exploration of Computing and Hardware Architecture of Waferscale Chip》提出了垂直空間協同設計的晶圓級芯片集成架構(第一作者為團隊碩士學生余幸懋)。
晶圓級芯片是一個垂直堆疊的多層結構,算力芯粒、存儲芯粒、I/O模組、供電模組、散熱模組等多種異構單元集成于互連基板的上下表面垂直空間內。例如,特斯拉的Dojo晶圓級芯片系統結構從上到下依次為散熱層、算力芯粒、中介層、基板、供電模組和外部連接器。這些多樣化異構資源的高密度集成,面臨異構設計因素緊耦合、系統性能優化難的問題,是晶圓級芯片集成架構亟需解決的難題。
本文首次提出以縱向面積約束引導跨物理層協同優化的晶圓級集成架構設計方法學。具體而言,本文建立了各物理層的面積模型,利用晶圓級系統內跨層的功率依賴模型和信號傳遞關系,將各物理層的設計參數和指標統一變換為縱向面積約束。該方法考慮計算架構和集成架構的協同設計,實現了單芯片到整機的系統級設計與優化。

縱向面積約束跨物理層協同優化的集成架構設計方法
相比于一個Dojo晶圓級芯片整機,采用本文提出的方法設計晶圓級芯片整機架構能達到更高的系統級集成密度。在相同成本約束下,本文的設計平均提升系統算力2.90倍,通信帶寬2.11倍,內存帶寬11.23倍。利用本文提出的晶圓級芯片系統協同設計方法,可以充分利用空間資源,大幅提高整機系統算力、帶寬、內存容量等硬件性能。《WSC-LLM: Efficient LLM Service and Architecture Co-exploration for Wafer-scale Chips》提出了一種大模型推理應用在晶圓級芯片上的編譯映射方法(第一作者為團隊博士學生徐錚)。
本文圍繞大模型在晶圓級芯片上的推理應用,提出了一種兼顧工作負載特性與硬件架構特性的高效編譯映射方案。本文指出,晶圓級芯片編譯映射的核心在于充分發揮其高互連帶寬和細調度粒度的優勢,規避尾端延遲帶來的性能瓶頸。針對大模型推理prefill和decode階段差異顯著的負載特性,本文設計了分離式映射調度方法,通過預探索策略和高效的KV cache管理策略實現了計算、存儲和通信資源的協同高效利用。
文中還指出,考慮到晶圓面積(約40000平方毫米)的約束,晶圓級芯片需要在計算、存儲和通信資源間進行權衡。本文深入分析了晶圓級芯片的架構空間,并基于靈活的硬件模版與搜索機制,探索了適配大模型推理需求的最優架構方案。實驗結果表明,WSC-LLM在多種典型大模型推理任務中相較于最先進的GPU集群方案實現了平均3.12倍的性能提升,展示了晶圓級芯片結合優化編譯映射方案在未來LLM服務中的廣闊前景。本文建立了從架構探索到編譯映射的全流程優化方法,為大模型在晶圓級芯片上的應用提供了關鍵支撐。

高效LLM調度與架構協同優化框架
行業巨頭押注,
晶圓級芯片成為AI算力未來
放眼全球,國際科技巨頭紛紛布局晶圓級芯片,目前已有兩家科技公司在該領域實現了產品化突破。
全球科技巨頭特斯拉公司2021年發布了晶圓級芯片Dojo和基于Dojo構建的AI訓練超算系統?。特斯拉采用Chiplet路線,在晶圓尺寸基板上集成了 25 顆專有的 D1 芯粒。每顆D1芯粒在645平方毫米的芯片上集成了500億個晶體管, 單個Dojo擁有9PFlops算力,以及每秒36TB帶寬。
另一家晶圓級芯片公司是位于美國硅谷的AI芯片設計公司Cerebras Systems。與特斯拉的技術路線不同,Cerebras通過改變晶圓光刻流程的技術路線,實現光罩拼接,在計算 Die 之間插入高密度連接線,使Die 與 Die 互連形成整個晶圓級芯片。其最新晶圓級芯片產品WSE-3采用5nm制程,集成4萬億晶體管,性能指標極大超越了傳統GPU芯片,如英偉達H100——片上內存容量是其 880 倍、訪存帶寬是其 7000 倍、算力單元數量是其 52 倍、片上互連帶寬更是其 3715 倍。
全球半導體制造巨頭臺積電也在積極推進晶圓級系統(SoW,System-on-Wafer)的戰略布局。SoW技術是指以完整的12英寸硅晶圓作為“底座”,將多個核心芯片和內存芯片緊密連接在一起,把AI加速器、高帶寬內存(HBM)以及輸入輸出單元(IO)等關鍵模塊,直接整合在一整塊晶圓上。通過這種方式,不僅大幅提升了計算密度和數據傳輸效率,還讓系統運行更加穩定一致。目前,這項技術已從研發進入初步應用階段,預計將在2027年實現量產,進一步鞏固了臺積電在先進封裝和異構集成領域的全球領先地位。
近年來,AI算力芯片作為人工智能發展的基礎和核心,成為大國角逐的關鍵。清華大學集成電路學院尹首一教授領導的科研團隊,深耕前沿領域,不斷突破技術難題,在算力芯片領域持續創新,為算力芯片的高階國產替代發展筑牢根基,為打破技術壁壘、實現自主可控貢獻了磅礴力量!





京公網安備 11011402013531號