從射月到折戟：淺談特斯拉Dojo的隕落

IP屬地中國·北京 編輯：周偉華泰證券 時間：2025-08-11 14:05:57

特斯拉的 Dojo 超級計算機并非普通的硬件項目，可以說是一次“射月計劃”，是對構建一臺專門解決 AI 問題的特殊超算的大膽嘗試。然而，據彭博社 8/7 報道，特斯拉正在解散 Dojo 項目團隊，意味著 Dojo 已徹底落下帷幕。Dojo 的設計哲學是通過復雜的編程來實現高標準的制造工藝，進而獲得理論上的峰值性能。
然而在核心人才流失、晶圓級封裝的良率瓶頸以及外部 GPU 技術快速迭代的三重壓力下，其高昂的研發成本與不確定的商業回報最終難以為繼。隨著人工智能模型規模的日益龐大和計算需求的持續增長，傳統計算架構所面臨的性能瓶頸日益凸顯。在此背景下，我們依然看好新一代芯片架構如晶圓級集成芯片和粗粒度可重構架構，在突破制造瓶頸和良率問題后，有望提升 AI 計算效率與靈活性。
Dojo 架構的雄心壯志是什么？
Dojo 的設計哲學是極致優化，即通過剝離一代通用計算功能，打造出一個精簡的、大規模并行的訓練“猛獸”。其架構建立在兩個激進的 AI 內存墻和互聯墻的破局設計之上：1) 無緩存的雙層存儲系統。Dojo 的 D1 計算芯片完全摒棄了傳統的緩存層次結構和虛擬內存，354 個內核都能直接訪問 1.25MB 的本地 SRAM。這通過去除復雜的內存管理硬件，最大化了計算密度和功耗效率。然而，這是典型的 NUMA（Non-Uniform Memory Access）結構：不在本地 SRAM 中的數據必須從位于獨立的 DIP（Dojo Interface Processors）上的系統級 HBM 中獲取，跨越互連結構的回路會產生顯著延遲，代價是將內存管理的全部復雜性轉移至軟件層面，并在本地 SRAM 與遠端 HBM 之間形成了巨大的性能鴻溝。
2) “無膠化（Glueless）”的晶圓級互連。Dojo 目標的真正核心是其互連設計。特斯拉利用臺積電的 InFO_SoW（晶圓上集成扇出, Integrated Fan-Out System on Wafer）技術創建了“Training Tile”訓練單元，其并非 PCB 板，而是建立在載體晶圓上的單一、巨大的多芯片模組，以 5x5 陣列的方式容納 25 個 D1 芯片。這些芯片專為“無膠化”通信而設計，通過數千個高速 SerDes 鏈路直接連接到相鄰芯片，創造了一個統一的計算平面，可達 36TB/秒片外帶寬，消除困擾傳統超算的網絡瓶頸。
如何從 Dojo 的失敗中吸取經驗？
Dojo 的前瞻設計同時也是其弱點，Dojo 的失敗并非單一技術問題，而是三大深層原因共同作用的結果：
1）人才流失。復雜技術需要深厚的知識儲備，據彭博報道，2023 年 Dojo 負責人 Ganesh Venkataramanan 離開后成立了競對初創公司 DensityAI，目前約 20 名核心工程師也離開特斯拉并加入 DensityAI。另外，現任 Dojo 負責人 Peter Bannon 據彭博報道也將離開特斯拉，導致攻克 Dojo 高度定制化架構所需的技術積淀與 Know-how 嚴重流失。
2) 良率缺陷。晶圓級互連理論上很“聰明”，但在產業制造過程中卻極具挑戰性。在晶圓尺寸的模組上，任何微小的布線缺陷或 25 顆 D1 芯片中任一的貼裝瑕疵，都可能導致高價值的 Training Tile 整體報廢。低良率使得規模化部署的成本高昂，較難具備商業上的經濟可行性。
3) 戰略層面轉為以實用為先。Dojo 在延期和低良率中受阻，而外部供應商英偉達和 AMD 等 GPU 性能與生態系統持續高速發展。因此對于特斯拉而言，追求高風險內部項目的成本效益比開始衰減。特斯拉已將戰略重心轉向更為務實的方案，即加強與英偉達、AMD、三星等產業鏈伙伴的合作。特斯拉于 7/27 宣布，與三星簽訂了 165 億美元的合同來制造其 AI6 推理芯片，并在訓練算力集群方面加強了對英偉達和 AMD 的依賴。
從射月到折戟：淺談特斯拉 Dojo 的隕落
馬斯克宣布中止 Dojo 超級計算機項目并非臨時決策，而是多重因素疊加的結果，其背后原因主要來自于：技術瓶頸、成本壓力及核心人才流失，這三個原因最終促使公司選擇放棄其內部的超級計算機研發。
原因2：戰略轉向經濟性，并開始依靠外部合作伙伴
面對核心團隊流失帶來的執行壓力，特斯拉加快調整戰略，轉向依賴行業領先廠商的成熟方案，以降低研發及量產風險。公司正顯著提升向英偉達與 AMD 的采購比例，因直接引入同類最佳、經過驗證的 AI 硬件，可以避免從零開發所需的高投入與不確定性，確保完全自動駕駛（FSD）及 Optimus 機器人等關鍵產品路線圖不受內部硬件瓶頸影響。同時特斯拉與三星簽訂總額 165 億美元的合同，在德克薩斯州生產下一代 AI6 推理芯片，可印證公司向實用性戰略的轉變。馬斯克長期將 Dojo 定位為高風險、高回報的“前瞻性項目”，其可行性核心在于：定制化架構在性能上的優勢能否足以抵消所需的巨額投入與研發難度。然而，隨著英偉達 Blackwell、 Rubin 系列及 AMD MI350、MI400 系列等高性能芯片相繼推出，Dojo 的潛在性能領先空間明顯收窄。在內部成本持續攀升、項目進度多次延期且需從其他戰略重點轉移資源的背景下，項目風險已部分兌現，而回報的不確定性顯著上升。在公司充分考慮成本效益平衡下，已轉而傾向于外部成熟方案。
原因#3：架構復雜難以駕馭，產業鏈存在制造瓶頸
Dojo 項目的核心矛盾源于其顛覆性的設計理念。該架構摒棄了傳統 CPU/GPU 的通用性設計思路，專注于將 AI 訓練負載的計算密度與能效推向極致。然而，這種對特定目標的極致追求，導致其在內存和互連系統上引入了極高的技術復雜度。這種設計在理論上性能卓越，但在工程實踐與量產中面臨的挑戰巨大，最終成為項目失敗的根本原因。
內存架構：無緩存的雙層系統
Dojo 的內存設計摒棄了通用計算中的標準功能，創造了一個在特定工作負載上高度優化但在編程和管理上具有挑戰性的系統。在核心層面，Dojo 放棄了傳統的數據側緩存和虛擬內存支持。D1 芯片上的 354 個處理核心中均沒有 L1/L2/L3 緩存層次結構，而是直接訪問本地 1.25MB 的 SRAM 塊。通過移除高速緩沖存儲器標簽（Cache tags）、一致性狀態位（State bits）、TLB 和硬件頁表遍歷（Page-walking hardware），Dojo 節省了大量的芯片面積和功耗，允許更密集的計算陣列。然而，這一設計的代價是將內存管理（如數據局部性、預取等）的全部復雜性轉移至軟件與編譯器層面，極大地增加了編程難度。
在內存層面，系統呈現出典型的雙層非統一內存訪問（Non-Uniform Memory Access, NUMA）架構，包括：
1）本地內存層 (SRAM)：每個核心私有的 1.25MB 高速 SRAM，作為主要的計算工作區，訪問延遲極低；
2）遠端內存層 (HBM)：由 HBM2e/HBM3 構成的大容量系統內存。關鍵在于，該層內存無法被 D1 計算核心直接尋址，而是掛載于計算陣列邊緣獨立 DIP（Dojo Interface Processors, Dojo 接口處理器）上。核心若要訪問 HBM，其請求必須穿越復雜的片上網絡（NoC）抵達 DIP，延遲遠高于訪問本地 SRAM。
這種設計導致核上 SRAM 與片外 HBM 之間形成了巨大的性能鴻溝（Performance Cliff），對軟件調度和數據排布提出了極為苛刻的要求，進一步加劇了軟件棧的開發與優化挑戰。
互連結構：“無膠化”晶圓級設計
Dojo 的互連架構是其設計的核心亮點，亦是其技術實現中最具挑戰的一環。其目標在于通過多層級的定制化設計，構建一個具備超高帶寬的大規模統一計算平面。該架構主要包含兩個層面：
1）片上互連采用二維網格 (On-Chip 2D Mesh) ：在單顆 D1 芯片內部，集成了 354 個計算核心，并以二維網格結構進行排布。這種設計實現了極高帶寬和低延遲的核心間通信，為大規模并行計算中的數據共享與同步等操作提供了高效的底層支持。
2）晶圓級集成下的訓練單元 (Training Tile) ：這是 Dojo 架構復雜性的集中體現，也是其良率問題的核心瓶頸。Training Tile 并非傳統的 PCB 電路板，而是基于臺積電的 InFO_SoW（晶圓上集成扇出, Integrated Fan-Out System on Wafer）技術，在同一基底晶圓上構建的超大尺寸多芯片模組。該模組以 5x5 陣列集成了 25 顆 D1 芯片。D1 芯片的邊緣設計了 576 個高速雙向 SerDes，實現了芯片間的“無膠化（Glueless）” 直接互連，即無需任何外部橋接芯片即可通信。這種設計使得每顆 D1 芯片能夠與其四周的鄰近芯片直接通信，單顆芯片的總 I/O 帶寬高達 8TB/s。最終，單個 Training Tile 的總片外帶寬可達 36TB/秒，這一指標遠超傳統數據中心網絡交換設備的能力，是其性能領先的關鍵。
為實現超越單個訓練單元（Training Tile）的規模化部署，Dojo 采用了多層級的物理集成方案：通過定制化的高密度連接器，將多個訓練單元集成為一個系統托架（System Tray），通過托架間的互連，組成完整的機柜（cabinet），并最終形成龐大的 exaPOD 計算集群。系統的對外通信由 DIP 承擔。DIP 作為連接主機系統的“網關”，通過支持特斯拉自研傳輸協議（TTP）的標準 PCIe 4.0 總線與服務器進行數據交換。
然而，Dojo 最具雄心的晶圓級集成方案，也構成了其最大的可制造性難題。高良率地制造一個晶圓尺寸、包含 25 顆 D1 芯片和數千個高速互連的復雜模組，對現有工藝是巨大的考驗。基底晶圓上任何微小的布線缺陷，或是在 D1 芯片的貼裝與鍵合過程中出現任何瑕疵，都可能導致整個價值不菲的訓練單元直接報廢，從而造成良率損失。
Dojo 的設計哲學，本質上是通過復雜的編程來實現高標準的制造工藝，進而獲得理論上的峰值性能。精簡的內存模型需要復雜的軟件，前瞻性的晶圓級互連將半導體制造工藝難度推到了極限，創造了一個在概念上出色但在規模化實現上極其困難的系統。
直接后果體現：極低的良率這種架構復雜性的直接后果是極低的制造良率。由于新穎設計和芯片集成互連結構所需的高精度，Dojo 芯片中有較高比例有缺陷且無法使用。這個制造瓶頸是最終的技術障礙，架構層面的前瞻設計最終導向了產業鏈的剛性制約。
可以說，Dojo 項目的終止是必然結果，其核心在于特斯拉的宏大技術構想與半導體產業客觀規律之間的尖銳矛盾。前者是特斯拉打造完美 AI 超算的“執念”，后者則是半導體制造嚴苛的物理規律與經濟成本。當能夠平衡二者的核心技術團隊離開后，項目的失敗便無可避免。Dojo 是一次雄心勃勃的“射月”計劃，但最終還是回到了地面。這次嘗試劃定了特斯拉技術愿景的邊界，也為行業留下了關于技術路線與商業化可行性的深刻啟示。
本文來源于：華泰證券，作者：何翩翩、易楚妍，原文標題：《從射月到折戟：淺談特斯拉Dojo 的隕落》

標簽：芯片核心內存架構系統技術項目成本瓶頸軟件性能公司良率層面硬件 晶圓級 傳統原因 復雜性 團隊模組 產業鏈 結構晶圓戰略所需 人才流失 臺積電 背景理論淺談壓

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

同類資訊

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

全站最新

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

熱門推薦

阿里千問緊急辟謠

力積存儲再度遞表沖擊港股IPO：近年累虧超5億元，利基DRAM布局下仍面臨多重挑戰

一加中國區總裁李杰：Turbo系列擁有“超巨量的電池”

華為云零售峰會2025：Data+AI雙引擎實效落地，共筑智能時代新零售

安卓上線“擴展深色主題”設置，專治堅守淺色UI的“不聽話”App

國產GPU四小龍IPO齊活！最后一個剛剛公布

蚌埠滕湖機場完成驗證試飛！

中國新礦物團隊再添一員！“金秀礦”正式命名背后有多難？｜封面專訪

羅永浩吐槽后，上海電信：WIFI速率不達標原因很多

李禮輝：必須加快制度創新，確定金融智能體的法律地位

TikTok美國迎“大結局”：持股19.9%合資方案對TikTok意味著什么？

紫光國微：在商業航天領域，公司的FPGA等系列產品正陸續導入

上海電信回應“WIFI速率不達標”

TikTok內部信“泄密”：被反復討論的“美國協議”，到底發生了什么？

我國科學家實現新一代光計算芯片研究新突破