IT之家 10 月 17 日消息,EXO Labs 昨日展示了其“分布式推理”新成果,解決了被部分網友戲稱為“世紀難題”的選擇問題 —— 買 AI 小主機究竟是買蘋果 Mac Studio 還是買英偉達 DGX Spark?
如圖所示,EXO Labs 同時使用了兩臺 NVIDIA DGX Spark 與一臺搭載 M3 Ultra 芯片的 Mac Studio,在 AI 大語言模型推理測試中取得 2.8 倍性能提升。
![]()
該成果基于 EXO Labs 的開源項目 EXO,該框架旨在讓大語言模型(LLM)能夠高效運行于不同硬件的混合環(huán)境中。
與傳統僅依賴單一 GPU 或加速器的推理方式不同,EXO 可將工作負載自動分配到多種設備上,使臺式機、筆記本、服務器甚至平板電腦與智能手機組成類似 WiFi Mesh 網絡的“AI Mesh”。
DGX Spark 與 M3 Ultra 的互補組合
正如 EXO 所述,3999 美元(IT之家注:現匯率約合 28505 元人民幣)的 DGX Spark 側重計算性能,而 5599 美元(現匯率約合 39910 元人民幣) Mac Studio 則在數據帶寬上更具優(yōu)勢。在這里,EXO 直接將兩臺 DGX Spark 與一臺 Mac Studio 組合成統一的 AI 系統。
![]()
大型語言模型的推理過程通常分為兩個階段:
預填充(prefill)階段:模型讀取和處理輸入提示,這一階段主要受計算性能限制;解碼(decode)階段:模型逐個生成新詞元(token),此過程更依賴內存帶寬。
![]()
EXO 的方案是將兩階段分配給不同設備執(zhí)行:
DGX Spark 負責計算密集的預填充任務,而 M3 Ultra 負責帶寬敏感的解碼任務。系統通過逐層傳輸模型的內部數據(稱為 KV 緩存),實現兩臺設備的同時工作,而非依次等待。
在使用 meta Llama-3.1 8B 模型進行的基準測試中,該混合架構相較單獨使用 Mac Studio,推理性能提升 2.8 倍。測試中 DGX Spark 的預填充速度比 Mac Studio 快 3.8 倍,而 Mac Studio 的生成速度又比 DGX Spark 快 3.4 倍,實現了性能互補。
![]()
“分布式推理”助力低成本擴展 AI 算力
EXO 的實驗展示了一種不同于傳統單機加速的 AI 擴展思路。未來 AI 性能的提升,或不再依賴單一大型加速器,而是通過更智能的硬件協同實現整體算力的提升。
類似的理念也出現在 NVIDIA 自家的新一代 Rubin CPX 平臺設計中:計算密集型的上下文構建由 Rubin CPX 處理器完成,而具有高帶寬 HBM3e 內存的標準 Rubin 芯片負責解碼階段,與 EXO 在現成硬件上實現的原理一致。
EXO 1.0 仍處早期階段
EXO 當前的早期訪問版本 1.0 仍屬實驗性質,尚未全面公開。現有的開源版本 0.0.15-alpha 發(fā)布于 2025 年 3 月,后續(xù)版本計劃引入自動調度、KV 流式傳輸和異構硬件優(yōu)化功能。
目前 EXO 仍是研究級工具,尚不適合普通消費者直接使用,但其演示結果表明:通過智能調度不同硬件資源,分布式推理架構能在無需大型數據中心的前提下顯著提升 AI 性能。





京公網安備 11011402013531號