![]()
這項由香港科技大學、Moffett AI以及字節跳動種子團隊的研究人員共同完成的突破性研究發表于2025年12月,論文編號為arXiv:2512.05409v1。研究團隊包括香港科技大學的黃瑞軒和王帥,Moffett AI的曾浩、石金源和嚴恩旭,以及字節跳動種子團隊的黃涵濤和余明輝。這項研究首次提出了一種名為SQ-format的全新數據格式,能夠在幾乎不損失準確性的前提下,讓大語言模型的運行速度提升近一倍。
想象你正在整理一個巨大的圖書館,里面有數十億本書籍。傳統的整理方法就像是給每本書都分配同樣大小的書架空間,不管是字典還是薄薄的小冊子。但聰明的圖書管理員發現,大部分重要信息其實集中在少數幾本關鍵書籍中,而其余的書籍雖然數量龐大,但相對不那么重要。基于這個觀察,研究團隊設計出了一種"混合精度"的存儲方案——就像是給重要的書籍分配精裝書架,而給普通書籍分配簡易書架,這樣既節省了空間,又保證了重要信息的完整性。
當前大語言模型面臨的最大挑戰就像是一座城市的交通擁堵問題。這些模型就像超級計算機城市中的居民,每天需要處理海量的信息流量。傳統的解決方案是建造更寬的道路(提高計算精度),但這需要消耗大量資源。另一種方案是限制車輛大小(降低計算精度),但這可能影響運輸效率和質量。研究團隊巧妙地發現了第三條路:建造一個智能交通系統,讓重要的貨物走快速通道(高精度處理),而普通貨物走普通道路(低精度處理),這樣既保證了效率,又維持了質量。
一、重新定義數據的存儲方式
傳統的數據處理方式就像是用同一種尺寸的盒子來裝不同大小的物品。無論是裝珍珠還是裝石頭,都使用同樣大小的包裝盒,這顯然是一種資源浪費。SQ-format的核心創新在于提出了"分級包裝"的概念——根據內容的重要性選擇不同精度的存儲方式。
這種新格式的設計理念可以用一個餐廳的比喻來理解。在一家高端餐廳中,廚師會根據食材的珍貴程度采用不同的處理方式:頂級和牛需要精心烹制,而配菜土豆則可以用更簡單的方法處理。SQ-format就像是這樣的智能廚師,它會自動識別出數據中的"頂級食材"(重要數值)和"普通配菜"(一般數值),然后分別用高精度和低精度的方式進行處理。
具體來說,這種格式將數據分成兩個部分:一部分是稀疏分布的高精度數據,另一部分是密集分布的低精度數據。就像一個花園中,少數珍貴的花朵需要特殊照料,而大片的草坪則可以用常規方式維護。這種分層處理的方式讓計算資源得到了最優化的配置。
研究團隊發現,在大語言模型中,只有很小一部分數值對最終結果起到決定性作用,這些"關鍵數值"就像交響樂團中的首席小提琴手,雖然人數不多,但對整個演出的質量起到關鍵作用。而大部分數值則像是合唱團成員,雖然數量龐大,但個體的精確度要求相對較低。基于這個發現,SQ-format能夠智能地識別出這些關鍵數值,并為它們分配更高的精度,同時對其他數值使用較低的精度進行處理。
二、智能識別重要信息的兩種策略
為了實現這種分級處理,研究團隊開發了兩套互補的策略,就像一個智能安保系統同時使用面部識別和指紋識別兩種技術來確保安全性。
第一種策略專門針對模型的權重數據,這些數據就像是一個公司的組織架構圖,相對固定且重要性分布明確。研究團隊結合了兩種已有的優化技術:GPTQ和SmoothQuant。這個過程就像是對公司進行重組優化,首先通過SmoothQuant技術對整個權重矩陣進行"平滑處理",就像是在重組前先整理公司的部門結構。然后使用GPTQ技術的海塞矩陣來計算每個權重的重要性得分,這就像是通過數據分析來評估每個員工對公司業績的貢獻度。
重要性得分的計算公式融合了權重本身的大小和模型對該權重變化的敏感度。就像評估一個齒輪在機器中的重要性時,既要考慮齒輪本身的大小,也要考慮這個齒輪停止工作時對整臺機器的影響程度。通過這種綜合評估,系統能夠準確識別出那些對模型性能起關鍵作用的權重,并將它們標記為需要高精度處理的對象。
第二種策略則針對激活數據,這些數據就像是流水線上實時變化的產品,需要動態處理。由于激活數據的動態特性,研究團隊設計了一種靜態預測策略來避免實時計算的開銷。這就像是氣象預報系統,雖然天氣每天都在變化,但通過分析歷史數據和模式,可以提前預測出哪些時間段可能出現重要天氣變化。
這種靜態策略首先在校準數據集上收集每個通道的平均激活值,然后考慮激活值與權重矩陣的乘積貢獻來重新定義重要性得分。這就像是分析一個樂隊中每個樂器的演奏模式,雖然每首曲子的具體表現會有差異,但通過分析大量曲目,可以識別出哪些樂器在特定類型的音樂中通常起主導作用。這種預測性的方法讓系統能夠在不增加實時計算負擔的情況下,提前確定哪些激活通道需要高精度處理。
三、突破現有硬件限制的設計理念
現有的計算硬件就像是一個只能處理固定尺寸貨物的運輸系統。比如GPU的張量核心,就像是專門設計用來運輸標準集裝箱的港口設備,當遇到非標準尺寸的貨物時,就需要進行復雜的轉換和適配,這個過程不僅低效,還可能影響整體的運輸效率。
SQ-format的硬件設計策略就像是重新設計了一個靈活的物流系統。這個系統包含兩條并行的處理通道:一條專門處理高精度的稀疏數據,另一條處理低精度的密集數據。就像現代機場有不同的安檢通道,VIP乘客走快速通道接受精密檢查,普通乘客走標準通道接受常規檢查,兩個通道并行運行,既保證了安全性,又提高了整體效率。
對于權重數據的處理,硬件設計采用了巧妙的掩碼機制。低精度部分保持原有的存儲格式,但使用特殊的掩碼值來標識需要高精度處理的位置。這就像是在普通的停車場中設置了一些特殊標記,當系統掃描到這些標記時,就知道需要調用特殊的處理流程。這種設計的優勢在于,低精度部分可以直接由現有的張量核心處理,而高精度部分則通過專門的收集單元來處理稀疏數據。
研究團隊通過硬件仿真驗證了這種設計的可行性。他們使用臺積電12納米工藝進行了RTL綜合實驗,結果顯示即使增加了處理動態掩碼所需的收集單元,整體硅面積仍然比標準的INT6乘加陣列減少了35.8%。這就像是重新設計了一個工廠布局,雖然增加了一些新的設備,但通過優化整體流程,反而減少了總體的占地面積。
四、實驗證明的顯著性能提升
研究團隊在多個大語言模型上進行了廣泛的實驗驗證,就像是在不同類型的車輛上測試新型燃油系統的效果。實驗涵蓋了從80億參數的Llama-3-8B到700億參數的Llama-3-70B,以及300億參數的Qwen-3-30B等多種模型規模。
在準確性方面,SQ-format展現出了令人印象深刻的性能保持能力。以Llama-3-8B為例,在非生成任務上,SQ-format達到了與傳統W4A8方法幾乎相同的準確性,平均準確率差異小于1%。這就像是用新型燃油的汽車不僅保持了原有的動力性能,在某些情況下甚至還有所提升。在生成任務上,SQ-format在GSM8k數學問題求解任務中的表現甚至超過了某些傳統方法,顯示出其在復雜推理任務中的潛力。
更重要的是吞吐量的顯著提升。研究團隊測量了端到端的預填充延遲,發現在Llama-3-8B上能夠實現最高1.17倍的速度提升,而在更大的Llama-3-70B模型上,速度提升更是達到了1.71倍。這種性能提升就像是通過智能交通管理系統,在不增加道路寬度的情況下,讓車流量提升了近一倍。
特別值得注意的是,SQ-format成功地彌合了理論效率和實際部署之間的鴻溝。傳統的W4A8量化方法在理論上應該比W8A8更高效,但由于硬件限制,實際運行時往往需要回退到W8A8的執行路徑。SQ-format通過將大部分計算轉換為W4A4路徑,同時保持接近W4A8的準確性,真正實現了理論與實踐的統一。
在不同稀疏度設置下的實驗結果也很有啟發性。從50%稀疏度(2倍稀疏)到93.75%稀疏度(16倍稀疏),隨著稀疏度的增加,計算吞吐量穩步提升,就像是逐漸減少快速通道的使用比例,將更多計算任務轉移到高效的低精度通道上。這種可調節的設計讓用戶能夠根據具體需求在準確性和性能之間找到最佳平衡點。
五、靜態策略解決實際部署挑戰
在實際應用中,動態選擇重要數據就像是在高速公路上臨時決定哪些車輛可以使用快速車道,這種實時決策雖然理論上最優,但會帶來額外的管理開銷和復雜性。為了解決這個問題,研究團隊開發了靜態預測策略,這就像是根據歷史交通數據預先規劃好快速車道的使用規則,避免了實時決策的復雜性。
靜態策略的核心思想是通過分析校準數據集來提前確定激活通道的重要性排序。這個過程就像是一個經驗豐富的廚師,通過長期觀察發現某些調料在大多數菜品中都起關鍵作用,因此可以提前準備好特殊的存儲和處理方式。研究團隊發現,僅僅基于激活值大小來判斷重要性是不夠的,就像判斷一個員工的價值不能只看工作時間的長短,還要考慮工作成果的影響力。
因此,他們重新定義了重要性評分公式,將激活值與對應權重的乘積貢獻作為評判標準。這就像是評估一個齒輪的重要性時,不僅要看齒輪本身的大小,還要考慮它所連接的整個傳動系統的復雜程度。通過這種綜合評估,靜態策略能夠更準確地識別出真正影響模型性能的關鍵通道。
實驗結果顯示,靜態策略與動態策略在性能上幾乎不相上下,平均準確率差異保持在1%以內。這個結果就像是發現預設的交通規則和實時調度在效果上基本相當,但前者的實施成本要低得多。更重要的是,靜態策略完全消除了實時TopK操作的開銷,讓整個系統能夠在現有GPU上流暢運行,而不需要等待專門的硬件支持。
靜態掩碼的存儲開銷也非常小。以Llama-3-70B模型為例,整個靜態掩碼只需要5.94MB的存儲空間,這相對于模型本身140GB的大小來說幾乎可以忽略不計,就像是在一個大型倉庫中添加了一個小小的導航牌,成本微不足道但效果顯著。
六、硬件算法協同設計的深度探索
研究團隊深入探討了不同參數配置對性能的影響,這就像是調音師為不同類型的音樂會調試音響系統的各種參數。他們發現,銀行大小(bank size)和稀疏度之間存在著微妙的平衡關系,這種關系就像是烹飪中火候與時間的配合,需要根據具體情況進行精細調節。
在權重數據的處理中,隨著稀疏度的增加,最優銀行大小也會相應增大。這就像是隨著VIP客戶比例的減少,需要增大普通服務區域的容量來保持整體服務效率。具體來說,當稀疏度達到16倍時,銀行大小需要至少達到64才能獲得最佳性能。這個發現對硬件設計具有重要指導意義,因為它直接影響到多路選擇器(MUX)的復雜度和芯片面積。
對于激活數據的處理,靜態策略傾向于使用較小的銀行大小,這與權重數據的趨勢正好相反。這種差異就像是不同類型的生產線需要不同的組織方式,流水線生產適合大批量標準化產品,而定制化生產則需要更靈活的小型工作單元。這種發現讓研究團隊意識到,針對不同類型數據需要采用不同的優化策略。
在高低精度配置的選擇上,研究團隊發現了一個重要的平衡點。當低精度位寬降到2位時,即使引入高精度元素也難以補償信息損失,這就像是用過于簡陋的工具來處理精密工作,無論如何補救都難以達到理想效果。而8位/4位的組合則提供了最佳的性能平衡,就像是找到了工具精度和使用效率的最佳平衡點。
稀疏度的計算平衡也是一個關鍵考慮因素。研究團隊指出,稀疏度的選擇需要考慮硬件的計算能力差異。比如,如果8位計算的速度是4位計算的四倍,那么稀疏度需要至少達到75%才能讓高精度路徑的計算時間被低精度路徑完全掩蓋。這就像是設計一個雙車道系統時,需要確保快車道的車流密度足夠小,這樣即使單車處理時間更長,也不會影響整體通行效率。
七、面向未來的硬件設計指導
SQ-format不僅解決了當前的性能問題,更為未來AI加速器的設計提供了寶貴的指導思路。研究團隊通過大量實驗總結出了一套設計準則,這些準則就像是建筑師在設計摩天大樓時需要遵循的結構原理,為未來的硬件發展指明了方向。
首先,銀行化設計成為了核心原則。就像現代城市規劃中的分區管理概念,將大型計算任務劃分為多個可管理的銀行單元,每個銀行內部采用固定的稀疏模式。這種設計避免了不規則稀疏模式帶來的負載不平衡問題,就像是通過標準化的城區規劃來避免交通擁堵和資源分配不均。
其次,多精度并行處理架構展現出了巨大潛力。這種架構就像是現代工廠中的多條生產線,每條生產線專門處理不同復雜度的產品,通過專業化分工來提高整體效率。高精度路徑處理關鍵但稀疏的數據,低精度路徑處理大量的常規數據,兩者并行運行,互不干擾。
研究團隊還提出了動態掩碼處理單元的設計方案。這種單元就像是智能分揀系統,能夠在流水線上實時識別和分離不同類型的產品。雖然這個單元會增加一定的硬件復雜度,但RTL綜合結果顯示,整體面積效率仍然比傳統設計提升了35.8%。這證明了通過智能化設計,完全可以在增加功能的同時減少資源消耗。
對于校準數據集大小的研究也提供了實用的指導。實驗表明,即使使用相對較小的校準數據集,靜態策略的性能也保持穩定。這就像是發現只需要少量樣本就能準確預測整體趨勢,這大大降低了實際部署時的數據收集成本和時間開銷。
八、實際應用中的表現驗證
為了驗證SQ-format在真實應用場景中的表現,研究團隊進行了端到端的延遲測試。這些測試就像是對新型交通系統進行的實路測試,不僅要看理論指標,更要在真實環境中驗證實際效果。測試使用了WikiText數據集,模擬了典型的文本生成任務場景。
結果顯示,在Llama-3-8B模型上,不同稀疏度配置下的速度提升從1.07倍到1.17倍不等,而在更大的Llama-3-70B模型上,速度提升更是達到了1.32倍到1.71倍。這種規模效應就像是大型貨輪比小型漁船更能體現新型推進系統的優勢,模型越大,SQ-format的效率提升越明顯。
有效內存帶寬的提升也很顯著。這個指標就像是衡量高速公路實際通行能力的標準,不僅要看道路寬度,還要考慮實際車流密度和平均車速。SQ-format在各種模型上都實現了內存帶寬的顯著提升,這意味著同樣的硬件資源能夠處理更多的數據流量。
研究團隊還測試了SQ-format在浮點數據類型上的表現。他們在DeepSeek-R1模型上應用了FP8/FP4的量化組合,在稀疏度為87.5%的設置下,獲得了等效5位的壓縮效果,同時保持了與原始BF16模型幾乎相同的性能表現。這就像是驗證了新的壓縮技術不僅適用于整數數據,在更復雜的浮點數據上同樣有效。
九、技術細節的深入解析
SQ-format的數學定義可以用一個精密的分類系統來理解。整個格式包含量化矩陣、稀疏矩陣、掩碼向量以及高低精度配置等多個組件,就像是一個完整的檔案管理系統,每個文件都有其特定的存儲位置和訪問方式。
掩碼機制的設計尤為巧妙。在權重量化中,系統使用對稱量化方式,并將未使用的最大值作為高精度掩碼標識。這就像是在標準的產品編碼系統中,特意保留某個編號來表示"特殊處理"的含義。比如在INT2格式中,正常值域為{-1, 0, 1},而值2被專門用來標識該位置需要使用高精度數據。
重要性評分的計算融合了多種因素。對于權重數據,評分公式結合了權重的平方值和海塞矩陣的對角線倒數,這就像是評估一個員工時既考慮其能力大小,也考慮其崗位的關鍵程度。對于激活數據,評分則基于激活值與權重乘積的貢獻,更加注重實際的協同效應。
銀行內的精度分配策略也體現了精細化管理的思想。系統不是隨機選擇高精度元素,而是根據重要性評分在每個銀行內選擇前(1-s)比例的關鍵元素。這就像是在每個部門內部都要保留一定比例的核心骨干,確保關鍵功能不會受到影響。
靜態策略中的權重重排序功能為硬件優化提供了額外的便利。通過根據重要性掩碼重新排列權重矩陣的列,系統能夠改善數據局部性,就像是重新整理倉庫貨物的擺放位置,讓常用物品更容易取用。這種優化雖然看似細微,但對硬件內核的執行效率有顯著影響。
說到底,SQ-format代表了AI硬件軟件協同設計的一個重要里程碑。它不是簡單地追求更高的壓縮率或更快的速度,而是在深度理解模型特性的基礎上,找到了準確性、效率和硬件友好性之間的最佳平衡點。這種設計哲學就像是優秀的建筑師不僅要考慮建筑的美觀和實用,還要兼顧成本控制和施工可行性。
研究團隊的工作證明了一個重要觀點:面向未來的AI技術發展,單純的軟件優化或硬件升級都是不夠的,只有通過深度的軟硬件協同設計,才能真正釋放AI系統的潛力。SQ-format為這種協同設計提供了一個成功的范例,為后續的研究和產業發展指明了方向。這項技術不僅能夠立即改善現有AI系統的性能,更為構建下一代AI計算基礎設施提供了重要的技術儲備。
隨著大語言模型在各個領域的廣泛應用,對計算效率的需求將越來越迫切。SQ-format這樣的創新技術讓我們看到,通過巧妙的設計和深入的優化,完全可以在不犧牲質量的前提下大幅提升AI系統的運行效率。這不僅意味著更低的部署成本和更廣泛的應用可能,也為AI技術的民主化奠定了重要基礎。當AI系統變得更加高效和易于部署時,更多的組織和個人將能夠享受到AI技術帶來的便利和價值。
Q&A
Q1:SQ-format是什么樣的技術?
A:SQ-format是香港科技大學等機構開發的一種新型數據格式,它能夠智能識別大語言模型中的重要信息和普通信息,然后用不同精度進行處理。就像智能分揀系統一樣,重要數據用高精度處理,普通數據用低精度處理,這樣既保證了準確性又提升了運行速度。
Q2:SQ-format能帶來多大的性能提升?
A:在實際測試中,SQ-format能讓大語言模型的運行速度提升1.17到1.71倍,具體提升幅度取決于模型大小。更大的模型通常能獲得更明顯的速度提升。同時,這種技術幾乎不會損失模型的準確性,平均準確率差異小于1%。
Q3:普通用戶什么時候能用上SQ-format技術?
A:SQ-format目前還是學術研究階段,需要專門的硬件支持才能發揮最佳效果。不過研究團隊也開發了可以在現有GPU上運行的版本,預計隨著相關硬件的發展和技術的成熟,未來幾年內可能會逐步應用到實際的AI產品中。





京公網安備 11011402013531號