![]()
新智元報道
編輯:LRST
港大、港科大與西電團隊登上Nature子刊,破解AI芯片核心難題。他們攻克存算一體架構中模數(shù)轉換器(ADC)這個占能耗87%的「黑洞」,利用憶阻器可編程特性打造能自適應數(shù)據(jù)分布的「智能標尺」,使AI芯片功耗銳減57.2%,面積縮小30.7%,為下一代高效AI硬件系統(tǒng)開辟新路。
在AI算力需求呈指數(shù)級暴漲的今天,為了突破算力瓶頸,「存算一體」(CIM)架構被視為AI推理芯片的未來。
其利用基本物理定律實現(xiàn)計算,相比于GPU有顯著的能效優(yōu)勢,但一個關鍵的「能耗黑洞」——模數(shù)轉換器(ADC)——卻嚴重阻礙了其發(fā)展。
在先進的存算一體芯片中,ADC竟吞噬了高達87.8%的能耗和75.2%的面積,極大壓制了存算一體AI芯片本應有的巨大潛力。
近日,來自香港大學、香港科技大學與西安電子科技大學的由劉正午、張薇、李燦、黃毅領導的聯(lián)合研究團隊正面攻克了這一難題,論文第一作者洪海橋在國際上首次提出了一種基于憶阻器的硬件原生自適應ADC架構。
![]()
論文鏈接:https://www.nature.com/articles/s41467-025-65233-w
論文代碼:https://github.com/MIKEHHQ/ReADC
該設計創(chuàng)新性地利用憶阻器的可編程特性,讓ADC這把「標尺」變得智能且高效,將存算一體芯片中ADC模塊的能耗開銷銳減57.2%,面積降低30.7%,為下一代高效AI硬件系統(tǒng)鋪平了道路。
模擬域存算一體的優(yōu)勢與困局
要理解這項突破的意義,我們首先要明白AI芯片為什么「渴求」存算一體。
在傳統(tǒng)的馮·諾依曼架構(目前我們電腦和手機都在使用)中,計算單元(CPU/GPU)和存儲單元(內(nèi)存)是分離的。AI進行計算時,需要消耗巨量能量和時間,在兩個單元之間來回搬運數(shù)據(jù)。這就是所謂的「馮·諾依曼瓶頸」,也是AI計算中心能耗高昂且難以在終端部署的根本原因。
「存算一體」(CIM)架構因此誕生。
顧名思義,它在存儲器(比如憶阻器)內(nèi)部直接進行計算,近乎徹底地消除了數(shù)據(jù)搬運。
其中,模擬域存算一體被認為極具潛力,它利用憶阻器等新型器件陣列,通過物理定律(如基爾霍夫電流定律)「瞬間」完成AI最核心的矩陣乘加運算,能效極高。
但問題隨之而來:計算在模擬世界連續(xù)的電壓或電流中完成,而后續(xù)處理單元工作在數(shù)字世界(0和1)。連接這兩個世界的「翻譯官」——模數(shù)轉換器(ADC)——成為了新的瓶頸。
這個「翻譯官」的工作效率極低。根據(jù)論文中的數(shù)據(jù),在一些先進的存算一體芯片中,ADC的能耗占比高達87.8%,面積占比高達75.2%,幾乎壓制了存算一體本應具備的巨大能效優(yōu)勢,成為了阻礙AI芯片落地的關鍵技術難點。
傳統(tǒng)的ADC為何如此「臃腫」?
硬件笨重:傳統(tǒng)ADC需要一個「標尺」來測量模擬電壓。這把「標尺」通常由大量的電容器(Capacitor)或電阻器(Resistor)陣列構成,它們像尺子上的刻度。所需刻度越多(即精度越高),能區(qū)分的電壓就越多,但這個陣列就越龐大,能耗和面積也隨之激增。
標尺僵化:更糟糕的是,這把「標尺」通常是固定且均勻的(例如0, 1, 2, 3...)。但AI模型中不同網(wǎng)絡層的計算結果(模擬電壓)分布往往是非均勻的,如下圖所示,有的數(shù)據(jù)集中在中間,有的則是多峰或者偏向兩端。用一把均勻的尺子去測量一堆分布不均的數(shù)據(jù),會造成巨大的精度損失。
![]()
(a) 存算一體陣列中不同層(Conv 1, 2, 3)的數(shù)據(jù)分布各不相同;(b) CIM系統(tǒng)流程;(c) ADC(粉色)在CIM系統(tǒng)中占據(jù)了絕大多數(shù)的能耗(87.8%)和面積(75.2%)。
為了彌補這種損失,設計師又被迫使用更高精度的ADC(更密的刻度),導致硬件開銷和延遲進一步惡化,陷入了死循環(huán)。
用憶阻器打造一把可編程的「智能標尺」
面對這一困局,港大、港科大與西電的聯(lián)合團隊提出了一個顛覆性的解決方案:為什么不直接用憶阻器來打造這把「標尺」呢?
憶阻器(Memristor)是一種神奇的可編程非易失器件,它的電阻值不是固定的,而是可以通過施加電壓來連續(xù)調(diào)控,并且在斷電后仍能「記住」這個電阻值。
研究團隊基于憶阻器設計了一種全新的「量化單元」(Q-cell),它替代了傳統(tǒng)ADC中龐大的電阻/電容陣列,這把新「標尺」的核心優(yōu)勢在于——它是完全可編程的,并且具備低能耗和緊湊的面積。
![]()
(a) 論文提出的基于憶阻器(M1, M2)的Q-cell核心電路;(c, d) 多個Q-cell和一個解碼器(Decoder)共同構成一個完整的ADC。
通過改變Q-cell中憶阻器的電阻,研究人員可以隨心所欲地設定「標尺」上每一個「刻度」的位置。這帶來了兩大革命性優(yōu)勢:
硬件原生自適應:標尺不再是僵化的。研究團隊利用Lloyd-Max算法,先分析AI模型中每一層的數(shù)據(jù)到底長什么樣,然后「反推出」一套最優(yōu)的「刻度」方案,最后通過編程憶阻器,將這把定制的「標尺」在硬件上復現(xiàn)出來。這使得ADC能完美貼合數(shù)據(jù)分布,極大降低了量化誤差,顯著提高存算一體芯片推理精度。
極致的硬件效率:憶阻器本身就是納米級的存儲器件,用它來構建ADC,其能耗和面積相比傳統(tǒng)方案實現(xiàn)了數(shù)量級的降低。
亮點一:ADC自身能效暴漲,面積劇減
團隊將憶阻器ADC與在ISSCC/VLSI等頂會發(fā)表的先進ADC設計進行了全方位對比。結果顯示,在5-bit精度下,憶阻器ADC的能效提升了15.1倍,而面積縮小了12.9倍。
![]()
(a) 憶阻器ADC(紅星)與SOTA ADC在能效-面積圖上的對比,(b) 憶阻器ADC的能耗與面積構成分析。
亮點二:系統(tǒng)能耗「黑洞」被填平
當把這款高效的憶阻器ADC集成回存算一體AI芯片中時,其系統(tǒng)級優(yōu)勢立刻顯現(xiàn)。
以VGG8網(wǎng)絡為例,ADC模塊在系統(tǒng)總能耗中的占比從驚人的79.8%銳減至22.5%;在總面積中的占比也從47.6%壓縮至16.9%,這也就是說整個存算一體芯片因ADC的突破,功耗和面積分別凈降低了57.2%和30.7%。
這意味著ADC這個最大的「能耗黑洞」被徹底攻克,存算一體芯片終于可以釋放其應有的超高能效潛力。
![]()
系統(tǒng)級能耗與面積對比。集成憶阻器ADC后,ADC的開銷被極大壓縮,系統(tǒng)總能耗和總面積顯著降低。
亮點三:變Bug為Feature,獨創(chuàng)「超分辨率」策略
模擬器件(包括憶阻器)天然存在「器件差異性」(Variation),即便是同一批生產(chǎn)的兩個器件,其特性也不可能100%相同,在寫入讀取時還會有波動或誤差。這通常被視為硬件的「缺陷」,會導致精度下降。
在復雜的ResNet18網(wǎng)絡測試中,團隊也觀察到了這一現(xiàn)象:器件差異導致ADC標尺輕微錯位,使得網(wǎng)絡準確率有所下降。
但團隊獨創(chuàng)性地提出了一種「超分辨率」(Super-resolution)策略,巧妙地將這個「缺陷」轉化為了「優(yōu)勢」。
他們的方法是同時使用兩個憶阻器ADC來量化同一個信號。由于器件差異,這兩把「標尺」的刻度會有些許錯位。當一個輸入電壓剛好落在「刻度」邊緣時,兩個ADC可能會給出不同的數(shù)字(比如一個判為「4」,一個判為「5」)。
研究團隊利用這種「分歧」來反向推斷——這說明信號的真實值恰好處在「4」和「5」的邊界上。通過這種不同于求取平均值的方式,他們憑空創(chuàng)造出了一個更精細的「刻度」,實現(xiàn)了超越單個ADC的「超分辨率」。
結果令人振奮:在使用該策略后,ResNet18的推理準確率不僅完全恢復(圖6e中第四組相比于第二組數(shù)據(jù)),甚至在4-bit等配置下反超了沒有器件差異的理想軟件基準! 這一「變Bug為Feature」的思路,為解決模擬計算的硬件缺陷提供了全新的視角。
![]()
自適應量化與超分辨率策略的性能。(a, b) 自適應量化(紅色)相比均勻量化(藍色)能更好地擬合數(shù)據(jù)分布,均方誤差(MSE)從14.99降至3.10;(c, e) 在VGG8和ResNet18網(wǎng)絡上,自適應量化均大幅優(yōu)于均勻量化;(d, f) 獨創(chuàng)的超分辨率(SR)策略成功克服了器件差異帶來的精度下降。
亮點四:全面的硬件實驗驗證
為了確保研究的可靠性,團隊并不僅僅停留在仿真。他們實際制造了8×8的憶阻器陣列,并進行了全面的實驗表征。
實驗證明,這些器件具有高度一致的可編程性(標準差僅2.73 μS)和穩(wěn)定性(1000次讀取循環(huán)下波動<0.05%),并能承受超過3000萬次的編程-擦除循環(huán),為憶阻器ADC的可靠性提供了堅實的硬件基礎。
此外,團隊還基于28nm工藝完成了5-bit ADC的完整版圖設計,驗證了其在先進工藝下的面積優(yōu)勢。
![]()
(a) 實際制造的8x8憶阻器陣列顯微圖像;(b) 器件的多級電導調(diào)控(SET/RESET);(c) 陣列上64個器件的編程一致性統(tǒng)計;(d) 多個電導狀態(tài)的讀取穩(wěn)定性。
總結
這項工作直面了模擬存算一體落地中最關鍵的ADC瓶頸,通過將憶阻器的可編程性與ADC的功能需求創(chuàng)新性地結合,打造出了一款高效、智能、自適應的硬件原生ADC。
它不僅在器件層面實現(xiàn)了數(shù)量級的能效和面積增益,更在系統(tǒng)層面攻克了ADC的能耗黑洞,同時還巧妙地將硬件缺陷轉化為性能優(yōu)勢。
這項研究為下一代高效、精準AI硬件系統(tǒng)的研發(fā)提出新的技術路徑,有望加速存算一體芯片的產(chǎn)業(yè)化進程。
![]()
參考資料:
https://www.nature.com/articles/s41467-025-65233-w





京公網(wǎng)安備 11011402013531號