谷歌DeepMind優(yōu)化AI模型新思路，計算效率與推理能力兼得

IP屬地中國·北京 編輯：朱天宇砍柴網(wǎng) 時間：2024-12-28 13:30:42

12 月 28 日消息，谷歌 DeepMind 團隊最新推出了“可微緩存增強”（Differentiable Cache Augmentation）的新方法，在不明顯額外增加計算負擔的情況下，可以顯著提升大語言模型的推理性能。
項目背景
在語言處理、數(shù)學和推理領(lǐng)域，大型語言模型（LLMs）是解決復雜問題不可或缺的一部分。
計算技術(shù)的增強側(cè)重于使 LLMs 能夠更有效地處理數(shù)據(jù)，生成更準確且與上下文相關(guān)的響應(yīng)，隨著這些模型變得復雜，研究人員努力開發(fā)在固定計算預算內(nèi)運行而不犧牲性能的方法。
優(yōu)化 LLMs 的一大挑戰(zhàn)是它們無法有效地跨多個任務(wù)進行推理或執(zhí)行超出預訓練架構(gòu)的計算。
當前提高模型性能的方法涉及在任務(wù)處理期間生成中間步驟，但代價是增加延遲和計算效率低下。這種限制阻礙了他們執(zhí)行復雜推理任務(wù)的能力，特別是那些需要更長的依賴關(guān)系或更高地預測準確性的任務(wù)。
項目介紹
“可微緩存增強”（Differentiable Cache Augmentation）采用一個經(jīng)過訓練的協(xié)處理器，通過潛在嵌入來增強 LLM 的鍵值（kv）緩存，豐富模型的內(nèi)部記憶，關(guān)鍵在于保持基礎(chǔ) LLM 凍結(jié)，同時訓練異步運行的協(xié)處理器。
整個流程分為 3 個階段，凍結(jié)的 LLM 從輸入序列生成 kv 緩存；協(xié)處理器使用可訓練軟令牌處理 kv 緩存，生成潛在嵌入；增強的 kv 緩存反饋到 LLM，生成更豐富的輸出。
在 Gemma-2 2B 模型上進行測試，該方法在多個基準測試中取得了顯著成果。例如，在 GSM8K 數(shù)據(jù)集上，準確率提高了 10.05%；在 MMLU 上，性能提升了 4.70%。此外，該方法還降低了模型在多個標記位置的困惑度。
谷歌 DeepMind 的這項研究為增強 LLMs 的推理能力提供了新的思路。通過引入外部協(xié)處理器增強 kv 緩存，研究人員在保持計算效率的同時顯著提高了模型性能，為 LLMs 處理更復雜的任務(wù)鋪平了道路。

免責聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點。其內(nèi)容真實性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

同類資訊

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

全站最新

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

熱門推薦

時間的“相對論”：為什么我們總覺得時間越跑越快？『心靈加油站』（271）

VC為何關(guān)心比鄰星之旅？滴水湖畔“仰望星空”，上海這樣求解未來

《電腦愛好者》雜志公眾號注銷、官網(wǎng)無法訪問，創(chuàng)刊至今已32年

剛說淘汰中國激光雷達，最后希望的 Luminar 就破產(chǎn)了？

王力宏伴舞機器人高難度后空翻后穩(wěn)穩(wěn)落地，馬斯克點贊！

長城歐拉出奇招：“一車多動力”打破單點競爭

上饒農(nóng)商行被罰240萬，上饒銀行被罰170萬

2025年流星雨迎來謝幕演出小熊座流星雨22日極大

雷軍轉(zhuǎn)發(fā)！小米汽車又獲獎再引發(fā)輿論安全追問

鴻蒙正奔騰！解碼中國自主操作系統(tǒng)的生態(tài)成熟好用的極限突圍

我國成功發(fā)射通信技術(shù)試驗衛(wèi)星二十三號

寶馬3系全球產(chǎn)量突破1800萬輛，50年傳奇仍在繼續(xù)

降息，突發(fā)！集體拉升，近8萬人爆倉！

給AI一雙眼睛：XR眼鏡正在重塑下一代智能終端

摩爾線程技術(shù)路線圖全面公開！刷新國產(chǎn)GPU推理天花板，新架構(gòu)能效飆10倍