
新智元報(bào)道
編輯:KingHZ 桃子
谷歌DeepMind掌門人斷言,2030年AGI必至!不過,在此之前,還差1-2個(gè)「Transformer級(jí)」核爆突破。恰在NeurIPS大會(huì)上,谷歌甩出下一代Transformer最強(qiáng)繼任者——Titans架構(gòu)。
2025年即將進(jìn)入尾聲,下一年AI將走向何方?
最近,谷歌DeepMind CEO Hassabis在一場(chǎng)訪談中,對(duì)未來(lái)12個(gè)月的「關(guān)鍵趨勢(shì)」做出重磅預(yù)測(cè)。

劃重點(diǎn)!!!主要有以下五大核心點(diǎn)——
多模態(tài)融合徹底打通
類人的視覺智能
語(yǔ)言+視頻深度融合
世界模型成為主流
智能體達(dá)到可靠應(yīng)用水平
Hassabis強(qiáng)調(diào),我們應(yīng)盡快Scaling現(xiàn)有的AI系統(tǒng),至少它們會(huì)成為最終AGI的「關(guān)鍵部件」。
甚至,它可能會(huì)成為那個(gè)終極的AGI系統(tǒng)。
不過話說(shuō)回來(lái),我們至少還需要1-2個(gè)像Transformer、AlphaGo這樣級(jí)別的突破才可以。
八年前,谷歌Transformer奠基之作出世,徹底改變了AI界。
如今,谷歌另一個(gè)極有潛力成為Transformer的全新架構(gòu)——Titans,正式在NeurIPS 2025亮相。
它完美融合了「RNN極速響應(yīng)+Transformer強(qiáng)大性能」,集兩者之大成。
即便在200萬(wàn)token上下文中,Titans召回率和準(zhǔn)確率最高。博客一出,在全網(wǎng)掀起了海嘯級(jí)地震。

正如Hassabis所言,「顛覆性」AGI已近在眼前!


DeepMind掌門人:2030年,AGI必至
今年早些時(shí)候,Hassabis就曾預(yù)測(cè),具備或超越人類能力的AGI,可能會(huì)在2030年之前實(shí)現(xiàn)。
在周四的公開對(duì)話中,Hassabis再度強(qiáng)調(diào):
AGI很可能是人類歷史上最具顛覆性的時(shí)刻之一,如今它正在加速逼近。
若要我給出一個(gè)時(shí)間,人類距離實(shí)現(xiàn)AGI僅剩下5到10年。
在談及未來(lái)愿景時(shí),Hassabis的聲音飽含憧憬:
我一直以來(lái)最大的夢(mèng)想、也是我奮斗一生的目標(biāo),是實(shí)現(xiàn)「豐饒時(shí)代」的理想社會(huì)。
一個(gè)人類面臨的最大問題都已被解決的世界。
比如,免費(fèi)的、可再生的清潔能源,也許人類解決了核聚變,或者造出了更優(yōu)的電池、太陽(yáng)能材料、半導(dǎo)體,在材料科學(xué)上取得突破;人類也攻克了許多疾病。
那樣一來(lái),人類將進(jìn)入一個(gè)全新的時(shí)代,一個(gè)后稀缺時(shí)代,人類很可能繁榮發(fā)展,走向星空,將意識(shí)播撒到銀河系。
但即使是那種烏托邦式的圖景,也伴隨著一些問題:如果這些技術(shù)能解決所有難題,那么我們?nèi)祟惔嬖诘哪康挠质鞘裁矗窟€會(huì)剩下什么問題讓我們?nèi)ソ鉀Q?
作為一個(gè)科學(xué)家,Hassabis為此感到擔(dān)憂,甚至對(duì)科學(xué)方法本身也是如此。這是其一。

而通往AGI的道路注定不會(huì)一帆風(fēng)順。
Hassabis指出,惡人和錯(cuò)誤使用AI的風(fēng)險(xiǎn)真實(shí)存在,甚至「災(zāi)難性后果」已開始顯現(xiàn)。
比如,對(duì)能源或供水系統(tǒng)的網(wǎng)絡(luò)攻擊,這些都已經(jīng)是顯而易見的攻擊目標(biāo)。
也許,目前還沒用上非常先進(jìn)的AI,但這種事基本已經(jīng)在發(fā)生了。
AI帶來(lái)最嚴(yán)重的后果,可能是滅絕級(jí)風(fēng)險(xiǎn)。他強(qiáng)調(diào),沒人確切知道人類滅亡概率P(doom),但直言:
這個(gè)風(fēng)險(xiǎn)不是零。只要不是零,那就必須認(rèn)真對(duì)待,投入資源應(yīng)對(duì)。
對(duì)Gemini 3探索不足10%
Hassabis認(rèn)為,最被低估的能力是Gemini能夠「觀看」視頻并回答相關(guān)概念性問題。
他舉例說(shuō),曾詢問Gemini電影《搏擊俱樂部》中的一個(gè)場(chǎng)景:
「打架前摘下了戒指,這個(gè)動(dòng)作有什么象征意義?」
Gemini回答,這代表主角脫離日常生活的象征,是對(duì)社會(huì)規(guī)范的拒絕,是一種「放棄身份」的宣言。
Gemini的這類「抽象理解」能力出乎他的意料。Hassabis認(rèn)為Gemini已經(jīng)具備某種「元認(rèn)知」。
還有另一個(gè)例子是Gemini Live功能。他認(rèn)為,多模態(tài)AI的潛力,遠(yuǎn)比大多數(shù)人今天所理解的要大得多。
每次DeepMind推出新版模型時(shí),Hassabis都會(huì)有種強(qiáng)烈的遺憾感:自己可能連這個(gè)系統(tǒng)的十分之一都沒來(lái)得及深入測(cè)試,就已經(jīng)要投入下一個(gè)版本的研發(fā)了。
而用戶們往往會(huì)比Gemini開發(fā)人員更快地發(fā)掘新功能,把模型用到連他們都沒想到的地方。
最核心的觀點(diǎn)
Hassabis最核心的觀點(diǎn)可能是AGI的實(shí)現(xiàn)路徑問題。
他認(rèn)為,我們距離真正的AGI還有大約5到10年的時(shí)間。
DeepMind對(duì)AGI的定義要求很高:要稱得上「通用」,AI系統(tǒng)必須全面具備人類的所有認(rèn)知能力,其中包括「創(chuàng)造力」和「發(fā)明能力」。
現(xiàn)在的LLM在某些領(lǐng)域已經(jīng)非常驚艷,堪比博士水平,甚至能拿奧林匹克金牌;但在另外一些領(lǐng)域,它們?nèi)匀淮嬖诿黠@缺陷,呈現(xiàn)出「參差不齊」的智力表現(xiàn)。

真正的AGI應(yīng)當(dāng)擁有「各項(xiàng)能力均衡發(fā)展」的穩(wěn)定智能。
這包括當(dāng)前模型所缺失的幾個(gè)關(guān)鍵能力:持續(xù)學(xué)習(xí)(continual learning)、在線學(xué)習(xí)(online learning)、長(zhǎng)期規(guī)劃和多步推理。
目前,大語(yǔ)言模型完全不具備這些能力。
他承認(rèn)存在一種可能性,即規(guī)模擴(kuò)展「可能就是AGI系統(tǒng)的全部」,盡管他認(rèn)為這種情況可能性較小。
這需要我們必須將規(guī)模擴(kuò)展推向絕對(duì)極限。
退一步說(shuō),規(guī)模擴(kuò)展至少會(huì)成為最終AGI的「關(guān)鍵構(gòu)件」。
Hassabis相信,它們未來(lái)會(huì)具備這些能力,但我們可能還需要一兩個(gè)重大技術(shù)突破。
而谷歌似乎已經(jīng)有了Transformer級(jí)的重大突破。


最強(qiáng)「Transformer」出世
幾天前,NeurIPS大會(huì)上一場(chǎng)對(duì)談中,谷歌首席科學(xué)家Jeff Dean和AI教父Hinton同框。
關(guān)于LLM和研究路線,Hinton當(dāng)場(chǎng)提出了一個(gè)尖銳的問題——
谷歌是否后悔發(fā)表Transformer論文?
Jeff Dean給出了干脆的回應(yīng):「不后悔!這項(xiàng)研究對(duì)世界產(chǎn)生了重大的影響」。

幾乎同一時(shí)間,谷歌放出了全新的架構(gòu)Titans,成為Transformer的最強(qiáng)繼任者!
此外,還有一個(gè)全新的MIRAS框架。
兩者的結(jié)合,可以讓 AI模型在運(yùn)行過程中動(dòng)態(tài)更新核心記憶,跑得更快,也能處理超長(zhǎng)規(guī)模的上下文。


眾所周知,Transformer最大瓶頸在于,上下文無(wú)限擴(kuò)展,會(huì)導(dǎo)致計(jì)算成本飆升。
除了業(yè)界迭代的RNN、Mamba-2等架構(gòu),谷歌也提出了新一代解決方案——
如上所述,Titans+MIRAS,就是一套把RNN速度和Transformer準(zhǔn)確性,結(jié)合起來(lái)的架構(gòu)與理論思路。

Titans(MAC)架構(gòu):通過一個(gè)長(zhǎng)時(shí)記憶模塊來(lái)壓縮歷史數(shù)據(jù),并將生成的摘要加入當(dāng)前上下文,再交由注意力機(jī)制處理
Titans是具體的模型架構(gòu)(工具),而MIRAS 是用于泛化這些方法的理論框架(藍(lán)圖)。
它們合起來(lái),實(shí)現(xiàn)了一種「測(cè)試時(shí)」記憶的能力。
在運(yùn)行時(shí),模型不再只是把信息壓成一段靜態(tài)狀態(tài),而是在數(shù)據(jù)不斷輸入時(shí)主動(dòng)學(xué)習(xí),即時(shí)更新自己的參數(shù)。
這個(gè)關(guān)鍵機(jī)制,可以讓模型立刻把新的、具體的信息加入到核心知識(shí)里。
值得一提的是,清華姚班校友鐘沛林參與了兩項(xiàng)工作。他博士畢業(yè)于哥倫比亞大學(xué),2021年起加入谷歌任研究科學(xué)家。


Titans:即時(shí)掌握新上下文
一個(gè)高效的學(xué)習(xí)系統(tǒng),需要既獨(dú)立又互相關(guān)聯(lián)的「記憶模塊」。
這一機(jī)制,就像人腦會(huì)將短期記憶和長(zhǎng)期記憶區(qū)分開來(lái)一樣。

為此,Titans引入了一種全新的神經(jīng)長(zhǎng)期記憶模塊,本質(zhì)上是一個(gè)深層神經(jīng)網(wǎng)絡(luò)(一個(gè)多層感知機(jī)MLP)。
它擁有更強(qiáng)的表達(dá)能力,在不丟失關(guān)鍵信息的同時(shí),總結(jié)海量?jī)?nèi)容。
有了Titans,LLM不只是記筆記,而是在真正理解并串聯(lián)整個(gè)故事。

論文地址:https://arxiv.org/pdf/2501.00663
更重要的是,Titans并非被動(dòng)存儲(chǔ)數(shù)據(jù),而會(huì)主動(dòng)學(xué)習(xí)如何識(shí)別并保留貫穿整個(gè)輸入的重要關(guān)系和概念主題。
衡量這一能力的核心指標(biāo)之一,谷歌將其稱之為「驚奇度」(surprise metric)。
假設(shè)遇到「高驚奇」度的信息時(shí),會(huì)被優(yōu)先寫入長(zhǎng)期記憶。而且,會(huì)隨著不斷學(xué)習(xí),自適應(yīng)管理權(quán)重,主動(dòng)遺忘不再需要的信息。

MIRAS:統(tǒng)一視角,序列建模
序列建模的每一次重大突破,本質(zhì)上都在使用同一種底層機(jī)制:高度復(fù)雜的聯(lián)想記憶模塊。
MIRAS獨(dú)到之處和實(shí)用價(jià)值在于,它看待AI建模的方式——
把各種架構(gòu)視為解決同一個(gè)核心問題的「不同手段」。
如何在融合新信息與舊記憶的同時(shí),不讓關(guān)鍵概念被遺忘。

MIRAS框架
MIRAS通過四個(gè)關(guān)鍵設(shè)計(jì)維度,來(lái)定義序列模型:
記憶架構(gòu)(Memory architecture):承擔(dān)信息存儲(chǔ)的結(jié)構(gòu),例如向量、矩陣,或像Titans深層多層感知機(jī)。
注意偏置(Attentional bias):模型內(nèi)部?jī)?yōu)化的學(xué)習(xí)目標(biāo),決定優(yōu)先關(guān)注哪些信息。
保留門(Retention gate):一種記憶正則化機(jī)制。MIRAS將傳統(tǒng)「遺忘機(jī)制」重新解釋為正則化形式,用于在學(xué)習(xí)新知識(shí)與保留舊知識(shí)之間取得平衡。
記憶算法(Memory algorithm):用于更新記憶狀態(tài)的優(yōu)化算法。

以MIRAS框架的視角審視近期序列模型

超越注意力
幾乎所有現(xiàn)行成功的序列模型,在處理偏置和保留機(jī)制時(shí),都依賴于均方誤差(MSE) 或點(diǎn)積相似度。這種依賴導(dǎo)致模型對(duì)異常值(outliers)過于敏感,并限制了其表達(dá)能力。
MIRAS突破了這一局限。
借鑒優(yōu)化理論與統(tǒng)計(jì)學(xué)文獻(xiàn),它構(gòu)建了一個(gè)生成式框架,開拓了更豐富的設(shè)計(jì)空間。
基于MIRAS,谷歌構(gòu)建了三款獨(dú)特的無(wú)注意力(Attention-free)模型:
YAAD
MONETA
MEMORA
在語(yǔ)言建模和常識(shí)推理任務(wù)中,Titans架構(gòu)在同等規(guī)模下,優(yōu)于最先進(jìn)的線性循環(huán)模型(如Mamba-2和Gated DeltaNet)以及Transformer++基線模型。

新穎的MIRAS變體(MONETA、YAAD、MEMORA)相比這些基線模型也提升了性能,驗(yàn)證了探索穩(wěn)健的非MSE優(yōu)化機(jī)制的優(yōu)勢(shì)。

重要的是,這些模型保持了高效的并行化訓(xùn)練和快速的線性推理速度。
這些新架構(gòu)最顯著的優(yōu)勢(shì)在于其處理超長(zhǎng)上下文的能力。
這在BABILong基準(zhǔn)測(cè)試中得到突出體現(xiàn),該任務(wù)需要對(duì)分布在超長(zhǎng)文檔中的事實(shí)進(jìn)行推理。
在BABILong基準(zhǔn)上,Titans以更少的參數(shù)量,表現(xiàn)優(yōu)于包括GPT-4等超大型模型在內(nèi)的所有基線模型。
Titans進(jìn)一步展示了可有效擴(kuò)展到超過200萬(wàn)token上下文窗口的能力。

Titans在超長(zhǎng)上下文推理任務(wù)上的性能表現(xiàn)
有Reddit網(wǎng)友預(yù)測(cè),或許我們?cè)诿魈欤涂梢钥吹讲捎肨itans架構(gòu)的Gemini 4。

正如網(wǎng)友所言,這可能是谷歌繼Transformer之后,首個(gè)重大突破!

在架構(gòu)層面,Titans+MIRAS補(bǔ)上了「記憶與持續(xù)學(xué)習(xí)」。
而在多模態(tài)能力層面,Gemini顯露「元認(rèn)知」的邊緣形態(tài)。
也許,AGI正加速到來(lái)。





京公網(wǎng)安備 11011402013531號(hào)