
新智元報道
編輯:Aeneas 傾傾
谷歌大模型將迎顛覆升級!Gemini負(fù)責(zé)人爆料:長上下文效率與長度雙重突破在即,注意力機(jī)制迎來驚人發(fā)現(xiàn)。Scaling Law未死,正加速演變!
谷歌又要有重大突破了?
最近,Google DeepMind的Gemini預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud在采訪中給出重磅爆料——
未來一年,大模型預(yù)訓(xùn)練領(lǐng)域?qū)⒃?strong>「長上下文處理效率」和「上下文長度擴(kuò)展」 兩大方向迎來重大技術(shù)創(chuàng)新。
同時,Google Gemini三巨頭——Jeff Dean、OriolVinyalsML和Noam Shazeer罕見同臺了,他們的對談中,跟Sebastian的內(nèi)容展現(xiàn)出了驚人的一致。
眾多高瞻遠(yuǎn)矚、閃爍著智慧光芒的思想讓人深思。
難怪,谷歌依然是那個巨人。

谷歌大佬激動預(yù)言
已破解大模型核心秘密
Google DeepMind的Gemini預(yù)訓(xùn)練負(fù)責(zé)人Sebastian Borgeaud在最近的訪談中表示,預(yù)計在未來一年內(nèi),針對提升長上下文處理效率以及進(jìn)一步擴(kuò)展模型上下文長度的預(yù)訓(xùn)練技術(shù),將會有重大創(chuàng)新。

另外他還透露說,最近他們在注意力機(jī)制方面取得了一些非常有趣的發(fā)現(xiàn),這可能在未來幾個月內(nèi)重塑他們的研究方向。
對此,他表示非常興奮。
而且他提出了振聾發(fā)聵的一句話:Scaling Law并未消亡,只是正在演變!
Sebastian Borgeaud是Gemini 3的預(yù)訓(xùn)練負(fù)責(zé)人。
這次,是他首次接受博客采訪,帶我們深入了解了Gemini 3背后的實驗室思維——變化究竟發(fā)生在哪里,為什么現(xiàn)在的工作不再是「訓(xùn)練模型」,而是構(gòu)建一個完整的系統(tǒng)。

Gemini 3背后:AI的未來正在加速到來
一場意外的飛躍后,一個系統(tǒng)誕生了。
「如果對自己誠實的話,我想……我們比我認(rèn)為我們能達(dá)到的地方,走得更遠(yuǎn)了。」
坐在麥克風(fēng)前的Sebastian Bourjou語氣平靜,但這句話卻像一顆投入湖面的石子,激起無限漣漪。
為何Gemini 3會實現(xiàn)如此巨大的性能飛躍?
Sebastian的回答看似很簡單:「更好的預(yù)訓(xùn)練和更好的后期訓(xùn)練」。
然而,在這輕描淡寫的背后,是一個根本性的認(rèn)知轉(zhuǎn)變。

「我們不再僅僅是在構(gòu)建一個模型了,」他緩緩說道,「我認(rèn)為,在這一點上,我們真正在構(gòu)建的是一個系統(tǒng)。」
而這,就是Gemini 3顛覆性進(jìn)步的關(guān)鍵。
人們常常想象,從一個Gemini版本到下一個版本,總有一些石破天驚的「秘密武器」。但Sebastian揭示的真相是:進(jìn)步源于無數(shù)細(xì)微改進(jìn)的聚合。是來自龐大團(tuán)隊中,日復(fù)一日發(fā)現(xiàn)的那些「旋鈕」和優(yōu)化。
他還指出,AI發(fā)展范式正在經(jīng)歷的潛在轉(zhuǎn)移:過去,我們仿佛擁有無限數(shù)據(jù),可以隨意擴(kuò)大數(shù)據(jù)集;而現(xiàn)在,我們正轉(zhuǎn)向一個「數(shù)據(jù)有限」體制。

這意味著,未來的AI,必須要學(xué)會更高效地利用有限的數(shù)據(jù)資源,構(gòu)建更復(fù)雜的系統(tǒng)工程。
這也就是模型架構(gòu)研究的核心價值所在。
這一轉(zhuǎn)變,將迫使整個行業(yè)從「大力出奇跡」的粗放模式,轉(zhuǎn)向「精雕細(xì)琢」的精細(xì)模式。
未來的競爭焦點,將不再是「誰的數(shù)據(jù)中心更大」,而是「誰的學(xué)習(xí)算法更高效」、「誰的模型架構(gòu)更優(yōu)雅」、「誰能從有限數(shù)據(jù)中提取更多智慧」。
而Gemini 3的大腦架構(gòu)——混合專家模型MoE,就代表了LLM發(fā)展的一條清晰路徑:從追求單純的「大」,轉(zhuǎn)向追求「大而高效,大而智能」。


AI的下一站——長上下文、高效檢索與「成本革命」
展望未來幾年的技術(shù)前沿,Sebastian指出了激動人心的方向,它們將共同塑造下一代AI的能力與形態(tài)。

1. 長上下文:從「短記憶」到「海量工作臺」
Gemini 1.5帶來的超長上下文能力,已經(jīng)是一場變革。Sebastian預(yù)測,這方面的創(chuàng)新將持續(xù)加速。「我認(rèn)為未來一年左右,將在使長上下文更高效、并進(jìn)一步擴(kuò)展上下文長度方面看到更多創(chuàng)新。」
這不僅僅是「記住更多」這么簡單。超長上下文將把模型變成一個真正的數(shù)字工作臺:它可以同時載入整個代碼庫、多篇科研論文、長時間對話歷史,并在其中進(jìn)行連貫的分析、推理和創(chuàng)作。
這為復(fù)雜的多步任務(wù)、深度研究和創(chuàng)作提供了前所未有的可能,是邁向更強(qiáng)大「智能體」的關(guān)鍵基礎(chǔ)設(shè)施。

2. 注意力機(jī)制的進(jìn)化
Sebastian特別提到,在注意力機(jī)制上,「我們最近有了一些真正有趣的發(fā)現(xiàn),我認(rèn)為這將塑造未來幾個月的大量研究。」他對此「個人非常興奮」。
這暗示著,被認(rèn)為是當(dāng)前大模型基石的注意力機(jī)制,仍有巨大的改進(jìn)空間。
更高效、更強(qiáng)大或具備新特性的注意力機(jī)制,可能從底層顯著提升模型的理解、推理和計算效率,是推動性能邊界的重要杠桿。
3. 檢索的回歸:讓模型學(xué)會「查資料」
Sebastian早期曾主導(dǎo)「Retro」項目,研究讓模型在訓(xùn)練和推理時檢索外部知識庫,而非將所有知識死記硬背在參數(shù)中。他認(rèn)為,這一方向遠(yuǎn)未過時。
「我內(nèi)心深處相信,長期的答案是以可微分的方式學(xué)習(xí)這種能力。」這意味著,未來模型可能將檢索與推理更原生地結(jié)合,動態(tài)地從海量知識源中獲取信息進(jìn)行思考,而非依賴后期「嫁接」的搜索工具。
這能讓模型更精準(zhǔn)、更及時,并可能突破參數(shù)規(guī)模的知識容量限制。

4. 效率與成本的「革命」
一個日益凸顯的挑戰(zhàn)是:隨著用戶激增,模型的部署和服務(wù)成本變得至關(guān)重要。未來的研究將不再只追求性能峰值,還必須關(guān)注如何讓強(qiáng)大模型變得「便宜又好用」。

我仍看不到盡頭
采訪臨近尾聲,當(dāng)我們把鏡頭拉回這位站在AI浪潮之巔的研究者本人時,Sebastian的回答透露著一種沉靜的樂觀與純粹的熱情。
盡管探討了數(shù)據(jù)瓶頸、成本挑戰(zhàn)等現(xiàn)實問題,但Sebastian對AI進(jìn)步的總體判斷依然充滿信心。

「我已經(jīng)多次提到這一點,但確實有如此多不同的事情會復(fù)合起來,還有許多有改進(jìn)空間的方向。我現(xiàn)在真的看不到這類工作停止給我們帶來進(jìn)步的任何盡頭。」
這種信心并非盲目。它源于他作為一線領(lǐng)航者所目睹的:大量細(xì)微但確定的改進(jìn)空間,以及整個領(lǐng)域尚未枯竭的創(chuàng)造活力。
在他看來,至少在未來幾年,這種進(jìn)步勢頭不會放緩。

規(guī)模不再是神話
Noam Shazeer回歸后的第一桶冷水
接下來,是Jeff Dean、Noam Shazeer、Oriol Vinyals三位大佬的對談。

在會議中,我們能明顯感受到,Noam不再是那個把油門踩到底的激進(jìn)派。
他幾乎不主動談?wù)摗割嵏病梗埠苌儆媚切┳屓搜}噴張的宏大詞匯。甚至一反常態(tài),多次談到研發(fā)節(jié)奏、系統(tǒng)的穩(wěn)定性,以及如何長期運行。
作為Transformer的開創(chuàng)者,他曾經(jīng)引領(lǐng)著大模型從無到有;現(xiàn)在,大模型一路高歌猛進(jìn),他卻停下來警告:大模型給出的答案太快,自我檢查的次數(shù)太少。
他曾在公開場合反復(fù)強(qiáng)調(diào):
現(xiàn)在的模型并不缺「聰明」,缺的是持續(xù)思考,并在復(fù)雜任務(wù)中反復(fù)修正的能力。
也就是說,大模型的規(guī)模依然重要,但它不再是決定一切的唯一變量。
當(dāng)Noam討論推理時,他明顯將重心從「能不能更強(qiáng)」移向了「能不能更穩(wěn)定」。
這是他回歸Google后,第一次在公開場合展現(xiàn)這種判斷。
聽起來并不像是否定過去,而更像是在承認(rèn)一個事實:那條單純靠堆參數(shù)就能不斷前進(jìn)的路,已經(jīng)接近邊界了。

頂級科學(xué)家的共識:一次高分,不能定義AI的未來
Noam提到一個詞:慢思考(Slow Thinking)。
不只是簡單的放慢研發(fā)速度,而是反復(fù)追問值不值、貴不貴、能不能被規(guī)模化復(fù)制。
至此,智能不再是一項抽象的能力,而是一項需要長期支付的工程開銷,需要和CPU、硬盤一起放進(jìn)賬本里討論。
這一步一旦邁出去,很多過去衡量AI的標(biāo)準(zhǔn),如Benchmark也在慢慢失效。
在整場會議中,三位頂級科學(xué)家沒有表現(xiàn)出對榜單的興奮,也沒用「誰贏了誰」來定義進(jìn)展。
榜單擅長衡量瞬時表現(xiàn),卻很難回答「能不能一直運行」這類長期問題。
而Noam和Jeff反復(fù)強(qiáng)調(diào)的,恰恰是后者:模型是否可靠、是否具備遷移能力、是否能在復(fù)雜任務(wù)中持續(xù)自我修正。
這些能力,很難被壓縮成一個漂亮的數(shù)字。

Gemini被當(dāng)成System,而不是Model
在這場對談里,「System」出現(xiàn)的頻率極高,這顯然不是一種修辭。
Noam和Jeff在描述Gemini時,刻意避開了「一個更強(qiáng)的模型」這種表述,而是反復(fù)強(qiáng)調(diào)它是一個可以長期運行、不斷迭代的「系統(tǒng)」。
「系統(tǒng)」和「模型」,聽起來差不多,但背后的邏輯天差地別。
「模型」更像是一次性的成果,是在實驗室里的瞬間表現(xiàn);而「系統(tǒng)」更像基礎(chǔ)設(shè)施,它關(guān)心的是穩(wěn)定性、可擴(kuò)展性,以及在出現(xiàn)錯誤后能不能快速修復(fù)并繼續(xù)工作。
對于Noam這類,極度強(qiáng)調(diào)架構(gòu)設(shè)計、研發(fā)節(jié)奏和工程約束的人,天然會更在意一個系統(tǒng)能不能穩(wěn)健地運行十年、二十年,而不是某一次響應(yīng)速度有多快。
在他們眼中,Gemini不是勝利者的獎品,而是一種「長期可用」的智能形態(tài)。
正因如此,整場對談沒有急于求成的產(chǎn)品宣發(fā),沒有劍拔弩張的「對標(biāo)某模型」。
它更像是在對外強(qiáng)調(diào):Google追求的不是曇花一現(xiàn)的成品,而是一套能反復(fù)使用、不斷進(jìn)化的智能工業(yè)體系。





京公網(wǎng)安備 11011402013531號