![]()
新智元報(bào)道
編輯:桃子
AI界「雙神會(huì)」來了!一場(chǎng)NeurIPS 2025爐邊談話,AI教父Hinton和Jeff Dean同臺(tái),親口爆料了AI革命「那些年」,還有更多鮮為人知的軼事。
NeurIPS 2025那場(chǎng)轟動(dòng)一時(shí)的訪談,如今終于放出來了!
AI教父Hinton和DeepMind首席科學(xué)家Jeff Dean,兩位AI圈關(guān)鍵人物,曾經(jīng)合作多年的老友聚在一起。
![]()
現(xiàn)場(chǎng),Hinton直接拋出了一個(gè)尖銳的問題——
谷歌是否后悔發(fā)表Transformer論文?
Jeff Dean給出了干脆的回應(yīng),「不后悔!因?yàn)樗鼘?duì)世界產(chǎn)生了巨大的影響」。
不僅如此,Hinton還公開透露,自己關(guān)于Scaling的頓悟,源于Ilya的一場(chǎng)演講。
![]()
在近1小時(shí)的對(duì)話中,兩位大佬回顧了從ML早期突破,到當(dāng)今塑造該領(lǐng)域的挑戰(zhàn)、機(jī)遇等等。
他們還分享了,一些非常精彩的軼事——
從臥室運(yùn)行AlexNet的兩塊GPU,到谷歌大腦(Google Brain)的早期歲月。
AI教父Scaling頓悟,來自Ilya
對(duì)話的開場(chǎng),先從一個(gè)有趣的共同點(diǎn)開始:
兩位Geoff和Jeff都對(duì)「反向傳播」(backpropagation)著迷。
這一概念的論文雖在1986年于Nature正式發(fā)表,但其實(shí)早在1982年就已提出。
![]()
論文地址:https://www.nature.com/articles/323533a0
Jeff Dean回憶起自己的本科畢業(yè)論文——
1990年,他先修了并行算法課程,僅用一周時(shí)間接觸神經(jīng)網(wǎng)絡(luò),就被深深吸引。
于是,他向明尼蘇達(dá)大學(xué)Vipin Kumar教授申請(qǐng)做榮譽(yù)論文,主題是「用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的并行算法」。
那時(shí),Jeff Dean使用了一臺(tái)32個(gè)處理器的超立方體計(jì)算機(jī),原以為算力翻32倍,就能做出驚人的神經(jīng)網(wǎng)絡(luò)。
![]()
論文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view?pli=1
但現(xiàn)實(shí),給了他一記教訓(xùn)。
在擴(kuò)展處理器(算力)的同時(shí),沒有同步擴(kuò)大模型規(guī)模。
他僅是把10個(gè)神經(jīng)元的層,硬拆到32個(gè)處理器上,結(jié)果性能慘不忍睹。
Jeff Dean還發(fā)明了早期的兩個(gè)概念:「數(shù)據(jù)并行」和「模型并行」(當(dāng)時(shí)稱之為「模式劃分」)。
另一邊,Hinton則分享了自己對(duì)算力覺醒的「遲到」。他表示,「自己本該在80年代末,就意識(shí)到算力的重要」。
![]()
當(dāng)時(shí),有兩個(gè)世界級(jí)團(tuán)隊(duì):一個(gè)是伯克利ICSI團(tuán)隊(duì),另一個(gè)是劍橋團(tuán)隊(duì)。
他們用并行計(jì)算,構(gòu)建出更好的語音聲學(xué)模型,刷新業(yè)界SOTA,超越常規(guī)方式訓(xùn)出的神經(jīng)網(wǎng)絡(luò)的性能。
但由于模型規(guī)模擴(kuò)大,編程和硬件復(fù)雜也會(huì)急劇上升,他們沒有堅(jiān)持下去。
直到2014年,聽完Ilya Sutskever的報(bào)告,Hinton才徹底醒悟——
Scaling至關(guān)重要,并且這種趨勢(shì)會(huì)一直持續(xù)下去。
AlexNet出世
ML一夜征服「圖像識(shí)別」
接下來,對(duì)話的焦點(diǎn)轉(zhuǎn)向了2012年AlexNet,那個(gè)AI大爆炸的時(shí)刻。
Hinton回憶道,Vlad Nair先用英偉達(dá)GPU在道路識(shí)別、航拍圖像上大獲成功,證明了「多層網(wǎng)絡(luò)遠(yuǎn)勝單層」。
![]()
AlexNet便是一個(gè)8層的神經(jīng)網(wǎng)絡(luò)
當(dāng)時(shí),他申請(qǐng)這一項(xiàng)目的資助續(xù)期,卻被評(píng)審駁回——
這個(gè)項(xiàng)目不值得資助,因?yàn)樗豢赡墚a(chǎn)生任何工業(yè)影響。
現(xiàn)場(chǎng),Hinton笑稱,我真想告訴他,這項(xiàng)技術(shù)去年貢獻(xiàn)了美國股市80%的增長(zhǎng)。
隨后,學(xué)生Alex Krizhevsky在做「微型圖像」的識(shí)別任務(wù),當(dāng)時(shí)用MNIST數(shù)據(jù)集訓(xùn)練。
但Alex嘗試失敗,Hinton發(fā)現(xiàn)權(quán)重衰減參數(shù)設(shè)錯(cuò),糾正了這一問題。
當(dāng)時(shí),Ilya表示,「為什么不直接上ImageNet?這么大數(shù)據(jù)集肯定可以,我們得在Yann LeCun之前做」。
與此同時(shí),LeCun也一直試圖讓實(shí)驗(yàn)室博士后和學(xué)生把卷積神經(jīng)網(wǎng)絡(luò)用到ImageNet上,但大家認(rèn)為還有更重要的事要做。
![]()
于是,Ilya負(fù)責(zé)數(shù)據(jù)預(yù)處理,將圖像統(tǒng)一成固定尺寸,結(jié)果效果非常出色。
Hinton調(diào)侃道,「接下來,我做了我這輩子最成功的一次管理決策」。
只要每周在ImageNet上提升1%的性能,允許Alex拖延寫論文綜述。
結(jié)果,一周一周不斷成功迭代。
![]()
至于訓(xùn)練硬件,就是眾所周知的「兩塊英偉達(dá)GTX 580 GPU」。
當(dāng)時(shí),Alex在自家的臥室里,用這兩塊GPU完成了AlexNet的訓(xùn)練。Hinton幽默地表示,「當(dāng)然,GPU我們買單,電費(fèi)Alex父母付,純屬為多倫多大學(xué)省錢」。
![]()
茶水間一次閑聊
催生「谷歌大腦」
差不多同一時(shí)間,在谷歌一個(gè)全新團(tuán)隊(duì)——谷歌大腦(Google Brain)正在醞釀而生。
Jeff Dean回憶,Google Brain雛形源于一次茶水間偶遇的閑聊。
那天,Andrew Ng時(shí)任斯坦福教授(每周來谷歌一天),他們恰巧撞見。
Andrew提到,「自己的學(xué)生用神經(jīng)網(wǎng)絡(luò),已經(jīng)做出了不錯(cuò)的成果」。
這句話立即點(diǎn)醒了Jeff Dean,他想到——我們有的是海量CPU,為什么不訓(xùn)練超大神經(jīng)網(wǎng)絡(luò)?
![]()
于是,他們訓(xùn)練了一個(gè)系統(tǒng),支持模型并行+數(shù)據(jù)并行,擴(kuò)展到上千臺(tái)機(jī)器上。
這個(gè)著名的實(shí)驗(yàn):在1000萬YouTube視頻幀上無監(jiān)督學(xué)習(xí),讓神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)識(shí)別「貓」。
他們沒有用卷積,而采用了「局部連接」的方式來做視覺,導(dǎo)致參數(shù)達(dá)20億。
為了完成這次訓(xùn)練,他們用了16000個(gè)CPU核心。
![]()
Jeff表示,「我們已觀察到,模型越大,效果越好。只不過,當(dāng)時(shí)還沒把它正式總結(jié)成Scaling Laws」。
我們甚至有句口頭禪,某種意義上也挺像Scaling Laws:更大的模型、更多的數(shù)據(jù)、更多的算力。

也就是說,在AlexNet出世一年前,Google Brain早已驗(yàn)證了Scaling Laws。
64歲實(shí)習(xí)生,加入谷歌
2012年夏天,Andrew Ng轉(zhuǎn)向了教育平臺(tái)Coursera,因?yàn)樗J(rèn)為那才是未來。
于是,他便推薦了Hinton接棒。
有趣的是,Hinton本想做訪問科學(xué)家,但必須滿職6個(gè)月才可以開薪。
于是,64歲的Hinton,成為了谷歌的「實(shí)習(xí)生」。而且,還是Jeff Dean的實(shí)習(xí)生。

加入谷歌之后,Hinton還得和實(shí)習(xí)生們一起上培訓(xùn)課。
一個(gè)大房間里坐滿了學(xué)生,有來自IIT的,也有來自清華的,總之是一大堆特別聰明的人。
培訓(xùn)第一天,講師說「用你的LDAP和OTP登錄」,Hinton當(dāng)場(chǎng)就懵了,什么是LDAP?什么是OTP?
大概過了十分鐘,他們決定:其中一個(gè)助教專門負(fù)責(zé)我。
其他學(xué)生都在四處張望,看著這個(gè)明顯什么都不懂、而且年紀(jì)是他們?nèi)兜娜恕Uf實(shí)話,有點(diǎn)尷尬。
更尬的是,午飯時(shí)間,Hinton還碰巧遇到了,此前教的一位本科學(xué)生。
直到入職的第二天,Jeff Dean和Hinton在Palo Alto越南餐廳初見。
![]()
賭場(chǎng)拍賣,谷歌必贏
AlexNet爆火后,多家公司都在爭(zhēng)搶Hinton的團(tuán)隊(duì)。
但后來,他們發(fā)現(xiàn),如果把自己包裝成一家「公司」,其實(shí)可以拿到更多的錢。
「所以我們決定:我們要當(dāng)『收購標(biāo)的』」。
當(dāng)時(shí),Hinton成立了DNN Research,舉辦了一場(chǎng)拍賣會(huì),谷歌、微軟、百度等多家公司參與爭(zhēng)奪。
有趣的是,地點(diǎn)定在了南太浩湖(South Lake Tahoe)的賭場(chǎng)。
樓下老虎機(jī)聲音不斷,樓上每次加價(jià)必須至少加100萬。
Hinton透露,「但我其實(shí)心里早就決定了:谷歌必須贏」。
![]()
最核心的原因,便是那年夏天「實(shí)習(xí)生」的經(jīng)歷。
所以我們?cè)谂馁u快結(jié)束的時(shí)候,當(dāng)那兩撥人離開、看起來可能會(huì)讓「不該贏的人」贏的時(shí)候,我們就直接把拍賣停了。
![]()
Google Brain早期合影
并入谷歌之后,Hinton參與了眾多項(xiàng)目,現(xiàn)場(chǎng)他還分享了失敗的案例——Capsules(膠囊網(wǎng)絡(luò))項(xiàng)目。
他投入「巨大的決心」,在這一項(xiàng)目上執(zhí)著多年,盡管Jeff和Ilya勸阻,最終一無所獲。
此外,Hinton在職期間也為谷歌做了一些有價(jià)值的工作,比如「模型蒸餾」(distillation)。
大概在2014年,這篇論文提交到NeurIPS后,卻被組委會(huì)拒稿。
審稿人完全不理解其想法,如今事實(shí)證明,它已成為L(zhǎng)LM核心技術(shù)之一。
![]()
另外,Hinton和Abdelrahman Mohamed做了一個(gè)優(yōu)秀的「語音聲學(xué)模型」,決定將其推銷給黑莓(BlackBerry),也遭對(duì)方拒絕——
因?yàn)槲覀冇墟I盤
后來,Navdeep Jaitly在谷歌用GPU證明了其價(jià)值,大獲成功。
從Transformer到Gemini
若要說Google Brain產(chǎn)出對(duì)世界影響最深遠(yuǎn)的一篇研究,當(dāng)屬Transformer!
Jeff Dean回憶道,Transformer靈感來源于Ilya Sutskever、Oriol Vinyals和Quoc Le的「序列到序列」(seq2seq)工作。
它使用深層LSTM,在機(jī)器翻譯上大獲成功。但LSTM存在瓶頸,即順序依賴和狀態(tài)壓縮。
如果你把所有狀態(tài)都保存下來,然后對(duì)它們施加注意力(attention),那可能會(huì)是一個(gè)更好的方案。
事實(shí)上,在谷歌之外,已經(jīng)有一些關(guān)于注意力機(jī)制的早期工作了。
注意力機(jī)制,早期由Bahdanau等人引入,保留了整個(gè)上下文。
后來,這一思想被整合到seq2seq中,最終演變成了Transformer:也就是保存所有狀態(tài),然后對(duì)其進(jìn)行注意力計(jì)算。
![]()
Jeff Dean表示,這被證明非常優(yōu)雅——
因?yàn)榭梢圆⑿械赜?jì)算所有狀態(tài),而不再受到嚴(yán)格的順序依賴。
同時(shí),還能回看所有經(jīng)歷過的狀態(tài),從而更好地理解你在解碼什么;對(duì)于編碼器模型來說,也意味著可以利用到更豐富的狀態(tài)信息。
Hinton坦言,Transformer剛出來后,自己沒太重視——因?yàn)榇竽X不會(huì)存儲(chǔ)每一步向量,我更關(guān)心生物啟發(fā)。
但論文一出就展現(xiàn)了,用少10到100倍的算力即可達(dá)到同等,甚至更好的效果。
這顯然是一件大事。
然而內(nèi)部視角,Transformer只是眾多突破之一,并未被視為「鶴立雞群」。
他表示,我甚至也不太確定它是不是「更重要」——它確實(shí)非常有用。
在ChatGPT之前,谷歌早已有了強(qiáng)大聊天機(jī)器人,但從搜索視角看,幻覺和事實(shí)性問題讓它難以對(duì)外發(fā)布。
Jeff解釋道,「搜索核心是準(zhǔn)確」。
直到2023年,ChatGPT出世讓谷歌瞬間傻眼。內(nèi)部拉響了「紅色警報(bào)」,Jeff 寫了一頁備忘錄:
我們現(xiàn)在有點(diǎn)「自己犯傻」了。
因?yàn)槲覀冊(cè)缇椭溃懔σ?guī)模和訓(xùn)練好模型之間是強(qiáng)相關(guān)的:你能用的算力和數(shù)據(jù)越多,模型就越好。
![]()
而且,谷歌內(nèi)部多個(gè)團(tuán)隊(duì)Google Brain、DeepMind、谷歌研究員都在這一領(lǐng)域做出了探索性嘗試。
但問題是,我們把研究想法和人力切得太碎了,也把算力切得太碎了。
于是,一次內(nèi)部大重組迅速完成,Google Brain+DeepMind=Google DeepMind。
這直接催生了Gemini:合并團(tuán)隊(duì)、共享算力,打造出世界最強(qiáng)的多模態(tài)模型。
這時(shí),Hinton打斷問道,「谷歌是否后悔發(fā)表Transformer論文」?
Jeff堅(jiān)定有力回答,「不會(huì),因?yàn)樗鼘?duì)世界產(chǎn)生了很好的影響」。

緊接著主持人又一回?fù)簦笍哪侵蠊雀杈蜎]怎么發(fā)表論文了?還是說這不是真的」?
Jeff澄清道,「我們?nèi)园l(fā)表論文,今年NeurIPS就有上百篇」。
對(duì)于那些主要在商業(yè)上最關(guān)鍵、尤其是面向「最大規(guī)模模型」的論文,我們會(huì)更謹(jǐn)慎一些。
公開發(fā)表是競(jìng)爭(zhēng)優(yōu)勢(shì),能吸引人才、獲得社區(qū)反饋。 谷歌全棧護(hù)城河,堅(jiān)不可破
最近幾周,谷歌Gemini連發(fā),讓世界重新認(rèn)識(shí)到谷歌的強(qiáng)大。尤其是,背后硬件優(yōu)勢(shì)——TPU。
![]()
Jeff Dean現(xiàn)場(chǎng)強(qiáng)調(diào)了硬件-模型「協(xié)同設(shè)計(jì)」(co-design)的優(yōu)勢(shì)——
谷歌研究人員與硬件團(tuán)隊(duì)緊密合作,提前去布局潛力方向,預(yù)測(cè)未來2-6年后的趨勢(shì)。
甚至,他們用強(qiáng)化學(xué)習(xí)去優(yōu)化芯片布局布線,并在多帶TPU上應(yīng)用。
這不僅提升了芯片質(zhì)量,也加速了研發(fā)的流程。
下一個(gè)20年
在爐邊對(duì)話壓軸部分,主持人問了一個(gè)所有人最關(guān)心的問題——
AI領(lǐng)域接下來會(huì)往哪走?Transformer會(huì)被取代嗎?20年后,世界會(huì)變成什么樣?
Jeff Dean最興奮的方向之一,Scaling注意力機(jī)制的觸達(dá)范圍,從百萬Token到數(shù)萬億。
讓模型直接訪問所有科學(xué)論文、所有視頻,而非將數(shù)萬億token塞進(jìn)幾千億個(gè)權(quán)重里。
他承認(rèn),這當(dāng)然需要硬件的創(chuàng)新,還需更節(jié)能、性價(jià)比更高的推理芯片。
![]()
Jeff Dean還指出,目前模型缺乏「持續(xù)學(xué)習(xí)」,即訓(xùn)練后固定不變。
MoE模型往往是一堆大小都一樣的專家:分出去,再合回來,再分出去。這個(gè)結(jié)構(gòu)說實(shí)話也不算太有意思。
未來,他們還將探索更動(dòng)態(tài)、腦啟發(fā)的架構(gòu)。
對(duì)于20年后的預(yù)測(cè),Hinton總結(jié)道——
如果有人真的造出來了,要么我們從此幸福快樂地生活下去,要么我們?nèi)繙缤觥?/p>
![]()
20年后到底會(huì)有什么影響,沒人說得準(zhǔn),特別是對(duì)社會(huì)的影響。
很明顯,很多工作會(huì)消失。但不清楚它會(huì)不會(huì)創(chuàng)造出足夠的新工作來替代。
Jeff Dean則樂觀于科學(xué)加速,「AI連接不同領(lǐng)域、自動(dòng)化發(fā)現(xiàn)閉環(huán),將讓突破更快發(fā)生」。
他們兩人一直認(rèn)為,醫(yī)療與教育變革最劇烈。
Hinton最后補(bǔ)充道,「大模型壓縮巨量知識(shí),發(fā)現(xiàn)人類未見的共通性,它們會(huì)非常有創(chuàng)造力——抓到希臘文學(xué)與量子力學(xué)的遠(yuǎn)距離類比」。
參考資料:
https://x.com/JeffDean/status/2001389087924887822
https://www.youtube.com/watch?v=ue9MWfvMylE
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!





京公網(wǎng)安備 11011402013531號(hào)