![]()
新智元報(bào)道
編輯:定慧
Transformer之父「叛逃」?8年前掀起AI革命的男人,如今嫌「自己孩子」太吵太卷!當(dāng)資本狂飆、論文堆積如山,他卻高喊:是時(shí)候放棄Transformer,重新找回好奇心了。
Transformer「親爹」跑路啦,說(shuō)是煩透了「自己生的娃」!
還記得那篇8年前把「注意力機(jī)制」按在王座上的論文《Attention Is All You Need》嗎?
共同作者Llion Jones最近在舊金山的TEDAI大會(huì)上當(dāng)眾「叛逃」:
AI研究正越做越窄,而他本人,準(zhǔn)備把對(duì)Transformer的愛(ài)好調(diào)成「低電量模式」。
![]()
海量資金與人才反而讓研究圈擠進(jìn)死胡同,大家只顧卷參數(shù)、搶發(fā)論文,沒(méi)人敢探索新架構(gòu)。
錢(qián)越多,點(diǎn)子越少?
這是一種資本與論文KPI的奇妙化學(xué)反應(yīng)。
Jones的主張很直白:前所未有的關(guān)注、資金和人才涌入之后,研究反而被「收窄」了。
為啥?
一邊是投資人盯著回報(bào),另一邊是研究者擔(dān)心被別人「搶先發(fā)」,人人都在擁擠賽道里拼命刷存在感。
結(jié)果呢?
趕工紙面成績(jī),擠牙膏式創(chuàng)新,和千人一面的論文標(biāo)題。
他還搬出了課本里的老朋友:「探索vs.利用」。
現(xiàn)在的行業(yè)像把「利用」旋鈕擰到11檔:不停對(duì)同一架構(gòu)打補(bǔ)丁、換皮膚、加大模型,再加點(diǎn)「我們又SOTA了」的調(diào)味包。
可真正的新路子,沒(méi)人敢走,也沒(méi)空走。
![]()
Jones在會(huì)議上說(shuō):未來(lái)每個(gè)人都會(huì)失去工作,這是一件好事
一段歷史復(fù)盤(pán):RNN年代的「徒手拋光」
Jones提醒大家想想Transformer出現(xiàn)前的日子!
當(dāng)時(shí)研究圈正對(duì)RNN做無(wú)盡小改小優(yōu),就像給一塊石頭拋光一樣。
一旦Transformer登場(chǎng),前面那堆拋光操作立刻變得像「給馬車(chē)裝了碳纖維尾翼」!
很精致,但很不對(duì)路,甚至變得完全無(wú)用,現(xiàn)在還有誰(shuí)再談?wù)揜NN?
![]()
于是Jones擔(dān)心我們是否又在重演歷史:盯著一個(gè)8年前架構(gòu)一直薅羊毛,薅到禿!
不停給馬車(chē)打造各種好看的設(shè)備,卻不知道拐彎看看路口是不是有飛船停靠。
Transformer是怎么「長(zhǎng)大」的?
不是KPI,是自由!
這就是Transformer之父給出的答案。
最扎心的一段來(lái)自Jones的回憶:
那會(huì)兒他在谷歌做Transformer,是「午飯嘮嗑+白板亂畫(huà)」式的自下而上的。
![]()
既沒(méi)人規(guī)定必須發(fā)幾篇論文,也沒(méi)人拉著耳朵對(duì)著某個(gè)指標(biāo)沖線。
先有自由,后有靈感,這話聽(tīng)上去樸素,但如今反而成了稀缺品。
再看現(xiàn)在:就算年薪上七位數(shù),許多人也未必敢「瞎折騰」。
新崗位第一天,誰(shuí)不想先穩(wěn)住績(jī)效?
于是低風(fēng)險(xiǎn)、可發(fā)表、見(jiàn)效快,自然優(yōu)先級(jí)飆升。
想象力?創(chuàng)造力?
先等一等吧。
Sakana AI的「反內(nèi)卷」實(shí)驗(yàn)
Llion Jones打算把探索旋鈕擰回去。
Jones后來(lái)去日本創(chuàng)建了Sakana AI。
![]()
身為東京創(chuàng)業(yè)公司SakanaAI的CTO,Jones說(shuō)他打算在實(shí)驗(yàn)室里復(fù)刻Transformer誕生前的「空氣配方」:
少KPI,多好奇;少跟風(fēng),多自然啟發(fā)。
他還給團(tuán)隊(duì)安利了一句研究格言:
You should only do the research that wouldn't happen if you weren't doing it.
你只應(yīng)該做那些如果不是你來(lái)做就不會(huì)發(fā)生的研究。。
——來(lái)自工程師Brian Cheung
在這種環(huán)境誕生成果的一個(gè)例子是Sakana的「連續(xù)思維機(jī)器」,它在神經(jīng)網(wǎng)絡(luò)中融入了類似大腦的同步機(jī)制。
![]()
一位提出該想法的員工告訴Jones,在以前的雇主或?qū)W術(shù)崗位上,他會(huì)面臨懷疑并受到不要浪費(fèi)時(shí)間的壓力。
在Sakana,Jones給了他一周時(shí)間去探索。
該項(xiàng)目取得了足夠的成功,甚至在大型AI會(huì)議NeurIPS上獲得了展示機(jī)會(huì)。
Jones甚至表示,在招聘中,自由勝過(guò)報(bào)酬。
他談到這種探索性環(huán)境時(shí)說(shuō):「這是吸引人才的一個(gè)非常非常好的方式。想想看,有才華、聰明、有野心的人,自然會(huì)去尋找這種環(huán)境。」
這波操作證明——自由比高薪更能搶人。
聰明人對(duì)自由的敏感度,往往高于對(duì)錢(qián)的感知。
「不是分手,是冷靜期」:別把他當(dāng)反對(duì)派
也許最具諷刺意味的是,Transformer可能是自身成功的受害者。
當(dāng)前技術(shù)如此強(qiáng)大且靈活……這阻止了我們?nèi)ふ腋玫募夹g(shù),如果當(dāng)前技術(shù)更糟糕,會(huì)有更多人去尋找更好的,這很有道理。
Jones并不是要把Transformer一腳踢下船。
他強(qiáng)調(diào):現(xiàn)有技術(shù)上還有大量重要工作,未來(lái)幾年也會(huì)繼續(xù)創(chuàng)造價(jià)值。
只是以現(xiàn)在行業(yè)的人才與資源密度,我們完全「買(mǎi)得起」更多的探索。
Transformer的強(qiáng)大,正在阻擋我們尋找「更好」的沖動(dòng)。
如果現(xiàn)有技術(shù)差一點(diǎn),大家反而更會(huì)到處找下一個(gè)驚喜。
把「軍備競(jìng)賽」改成「開(kāi)箱分享」
收尾時(shí),Jones把姿態(tài)放得很開(kāi):這不是「你死我活」的競(jìng)技場(chǎng),是集體解謎。
如果大家能一起把探索旋鈕擰大一點(diǎn),把有意思的發(fā)現(xiàn)公開(kāi)分享,那條通往下一次「Transformer級(jí)」突破的路,可能近得超乎想象。
AI掌權(quán)者(是OpenAI、還是谷歌、還是其他?)是否會(huì)聽(tīng)從這一呼吁尚未可知。
但Jones提出了一個(gè)尖銳的提醒:下一次達(dá)到Transformer級(jí)別的突破可能就在拐角處。
畢竟,他在Transformer領(lǐng)域工作的時(shí)間比幾乎所有人都要久。
他會(huì)知道何時(shí)該轉(zhuǎn)向新方向。
Transformer八子
Transformer可以奠定了如今的AI時(shí)代,幾乎所有基礎(chǔ)模型都是以此為地基。
「Token by token,一個(gè)詞接一個(gè)詞」的簡(jiǎn)單輸出模式在算力的加成下成為了新時(shí)代的AI魔法。
Transformer催生了ChatGPT、Gemini、Claude等諸多前沿產(chǎn)品。
更重要的是,它讓人類真正跨入了生成式AI時(shí)代。
人類和生成式AI的命運(yùn)從2017年6月12日周一下午17點(diǎn)57分開(kāi)始交匯。
Transformer的影響依然還在繼續(xù)!
到今天為止,這篇論文的被引次數(shù)已經(jīng)到了18萬(wàn)+次!
讓人不禁好奇,除了Jones外,其他幾位作者都身在何處?
曾經(jīng)聯(lián)手打造出谷歌最強(qiáng)Transformer的「親爹們」如今也已分道揚(yáng)鑣。
· Ashish Vaswani
Essential AI聯(lián)合創(chuàng)始人&CEO
![]()
稱希望把EssentialAI做成“西方的DeepSeek”(2025-06-17采訪)。
·Noam Shazeer
已回歸Google;Gemini技術(shù)共同負(fù)責(zé)人
![]()
·Niki Parmar
Anthropic技術(shù)人員。
![]()
此前與Vaswani共同創(chuàng)辦EssentialAI,早期為Adept聯(lián)合創(chuàng)始人
2024年底/2025年初已加入Anthropic。
EssentialAI的聯(lián)合創(chuàng)始人之一。
·Jakob Uszkoreit
Inceptive Nucleics聯(lián)合創(chuàng)始人&CEO
![]()
2025年登臺(tái)TEDAISanFrancisco分享「AI如何繞開(kāi)傳統(tǒng)科學(xué)」的新思路;持續(xù)推進(jìn)「生物軟件」方向。
·Llion Jones
SakanaAI聯(lián)合創(chuàng)始人&CTO
![]()
外媒稱SakanaAI正洽談新一輪融資,目標(biāo)估值約25億美元。
采訪中直言「已經(jīng)受夠了Transformer」,轉(zhuǎn)而主打「演化式模型合并」等新架構(gòu)路線。
媒體采訪介紹其在東京推進(jìn)“自然啟發(fā)”的集體智能路線。
·Aidan N.Gomez
Cohere聯(lián)合創(chuàng)始人&CEO
![]()
表示Cohere計(jì)劃很快啟動(dòng)IPO(2025-10-21多家媒體現(xiàn)場(chǎng)采訪)。
公司估值升至約70億美元。
經(jīng)營(yíng)數(shù)據(jù):年化收入達(dá)1億美元、發(fā)力企業(yè)私有部署與代理平臺(tái)North。
·Lukasz Kaiser
OpenAI研究員
![]()
2025年10月在OpenAI Forum發(fā)表「從Transformer到Reasoners」的主題演講。
·Illia Polosukhin
NEAR Protocol聯(lián)合創(chuàng)始人
![]()
主張User-OwnedAI,推進(jìn)「用戶所有的AI」與隱私保護(hù)AI-原生產(chǎn)品。
在NVIDIA GTC 2025分享「機(jī)密、可驗(yàn)證AI計(jì)算」。
8年前一篇不起眼的論文,卻徹底開(kāi)啟了人類的生成式AI時(shí)代。
這個(gè)被忽視的小論文,徹底開(kāi)啟了AI的大時(shí)代。
它的故事還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束。
參考資料:
https://venturebeat.com/ai/sakana-ais-cto-says-hes-absolutely-sick-of-transformers-the-tech-that-powers





京公網(wǎng)安備 11011402013531號(hào)