鷸蚌相爭,漁翁得利。有時候還挺希望我們用戶就是那個漁翁,模型廠商打得越厲害,我們就有機會越快用到更好的模型。
2022 年 12 月 22 號,在 ChatGPT 發(fā)布三周后,為了應(yīng)對 OpenAI 的威脅,Google 成了第一個發(fā)布「紅色警報」的科技巨頭。
![]()
昨天,在 Gemini 3 發(fā)布兩周后,因為 Gemini 3 模型出現(xiàn)了大幅增長,OpenAI 發(fā)布了首個「紅色警報」。
看到消息的時候,我就覺得 OpenAI 是不是有點過度反應(yīng)了,很快就看到了一些評論說「驕兵必敗」、還有「勝敗乃兵家常事」。但轉(zhuǎn)念一想,所謂的「紅色警報」也許就是給投資人看的,畢竟 OpenAI 如果真的做不到第一,那個 2030 才能盈利的時間,只會拉得更長。
![]()
▲ Gemini 的 App 下載量快要追上 ChatGPT
根據(jù)最新透露的消息,OpenAI 在下周即將推出一款新的推理模型,內(nèi)部評估表現(xiàn)要比 Gemini 3 更好。此外,他們還計劃通過一個代號為「Garlic」的模型,來進行反擊。
但更現(xiàn)實的情況,是 OpenAI 必然會發(fā)布比 Gemini 3 更好的模型,而 Google 也還有 Gemini 4、Gemini 5。
其實,回看過去這一年來硅谷的新聞,完全算得上是一出跌宕起伏的抓馬大戲。年初被 DeepSeek R1 的橫空出世而感到壓力;年中則是小扎開啟的瘋狂「搶人模式」,天價薪酬刷新著所有人對 AI 人才的認知;到了年尾,又再次卷回到了樸素的模型比拼賽場。
![]()
在 OpenAI 研究主管 Mark Chen 的最新播客采訪中,硅谷的戰(zhàn)爭更是進化到了魔幻的程度,他說小扎為了挖走 OpenAI 的核心大腦,甚至開始做湯,真的能喝的湯,然后親自把湯送到研究員的家門口。
除了這些八卦,他也談到了 OpenAI 對于 Gemini 3 的看法、Scaling 是否已經(jīng)過時、還有 DeepSeek R1 對他們的影響、以及公司內(nèi)部的算力分配、實現(xiàn) AGI 的時間表等。
Mark Chen 的背景非常有意思,數(shù)學(xué)競賽出身,MIT 畢業(yè),去華爾街做過高頻交易(HFT),2018 年加入 OpenAI,跟著 Ilya 一起做研究。和奧特曼更偏向于商人屬性的特點不同,這些經(jīng)歷,讓他身上也有一股非常明顯的特質(zhì),極度厭惡失敗,且極度信奉數(shù)學(xué)。
他坦言自己現(xiàn)在,完全沒有社交生活,過去兩周每天都工作到凌晨 1-2 點。
我們整理了這場長達一個半小時的采訪,總結(jié)了下面這些亮點,或許能更好的看清硅谷這一年來的各種「戰(zhàn)爭」、以及 OpenAI 會做些什么努力,來繼續(xù)保持自己在 AI 時代的第一。
關(guān)于 Gemini 3,我們真的「不慌」
OpenAI 真的怕 Google 嗎?Mark 的評價很客觀但也很犀利。他肯定了 Gemini 3 是個好模型,Google 終于找對路子了。但是他說看細節(jié),比如 SWE-bench(這也是 Gemini 3 刷榜那張圖片里,唯一一個沒有拿到第一的基準(zhǔn)測試)數(shù)據(jù),Google 在數(shù)據(jù)效率上依然沒有解決根本問題。
![]()
▲Gemini 3.0 Pro 在 SWE-Bench 上的表現(xiàn),比 GPT-5.1 還差了 0.1%
而他自己則是非常自信的表示,OpenAI 內(nèi)部已經(jīng)有了針對性的應(yīng)對模型,而且他們有信心在數(shù)據(jù)效率上做得更好。
Mark 甚至說,奧特曼前幾天發(fā)那個說大家都要感到壓力的備忘錄,去嚇唬大家,其實更多的是為了注入緊迫感,他說這是管理層的慣用手段,備忘錄的目的在于管理層激勵團隊,而不是真的感到慌了。
我覺得Sam的工作之一就是要注入緊迫感和速度感。這是他的責(zé)任,也是我的責(zé)任。 作為管理者,我們的部分工作就是不斷給組織注入緊迫性。
![]()
▲此前 The Information 報道,奧特曼在 Gemini 3 推出時,在公司內(nèi)部發(fā)備忘錄,提到會給 OpenAI 帶來困難
他們目前最大的問題,還是算力分配。作為 OpenAI 的研究主管,他的一項工作就是決定如何將算力分配到公司內(nèi)部不同的項目。
他和 Jakub Pachocki(OpenAI 首席科學(xué)家)一起,負責(zé)制定 OpenAI 的研究方向,同時決定每個項目能拿到多少算力。為了這件事,他們每隔 1–2 個月,都會做一次盤點。
他們把 OpenAI 所有在做的項目,放進一張巨大的表格里,大概有 300 個;然后努力把每一個項目都看懂,給它們排優(yōu)先級;再根據(jù)這個優(yōu)先級表去分配 GPU。
![]()
▲英偉達和 OpenAI 的百萬 GPU 合作
他也提到,真正要用掉大部分的 GPU 的,甚至并不是訓(xùn)練那個最重要發(fā)布的模型,而是他們內(nèi)部在探索下一代 AI 范式的各種實驗。
所以,在他的眼里,Gemini 3 發(fā)布了、某家開源模型刷榜了、某個思考模型又拿了新高分了;這些你追我趕的 benchmark 賽車一點都不重要。反而,最應(yīng)該避免的,恰恰是被這場競賽牽著走。
他說,現(xiàn)在的模型發(fā)展,我們隨時可以靠一點「小更新」,就在榜單上領(lǐng)先幾周或幾個月。但如果把資源都砸在這些短線迭代上,就沒有人去尋找下一代范式。而一旦有人真的找到了,整個領(lǐng)域后面十年的路線,都要沿著那條新路走。
小聲嗶嗶幾句,預(yù)言 OpenAI 下周要發(fā)布的模型,我想就是在計劃之外,做了點小更新,然后刷新了幾個榜單而已吧,就這還沒慌嗎。
![]()
提到榜單的時候,他說他有自己的一套私房題,用來測試模型是不是真的具備了頂級數(shù)學(xué)直覺。他舉了一個 42 的數(shù)學(xué)難題,說目前的語言模型,包括 o1 這種思考模型能接近最優(yōu)解,但從來沒有完全破解它。
你想創(chuàng)建一個模 42 的隨機數(shù)生成器。你手頭有一些質(zhì)數(shù),是模數(shù)小于 42 的質(zhì)數(shù)的隨機數(shù)生成器。目標(biāo)是,以最少的調(diào)用次數(shù),組合出這個模 42 的生成器。
除了談到 Gemini 3,主持人也問了他對于 DeepSeek 的看法。
和 Gemini 3 一樣,Mark 承認 DeepSeek 的開源模型曾讓他們感到壓力,甚至懷疑自己是不是走錯了路。
但結(jié)論是堅持自己路線,不要被對手的動作打亂節(jié)奏,專注自己的路線圖。OpenAI 不會變成一個跟風(fēng)的公司,他們要做的,就是定義下一個范式。
Ilya 的 Scaling 里面還有很多潛力,OpenAI 需要大規(guī)模預(yù)訓(xùn)練
近期關(guān)于 Scaling 失效的討論紛紛揚揚,Ilya 先是在播客采訪里面說,Scaling 的時代已經(jīng)結(jié)束了,后面又在社交媒體上澄清,Scaling 會持續(xù)帶來一些改進,并不是停滯不前。
![]()
所謂的 Scaling Law,就是按經(jīng)典老故事走向,這幾年建了巨大的算力基建,模型每 10 倍算力,本該有一波明顯躍遷。但從 GPT-4 到 GPT-5,外界并沒有看到預(yù)期中那種「質(zhì)變式」的提升,所以才會有「Scaling Law 失效了」的討論;而 Ilya 前段時間的訪談,則是進一步放大了這種觀點。
Mark Chen 對這個觀點,給出了堅決的反駁,「我們完全不同意」。他透露,過去兩年 OpenAI 在推理上投入了巨量資源,導(dǎo)致預(yù)訓(xùn)練這部分稍顯退化。之前關(guān)于 GPT-5 遇到了預(yù)訓(xùn)練的問題,其實也是因為他們把重心放在了推理上,而不是 Scaling Law 已死。
工作就是分配算力資源的他,再次重申算力永遠不會過剩,如果今天多 3 倍算力,他可以立刻用完;如果今天多 10 倍算力,幾周內(nèi)也能全部吃滿。對他來說,算力需求是真實存在的,看不到任何放緩跡象。
![]()
▲ OpenAI 的計算成本,計劃到 2030 年花費約 4500 億美元租用服務(wù)器,紅色為推理計算成本、藍色為研發(fā)(不包含現(xiàn)金業(yè)務(wù))、黃色為可盈利的計算
他也提到,過去半年,他和 OpenAI 首席科學(xué)家 Jakub Pachocki 已經(jīng)將重心重新拉回,要開始重塑預(yù)訓(xùn)練的統(tǒng)治力。
他明確說他們會繼續(xù)做規(guī)模化模型,而且已經(jīng)有一批算法突破,專門就是為了讓 Scaling 更劃算,在相同算力下挖出更多性能,在更高算力下保持?jǐn)?shù)據(jù)效率。
小扎的送來的真湯,抵不過 OpenAI 的雞湯
最后就是訪談里提到的八卦了,meta 今年沒有別的新聞,媒體渲染了一整個季度的「OpenAI 人才/Apple 人才/Google 人才大量流失到 meta」,Mark Chen 在播客里正面回應(yīng)了這個話題,細節(jié)簡直有點「顛」。
他說小扎真的很拼,為了挖人,小扎不僅手寫郵件,還親自去送雞湯。人才戰(zhàn)打到最后,居然演變成「誰煮的湯更好喝」的 meta 游戲。
![]()
▲ meta 花大價錢挖人組建的超級智能實驗室名單
不過,在他的直接下屬中,meta 曾試圖挖角一半的人,結(jié)果全部選擇繼續(xù)留下來。為什么不走?不是因為錢,因為meta 給的錢顯然更多,而是因為信仰。
Mark 說,即使是那些跳槽去 meta 的人,也沒有一個人敢說「meta 會比 OpenAI 先做出 AGI」。留在 OpenAI 的人,是因為他們真的相信這里才是 AGI 的誕生地。
他也提到自己從華爾街和玩撲克的經(jīng)歷里面學(xué)到,真正要守住的是核心人才,而不是每一個人。在搞清楚,必須留下的是哪類人后,再把資源和關(guān)注度,全部壓在這部分人身上。
他說他最強烈的情緒,其實就是想「保護研究的本能」。在 Barrett(OpenAI 研究副總裁)離職那陣子,他甚至直接睡在辦公室睡了一個月,只為把研究團隊穩(wěn)住。
![]()
▲ Barret 目前和 Mira(OpenAI 前 CTO) 都在 Thinking Machines
那么 OpenAI 所信奉的 AGI 又是什么,主持人問他,Andrej Karpathy 在最近的一個播客里面說,AGI 大概還要 10 年,你是怎么想的。
Mark 先是調(diào)侃了一番 X 現(xiàn)在「驚」的各種文案,一下子是「AI 完了」、一下子又是「AI 又可以了」。他覺得,每個人對于 AGI 的理解都不同,即便在 OpenAI 內(nèi)部,也很難有一個一致的定義。但他相信的是,OpenAI 在 AGI 道路上設(shè)置的目標(biāo)。
一年內(nèi): 改變研究的性質(zhì)。現(xiàn)在的研究員是自己在寫代碼、跑實驗。 一年后,研究員的主要工作是管理 AI 實習(xí)生。AI 應(yīng)該能作為高效的助手,承擔(dān)大部分具體工作。2.5 年內(nèi): 實現(xiàn)端到端的研究自動化。這意味著:人類只負責(zé)提出 Idea(頂層設(shè)計),AI 負責(zé)實現(xiàn)代碼、Debug、跑數(shù)據(jù)、分析結(jié)果,形成閉環(huán)。
從 Copilot 到 Scientist,Mark 強調(diào),OpenAI for Science 的目標(biāo)不是自己拿諾貝爾獎,而是建立一套工具,讓現(xiàn)在的科學(xué)家能一鍵加速,哪怕這需要重構(gòu)整個科學(xué)評價體系,因為未來可能很難分清是人還是 AI 做的發(fā)現(xiàn)。
2 年半的時間很快,但這對于現(xiàn)在看來,是以周為單位迭代的 AI 行業(yè)來說,又是一場漫長的馬拉松。
![]()
▲ 預(yù)測市場給出的,到 2025 年底前最好的 AI 模型會來自哪個公司,Google 排在第一名
無論是扎克伯格那鍋真金白銀的雞湯,還是 OpenAI 想要定義未來的理想主義雞湯,這場硅谷的「煮湯大戲」還遠未結(jié)束。Mark Chen 播客里表現(xiàn)出來的從容,或許能消除一部分外界的焦慮,但用戶還是會用腳投票,好的模型自己會說話。





京公網(wǎng)安備 11011402013531號