![]()
新智元報道
編輯:KingHZ
谷歌AI的集體勝利:Gemini 3發布,參與人數媲美NASA登月!從芯片到算法的全棧專家合力,Koray與Logan剖析工程協作的魅力。
伴隨Gemini?3的發布,谷歌一舉問鼎AI王座!
曾經被認為處于「落后」狀態的谷歌,如今正憑借一系列技術、戰略與資源優勢,試圖奪回在生成式AI時代的主導地位。
近期,谷歌DeepMind的CTO Koray Kavukcuoglu與谷歌AI Studio產品Logan Kilpatrick負責人深度剖析Gemini 3發布盛況、AI前沿創新及AGI征途。
![]()
全程45分鐘,聚焦模型優化、工程協作與生成媒體崛起,揭示了谷歌AI戰略藍圖。
這一輪升級,不只是「又多了一個大模型」,而是谷歌在公開宣告——
我們要和全球用戶一起,共建下一代智能系統。
與用戶共創,一切才剛剛開始
Gemini 3發布,AI界進入「共建AGI」新階段。
「我對現在的進展非常激動。」在現場,Koray Kavukcuoglu難掩興奮,
我們確實在多個維度上推進了技術邊界。這就是我們構建AGI的方式:腳踏實地、全情投入。
這并不是一次閉門造車的科研成果,而是一次面向全球用戶的「共建實驗」。
![]()
「我們正和用戶一起,協同打造AGI。世界已經變了,新技術正在重塑人們的期待。」
他微笑著補充:「突然之間,更多人都能成為創造者。讓任何事物成真。」我們正處在一個激動人心的時代。
Koray表示,很多人對AGI的想象,還是停留在實驗室里的「象牙塔」模式。但現實恰恰相反——
「我們并不是關起門來搞研究,而是在與整個世界共同構建AGI。」
他指出,AGI是可靠的系統工程。要構建一套穩定、安全、可靠的系統,就必須從最底層開始打基礎。
谷歌采用工程師的思維方式,事先就要考慮這些因素。
他介紹道,在Gemini的訓練過程中,安全團隊、安全技術、乃至每一位模型研發成員,都直接參與了模型訓練的后期過程。「我們不會等到模型做完才來檢測安全性,而是把安全性當作核心目標,與模型能力的迭代同步進行。」
Gemini 3的發布不僅是一次模型迭代,更是一場涵蓋谷歌各大團隊的集體行動。Logan說:「這可能是Google歷史上參與人數最多的一次技術發布,僅次于NASA登月。」對此,Koray點頭稱是。
從2.5到3.0:Gemini不斷加速
主持人Logan Kilpatrick是DeepMind團隊成員。上次兩人坐在一起,還是Gemini 2.5發布時,他們在I/O大會上聽Dennis和Sergey談AI。
當時,Logan就覺得進展非常快——現在看來,根本沒慢下來。
Koray對研究的進展非常興奮。他表示,不管是數據處理、預訓練還是后訓練,一切都離不開創新:
越是貼近真實世界,模型的接觸面越廣,反饋信號越豐富,從中誕生的想法就越多。
我們面臨的問題會越來越復雜,而正是這些挑戰推動我們一步步走向智能的本質。
在某些基準測試上,AI已經接近飽和。
![]()
很多人擔心,這是不是意味著進展停滯?
Koray并不認同這種看法——
測試集本來就是當初技術尚未突破時設定的,所以過一段時間自然會「被攻克」。
要提升模型能力,就需要不斷設立新的基準。這是機器學習的常態:基準推動模型發展,而新模型又促使我們重新定義基準。
技術進步不靠「擠壓分數」,而靠重新定義邊界。
以GPQA、人類最后的考試等高難度測試為例,最初模型幾乎拿不到分,但現在能達到40%以上,這說明模型確實在進步。雖然「每次只提高1%」,但這些1%往往意味著突破了極其復雜的問題。
![]()
在Koray看來,最重要的進步衡量標準是——
用戶真的在用:
科學家、學生、律師、工程師都在用Gemini模型來寫作、編程、創作內容……
在真實世界中,AI模型能持續創造價值,這才是真正的進步。
落地才是AGI的關鍵
如今,AI基準測試種類繁多。到底要怎么決定要在哪些方面持續發力?
谷歌一直重點關注以下這兩大領域。
指令遵循(instruction following)——模型必須能理解用戶請求,并按要求回應。
國際化。「谷歌是全球化公司,我們必須確保模型適用于全球用戶。」
談到更技術性的領域,Koray特別提到幾個關鍵詞:
函數調用、工具調用、智能體行為、編程能力……
他解釋說:「AI模型不僅能自然調用各種工具和函數,更能自己寫出這些工具。某種意義上,模型本身就是一種工具。」
這不僅為模型提供了推理能力,也拓展了其實際應用場景。
而代碼能力的重要性,不僅因為「大家都是程序員」,更因為代碼是數字世界的底層語言——只要你會寫代碼,就可以創造任何東西。
這意味著,谷歌讓更多人擁有了「構建的能力」。
Logan提到這次Gemini 3的發布,還同時上線了谷歌新平臺Anti-gravity,一個AI驅動的編程智能體平臺。他好奇這種產品層面的「共建」對模型訓練是否真的有幫助。
![]()
Koray毫不猶豫地回答:「非常重要。」
在他看來,Anti-gravity不僅是一款產品,它讓模型直接面對用戶,尤其是開發者。谷歌可以從中獲取第一手的使用反饋,了解模型在哪些地方需要改進。他舉例說:
不僅是Anti-gravity,AI Studio、Gemini App、搜索的AI摘要功能——我們通過這些產品獲得了大量反饋。
正是這種與產品的深度整合,幫助我們了解用戶真正的需求。
他強調道:「AI模型要真正有用,必須在真實場景中落地。這才是關鍵。」
Gemini 3很強,但還遠未「滿分」
Gemini 3刷新了多項基準測試,但谷歌清楚知道他們還有很長的路要走。
![]()
他們很清楚——
寫作、編程不夠完美。
特別是「智能體行為」和「工具使用」這塊,Gemini還有很多提升空間。
Koray坦言:「并不是有意忽視智能體與工具調用,我覺得主要原因是——我們當時離真實世界的應用場景還不夠近。」
他說,Gemini項目一開始更多是在研究環境中展開,但隨著項目逐步轉向產品化,它的「開發環境」也越來越貼近實際需求。越貼近用戶,越能理解真實的技術難題。
五年前, Gemini研究人員還在寫論文、做研究。而現在,每六個月Gemini迭代一次,每月或每六周更新一次。
過去是25人署名論文,現在是2500人參與Gemini 3項目。
回首往事,真是令人感慨!
他認為,這是谷歌的巨大優勢之一——從芯片、數據中心、網絡、工程到模型算法,每一層都有世界級專家,而Gemini正是在這種「全棧協作」的基礎上誕生的。
「這就是為什么需要幾千人合作。這不是障礙,這是力量。」
統一架構:我們正在靠近「萬能模型」
談到多模態發展時,Logan提到Gemini V3、Nano Banana模型等圖像與視頻生成模型的進展,并好奇:「視頻模型真的是構建AGI的一部分嗎?」
Koray回顧了過去十幾年的發展:
最早的生成模型集中在圖像,是因為圖像更容易觀察和理解世界中的物理規律。
過去,大家以為文本進展會慢,但事實證明文本是最容易突破的領域。
現在,圖像、視頻、音頻等多模態模型的能力正在回歸,它們和文本模型的架構也正在趨同。
他舉例說,Nano Banana模型是首次讓用戶能與圖像生成模型進行對話式交互,「文本模型帶來的世界理解能力,和圖像模型帶來的感知能力,一旦結合,就會產生極大的協同效應。」
他還解釋道:
現在模型架構確實越來越統一了,過去圖像模型和文本模型的架構差異很大,但現在它們正在自然融合,因為大家都在追求更高的效率與表現力。
盡管趨勢在向統一架構邁進,但Koray指出:圖像生成仍然是一個難度極大的方向。
因為AI模型的學習信號主要來自輸出空間,而現在的學習信號以代碼和文本為主,圖像則更難。
「圖像不僅要像素級完美,還要概念上連貫。它每一個像素的存在都要契合整張圖的主題。這種雙重要求,訓練起來特別難。」
不過Koray也很樂觀:「我們會繼續尋找適合的模型創新,讓統一模型真正成為現實。」
當Gemini模型能把大段復雜文本的核心概念,用一張圖表達出來,那感覺就是魔法時刻。
![]()
他認為,這正是多模態模型的價值所在——AI模型不僅能理解抽象,還能用最直觀的方式表達出來。
誠實面對落后,是唯一的出路
加入谷歌的初期,Logan有種「谷歌是AI界的挑戰者」的感覺。雖然有技術底子,但外界并不看好。
Koray點頭回應:「我當時也有一樣的感覺。說實話,在大語言模型(LLM)剛崛起的階段,我們并不在最前線。」
這也是一次深刻的教訓——永遠不要忽視新方向的重要性。
啟動Gemini項目時,谷歌非常明確形勢:「我們落后了,我們需要迎頭趕上,我們還沒有掌握關鍵能力。」
初期,Gemini團隊必須快速學習別人的做法,同時找到自己的創新路徑——無論是模型結構、訓練流程、數據使用還是協作方式,都做了非常深度的調整。
如今,他們找到了獨屬于谷歌、屬于Gemini的系統打法。
外界常說,谷歌太大、太慢、不夠靈活。但Koray有不同看法——
規模不是阻礙,是獨特的力量源泉。
谷歌下一階段怎么超越自己?
Koray的回答一如既往地冷靜清晰:
我們一定會繼續進步,每一個方向都有改進空間。
我們的目標一直很清晰——構建真正的智能。我們會把全部的心思、創新力和資源投入到這條路上,行穩致遠。
Gemini下一階段永遠在前線,也永遠準備好革新。
參考資料:
https://www.youtube.com/watch?v=iFqDyWFuw1c&t=1s
https://fortune.com/2025/11/25/google-sleeping-giant-dark-horse-ai-race-gemini/
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!





京公網安備 11011402013531號