![]()
「這確實是一個很棒的逆襲故事。」
11 月 19 日凌晨,Gemini 3 的發布徹底打破了平淡。上線當日,全球訪問量便突破 5400 萬次,創平臺歷史新高。
![]()
Google 這一次王者歸來,震感甚至直接傳導到了競爭對手的神經中樞。據 The Information 報道,面對 Google 步步緊逼的攻勢,OpenAI CEO Sam Altman 本周一緊急在內部備忘錄中宣布公司進入「紅色警戒(code red)」狀態,準備調動一切戰略資源對 ChatGPT 的能力進行大幅升級。
![]()
據 The Verge 援引知情人士消息稱,OpenAI 計劃最早于下周初發布 GPT-5.2 模型, 這一時間表較原定的 12 月下旬計劃大幅提前。
這不僅側面印證了 Gemini 3 帶來的壓迫感,也讓接下來的對話顯得更加意味深長。
近日,DeepMind CTO、Google 新任首席 AI 架構師 Koray Kavukcuoglu 在 Logan Kilpatrick 的訪談節目中亮相,他說「我們曾是追趕者,但創新是唯一的出路。」
亮點速覽:
1. Koray Kavukcuoglu 強調,Gemini 的優化重點集中在以下幾個關鍵領域:
指令遵循: 確保模型能準確理解并執行用戶的具體需求,而非隨意生成內容。國際化: 提升多語言支持能力,確保全球用戶都能獲得高質量體驗。代理與工具能力:模型不僅能自然使用我們已有的工具和函數,還能自主編寫工具。
2. Gemini 3 是一款「全 Google 團隊協作的模型」。來自歐洲、亞洲等世界各地的團隊都做出了貢獻,不僅有 DeepMind 團隊,還有 Google 各個部門的團隊。
3. 隨著技術進步,文本模型和圖像模型的架構、理念正在不斷融合。過去,兩者的架構差異很大,但現在越來越趨同。這是技術自然演進的結果:大家都在探索更高效的方案,理念逐漸統一,最終形成了共同的發展路徑。
視頻鏈接:
https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp
以下為完整內容的轉錄和翻譯。(順序有改動)
基準測試只是第一步,用戶反饋是 Step Two
Logan Kilpatrick: 大家好,歡迎回到 Release Notes。我是 Logan Kilpatrick,我在 DeepMind 團隊。今天很榮幸邀請到 DeepMind 的 CTO、Google 的新任首席 AI 架構師——Koray。Koray,感謝你的到來,期待與你深入交流。
Koray Kavukcuoglu: 我也很期待。謝謝邀請!
Logan Kilpatrick: 當然,Gemini 3 已經發布。我們此前就預感這款模型會表現出色,基準測試結果也非常亮眼,但真正將它交到用戶手中后,實際反響……
Koray Kavukcuoglu: 這才是最終的考驗。基準測試只是第一步,之后我們也做了大量測試,包括讓可信測試者參與預發布體驗等。所以我們能感受到這是一款優秀的模型,能力出眾,雖然不完美,但用戶的反饋確實讓我很滿意。
大家似乎很喜歡這款模型,而且我們覺得有意思的部分,他們也同樣感興趣。所以目前來看挺好的,一切都很順利。
Logan Kilpatrick: 沒錯,我們昨天還在聊,核心話題就是感慨 AI 的發展速度從未放緩。回想上次,也就是去年 I/O 大會上我們發布 Gemini 2.5 時,聽著演示、Serge 談論 AI 的未來,當時就覺得 2.5 已經是最先進的模型,在多個維度上都突破了前沿。而現在,Gemini 3.0 再次實現了突破。我很好奇,關于「這種進步能否持續」的討論一直存在,你現在的看法是什么?
Koray Kavukcuoglu: 我對目前的進展和研究都充滿信心。身處研究一線,你會發現各個領域都洋溢著創新的熱情,從數據、預訓練、微調,到每一個環節,都有大量新想法、新突破涌現。
歸根結底,這一切都依賴于創新和創意。當我們的技術能切實影響現實世界、被人們廣泛使用時,我們能獲得更多反饋信號,接觸面也會擴大,進而催生更多靈感。
而且我認為,未來的問題會更復雜、更多元,這會帶來新的挑戰,但這些挑戰是有益的,也是推動我們邁向通用智能的動力。
有時候,如果你只看一兩個基準測試,可能會覺得進步放緩了,但這很正常。基準測試是在某個技術難題凸顯時設立的,隨著技術發展,它不再是前沿的代名詞,這時就需要制定新的基準。
這在機器學習領域很常見:基準測試與模型開發是相輔相成的,基準測試指導模型迭代,而只有接近當前前沿,才能明確下一個目標,進而制定新的基準。
Logan Kilpatrick: 我完全認同。比如早期的 HLE 基準測試,所有模型的正確率都只有 1% 到 2%,而現在 DeepMind 的最新模型已經能達到 40% 左右,這太驚人了。ArcGIS 基準測試最初也幾乎沒有模型能應對,現在正確率也超過了 40%。
不過有些靜態基準測試確實經受住了時間的考驗,比如 GPQA Diamond,雖然我們現在只能一點點提升 1% 左右的正確率,但它依然被廣泛使用,可能已經接近飽和了。
![]()
Koray Kavukcuoglu: 這些基準測試中確實有很多難題,我們目前還無法完全攻克,但它們依然具有測試價值。以 GPQA 為例,我們沒必要追求 90% 以上的極致正確率,現在已經接近目標了,所以尚未解決的問題數量自然在減少。
因此,尋找新前沿、制定新基準至關重要。基準測試是衡量進步的一種方式,但并非絕對對齊。理想情況下兩者完全一致,但現實中永遠無法完全契合。
對我來說,衡量進步最重要的標準是:我們的模型是否在現實世界中被廣泛使用?科學家、學生、律師、工程師是否在用它解決問題?人們是否用它進行寫作、收發郵件等?無論簡單還是復雜,能在更多領域、更多場景中持續為用戶創造更大價值,這才是真正的進步。而基準測試只是幫助我們量化這種進步的工具。
Logan Kilpatrick: 我有一個不算爭議性的問題:Gemini 3 在眾多基準測試中表現出色,同步登陸 Google 所有產品端和合作伙伴生態,用戶反饋也非常積極。如果展望下一次 Google 重大模型發布,你覺得還有哪些方面是我們需要改進的?比如「我們希望能在 X、Y、Z 方面做得更好」,還是說我們應該先享受 Gemini 3 帶來的成果?
Koray Kavukcuoglu: 我覺得兩者可以兼顧。我們應該享受當下,畢竟發布日值得慶祝,團隊也應該為自己的成就感到自豪。但與此同時,我們也清楚地看到,模型在各個領域都存在不足:寫作能力并不完美,編碼能力也有提升空間。
尤其是在智能體行動和編碼方面,還有很大的進步空間,這也是最令人興奮的增長領域。我們需要找出可以優化的方向,然后持續改進。我認為我們已經取得了長足的進步:對于 90% 到 95% 的編碼相關用戶(無論是軟件工程師,還是想構建產品的創意人士)來說,Gemini 3 可能是目前最好用的工具,但確實還有一些場景需要進一步優化。
從「有創意」變得「能落地」
Logan Kilpatrick: 你如何看待「逐步優化」?比如從Gemini 2.5 到 3.0,或者其他版本迭代中,我們的優化重點是什么?如今基準測試數量繁多,我們如何選擇優化方向,無論是針對整個 Gemini 系列,還是專門針對 Pro 版本?
Koray Kavukcuoglu: 我認為有幾個關鍵領域至關重要。首先是指令遵循能力。模型需要準確理解用戶需求并執行,而不是隨意輸出答案,這是我們一直重視的方向。其次是國際化。 Google 的業務遍布全球,我們希望讓全世界的用戶都能用上這款模型。
Logan Kilpatrick: 確實,我今天早上還和 Tulsi 聊過,她提到這款模型在一些我們過去表現不佳的語言上,表現得非常出色。
Koray Kavukcuoglu: 這真的很棒。所以我們必須持續聚焦這些領域,它們可能不是知識前沿,但對用戶交互至關重要。正如我之前所說,我們需要從用戶那里獲取反饋信號。
再說到更技術化的領域,函數調用、工具調用、智能體行動和代碼能力也極為關鍵。
函數調用和工具調用能極大提升模型的智能乘數效應:模型不僅能自然使用我們已有的工具和函數,還能自主編寫工具。本質上,模型本身也是一種工具。
代碼能力之所以重要,不僅因為我們團隊中有很多工程師,更因為代碼是數字世界的基礎。無論是軟件開發,還是將任何想法變為現實,代碼都不可或缺。它能讓模型與人們生活中的諸多場景深度融合。
我舉個例子,比如「即時編碼」(vibe coding),我很看好這個功能。很多人富有創造力,但缺乏將想法落地的能力,而即時編碼能讓他們從「有創意」變得「能落地」:只需寫下想法,就能看到對應的應用程序呈現在眼前,而且大多數時候都能正常運行。
這種從創意到產品的閉環非常棒,它讓更多人有機會成為創造者。
![]()
Logan Kilpatrick: 太贊了!這簡直是 AI Studio 的完美宣傳點,我們會把這段剪輯出來發布到網上。你剛才提到的一個重要話題是,在 Gemini 3 發布之際,我們同步推出了 Google Anti-gravity 平臺。從模型角度來看,你認為這種產品架構對提升模型質量的重要性有多大?顯然,這和工具調用、編碼能力息息相關。
Koray Kavukcuoglu: 對我來說,這至關重要。平臺本身確實令人興奮,但從模型角度看,這是雙向作用的。首先,模型能通過與終端用戶(指軟件工程師)直接集成,獲取他們的反饋,進而明確模型需要改進的方向,這對我們來說至關重要。
就像 Gemini、AI Studio 一樣,Anti-gravity 平臺也是如此。這些產品能讓我們與用戶緊密相連,獲取真實的反饋信號,這是巨大的財富。Anti-gravity 平臺作為我們的關鍵發布合作伙伴,雖然加入時間不長,但在過去兩三周的發布籌備中,它的反饋起到了決定性作用。
搜索 AI 模式(AI Mode)也是如此,我們從那里獲得了大量反饋。基準測試能幫助我們推動科學、數學等領域的智能提升,但了解現實世界的使用場景同樣重要,模型必須能解決實際問題。
Gemini 3,一款全 Google 團隊協作的模型
Logan Kilpatrick: 在你擔任新任首席 AI 架構師后,你的職責不僅是確保我們擁有優秀的模型,還要推動產品團隊將模型落地,在 Google 的所有產品中打造出色的用戶體驗。 Gemini 3 在發布當天就同步登陸 Google 所有產品端,這對用戶來說是巨大的驚喜,也希望未來能覆蓋更多產品。從DeepMind 的角度來看,這種跨團隊協作是否增加了額外的復雜性?畢竟一年半前,事情可能還簡單得多。
Koray Kavukcuoglu: 但我們的目標是構建智能,對吧?很多人問我,身兼 CTO 和首席 AI 架構師兩個職位,會不會有沖突,但對我來說,這兩個角色本質上是一致的。
要構建智能,就必須通過產品與用戶的聯動來實現。我的核心目標是確保 Google 的所有產品都能用上最先進的技術。我們不是產品團隊,而是技術開發者,我們負責研發模型和技術,當然,我們也會對產品有自己的看法,但最重要的是,以最佳方式提供技術支持,與產品團隊合作,在 AI 時代打造最優秀的產品。
這是一個全新的時代,新技術正在重新定義用戶期望、產品行為和信息傳遞方式。因此,我希望能在 Google 內部推動這種技術賦能,與所有產品團隊合作。這不僅對產品和用戶有益,對我們自身也至關重要。
只有貼近用戶,才能感受到他們的需求,獲取真實的反饋信號,這是推動模型迭代的核心動力。這就是我們構建通用人工智能(AGI)的方式:通過產品與用戶共同成長。
Logan Kilpatrick: 我完全認同。這簡直可以作為你的推特文案了!我也覺得,我們本質上是在與客戶、合作伙伴共同構建通用人工智能(AGI)——這不是某個實驗室的孤立研究,而是與全世界共同推進的聯合事業。
Koray Kavukcuoglu: 我認為這也是一個「可信測試體系」——我們越來越強調工程思維。這種思維很重要,因為精心設計的系統才會更穩健、更安全。
我們在構建現實世界的產品時,借鑒了很多「可信測試」的理念,這體現在我們對安全、隱私的重視上:我們從一開始就將安全隱私作為核心原則,而不是事后補充。
無論是預訓練、微調,還是數據篩選,團隊中的每個人都需要考慮安全問題。我們當然有專門的安全團隊和隱私團隊,他們會提供相關技術支持,但我們更希望 Gemini 團隊的每個人都深度參與其中,將安全隱私融入開發的每一個環節,這些團隊本身也是微調團隊的一部分。
因此,在模型迭代、發布候選版本時,我們不僅會參考 GPQA、HLE 等基準測試結果,還會嚴格審查安全隱私指標。這種工程思維至關重要。
Logan Kilpatrick: 我完全同意。這也很符合 Google 的企業文化,畢竟,發布 Gemini 模型是一項需要全球團隊協作的龐大工程。
Koray Kavukcuoglu: 說到 Gemini 3,我覺得最值得一提的是,它是一款「全 Google 團隊協作的模型」。
Logan Kilpatrick: 我們可以看看相關數據,這可能是史上參與人數最多的項目之一,就像 NASA 的阿波羅計劃一樣,這是一項全球性的龐大工程。
Koray Kavukcuoglu: 沒錯,是全球性的。
Logan Kilpatrick: Google 所有團隊都參與其中,這太不可思議了。
Koray Kavukcuoglu: 來自歐洲、亞洲等世界各地的團隊都做出了貢獻,不僅有 DeepMind 團隊,還有 Google 各個部門的團隊。這是一項巨大的集體努力:我們與 AI 模式(AI Mode)、Gemini 應用程序同步發布,這不容易。
這些產品團隊在模型開發階段就與我們深度協作,這也是為什么我們能在發布當天實現全平臺同步上線。所謂「全 Google 參與」,不僅指直接參與模型構建的團隊,還包括所有各司其職、默默付出的團隊。
Nano Banana,自發的名字,自然地融合
Logan Kilpatrick: 另一個我關心的話題是生成式媒體模型——雖然我們一直有關注,但過去并未作為重點。不過,隨著 Veo 3、Veo 3.1、Nano Banana 模型的推出,我們在產品落地方面取得了很大成功。
我很好奇,在追求通用人工智能(AGI)的過程中,你如何看待生成式視頻模型的作用?有時候我會覺得視頻模型似乎與 AGI 無關,但仔細想想,它涉及對世界、物理規律的理解,所以兩者應該是相互關聯的。
Koray Kavukcuoglu: 10 到 15 年前,生成式模型主要集中在圖像領域,因為當時我們能更好地觀察圖像生成的過程,而且理解世界、物理規律也是圖像生成模型的核心目標。
Google 在生成式模型方面的探索可以追溯到 10 年前,甚至更早。我讀博時,大家都在做生成式圖像模型,比如像素卷積神經網絡(Pixel CNNs)。后來我們意識到,文本領域的進步速度會更快。
但現在,圖像模型的重要性再次凸顯。DeepMind 長期以來在圖像、視頻、音頻模型方面積累了深厚的技術實力,將這些技術與文本模型融合是順理成章的。
我們一直強調多模態,包括輸入多模態和輸出多模態。隨著技術進步,文本模型和圖像模型的架構、理念正在不斷融合。過去,兩者的架構差異很大,但現在越來越趨同。這不是我們刻意推動的,而是技術自然演進的結果:大家都在探索更高效的方案,理念逐漸統一,最終形成了共同的發展路徑。
這種融合的核心價值在于,文本模型擁有豐富的世界知識,而圖像模型從另一個視角理解世界,將兩者結合,能讓模型更好地理解用戶的意圖,創造出更令人驚喜的成果。
Logan Kilpatrick: 我還有一個關于 Nano Banana 的問題:你覺得我們應該給所有模型起一些有趣的名字嗎?這會不會有幫助?
Koray Kavukcuoglu: 不一定。我覺得名字應該自然產生,而不是刻意為之。比如 Gemini 3,我們并沒有刻意設計名字。
Logan Kilpatrick: 如果 Gemini 3 不叫這個名字,你會起什么?會不會是很搞笑的名字?
Koray Kavukcuoglu: 我不知道,我不擅長起名字。其實我們的 Gemini 模型有內部代號,有些代號甚至是用 Gemini 模型自己生成的,但 Nano Banana 不是,它沒有經過模型生成。
這個名字背后有個故事,我記得已經公開了。我覺得只要名字是自然、自發產生的,就很好。構建模型的團隊能對名字產生情感共鳴,這很有意義。
「Nano Banana」這個名字之所以被沿用,是因為我們在測試時用了這個代號,大家都很喜歡,它是自發傳播開來的。我覺得這種自然形成的名字很難通過流程刻意創造,有就用,沒有的話,用標準名稱也很好。
Logan Kilpatrick: 那我們來聊聊 Nano Banana Pro,這是基于 Gemini 3 Pro 打造的最先進的圖像生成模型。我聽說團隊在完成 Nano Banana 后,發現將其升級為 Pro 版本后,在文本渲染、世界知識理解等更精細的場景中,性能有了很大提升。對于這方面的發展,你有什么看法?
Koray Kavukcuoglu: 這正是不同技術融合的體現。我們一直說,每個版本的 Gemini 都是一個模型家族,比如 Pro、Flash 等,不同尺寸的模型在速度、準確率、成本等方面各有取舍。圖像生成模型也是如此,自然會形成不同定位的產品。
團隊基于 Gemini 3.0 Pro 的架構,結合第一代模型的經驗,通過擴大模型規模、優化調優方式,打造出了更強大的圖像生成模型,這很合理。它的核心優勢在于處理復雜場景:比如輸入大量復雜文檔,模型不僅能回答相關問題,還能生成對應的信息圖表,而且效果很好。這就是輸入多模態與輸出多模態自然融合的體現,非常棒。
![]()
Logan Kilpatrick: 是啊,這簡直像魔法一樣!希望大家在這段視頻發布時已經看到了相關示例,內部分享的一些案例真的太驚人了。
Koray Kavukcuoglu: 完全同意!當你看到模型能將海量文本、復雜概念,用一張清晰直觀的圖片呈現出來時,真的會驚嘆「太厲害了」。這能直觀地體現模型的能力。
Logan Kilpatrick: 而且其中還有很多細節值得品味。我還有一個相關問題:去年 12 月,Tulsi 曾承諾我們會推出統一的 Gemini 模型檢查點(checkpoint)。你剛才描述的內容,是不是意味著我們現在已經非常接近這個目標了?
Koray Kavukcuoglu: 從歷史上看,生成式模型的架構一直是統一的……
Logan Kilpatrick: 所以我猜這是我們的目標:讓這些功能真正融入一個模型中,但現實中肯定有一些阻礙。你能從宏觀層面解釋一下嗎?
Koray Kavukcuoglu: 正如我之前所說,技術和架構正在不斷趨同,這種統一是必然趨勢,但這需要驗證。我們不能憑主觀臆斷,必須遵循科學方法:提出假設、進行測試、觀察結果,有時成功,有時失敗,但這就是技術進步的過程。
我們正在逐步接近目標,我相信在不久的將來,我們會看到更統一的模型,但這需要大量的創新。
這其實很難——模型的輸出空間至關重要,因為它直接關系到學習信號的質量。目前,我們的學習信號主要來自代碼和文本,這也是模型在這些領域表現出色的原因。
而圖像生成則不同:它對質量要求極高,不僅需要像素級的精準度,還需要圖像概念的連貫性,也就是每個像素都要符合整體畫面的邏輯。要同時做好文本和圖像生成,難度很大。但我認為這絕對是可行的,只是需要找到合適的模型創新方向。
Logan Kilpatrick: 太令人期待了!希望這也能讓我們的工作更高效,比如擁有一個統一的模型檢查點。
Koray Kavukcuoglu: 這很難說,但可能性很大。
一切都建立在學習之上
Logan Kilpatrick: 我再追問一個關于編碼和工具使用的問題。回顧 Gemini 的發展歷程:1.0 版本聚焦多模態,2.0 版本開始搭建基礎設施。雖然我們的進步速度很快,但為什么在多模態領域,我們沒能從一開始就在智能體工具使用方面達到最先進水平?畢竟 Gemini 1.0 在多模態領域一直保持領先。
Koray Kavukcuoglu: 我不認為這是刻意為之。說實話,我覺得這與模型開發環境是否貼近現實世界密切相關,越貼近現實,就越能理解用戶的真實需求。
Gemini 的發展歷程,也是我們從「純研究」轉向「工程思維」、與產品深度綁定的過程。 Google 在 AI 研究方面有著深厚的積淀,擁有眾多優秀的研究人員,但 Gemini 的特別之處在于,它讓我們從「寫論文、做研究」轉向了「通過產品和用戶共同開發」。
我為我們的團隊感到驕傲——包括我在內,大多數人四五年前還在專注于發表論文、開展 AI 研究,而現在,我們站在技術前沿,通過產品和用戶共同推進技術迭代。
這種轉變非常驚人:我們每 6 個月就推出一個新模型,每 1 到 1.5 個月就進行一次更新。我認為,我們正是在這個過程中逐步完善智能體工具使用能力的。
Logan Kilpatrick: 還有一個有趣的話題:現在 DeepMind 擁有眾多世界頂尖的 AI 產品,比如即時編碼(vibe coding)、AI Studio、Gemini、Anti-gravity 平臺等, Google 旗下也有很多前沿模型,比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前,世界完全不是這樣的。
我很好奇,回顧你的個人歷程,你昨天提到,你是 DeepMind 的第一位深度學習研究員,這一點我和其他人都感到很意外。從 13 年前(2012年)人們對深度學習并不看好,到現在這項技術支撐著眾多產品、成為核心驅動力,你有什么感想?這一切是在意料之中,還是讓你感到意外?
Koray Kavukcuoglu: 我覺得這是最理想的結果。就像所有讀博的人一樣,你會堅信自己所做的事情很重要,會產生重大影響——我當時就是這種心態。
所以當 Demi 和 Shane 聯系我,告訴我 DeepMind 是一個專注于構建智能、以深度學習為核心的團隊時,我非常興奮。我和我的朋友 Carl Greger(我們都來自紐約大學 Jan 的實驗室)同時加入了 DeepMind。在當時,專注于深度學習和 AI 的初創公司非常罕見,所以 DeepMind 的理念非常有遠見,能在那里工作真的很令人激動。后來,我組建了深度學習團隊,看著它不斷發展壯大。
我對深度學習的態度一直是:以第一性原理為基礎,堅持「基于學習」的思維方式,這也是 DeepMind 的核心理念:一切都建立在學習之上。
回顧這段旅程,從早期的 DQN、AlphaGo、AlphaZero、AlphaFold,到現在的 Gemini,真的很令人感慨。我們一直懷著積極的期望推進工作,但同時也覺得自己很幸運。
我們有幸生活在這個時代,很多人曾為 AI 或自己熱愛的領域奮斗一生,希望能見證技術爆發,但這一切現在真的發生了。AI 的崛起不僅得益于機器學習和深度學習的進步,還離不開硬件、互聯網和數據的發展,這些因素共同促成了今天的局面。所以,我既為自己選擇了 AI 領域而自豪,也為能身處這個時代而感到幸運。這真的太令人興奮了。
Logan Kilpatrick: 我最近看了《思維游戲》(The Thinking Game)的視頻,了解了 AlphaFold 的相關故事。我沒有親歷那個時代,只能通過資料和他人的講述來了解。你經歷了 DeepMind 的多個重要項目,你覺得現在的工作與過去相比有什么不同?比如你之前提到的,「我們已經掌握了將模型推向世界的方法」,這種感覺與之前的項目有什么相似或不同之處?
Koray Kavukcuoglu: 如何組織團隊、培養文化,才能將復雜的科學技術問題轉化為成功的成果?我認為我們從多個項目中積累了很多經驗,從 DQN、AlphaGo、AlphaZero 到 AlphaFold,這些項目都產生了深遠影響。我們學會了如何圍繞特定目標和使命,組織大規模團隊開展工作。
我記得 DeepMind 早期,我們曾有 25 人共同參與一個項目,共同發表一篇論文——當時很多人都質疑「25 人怎么可能合作完成一篇論文」,但我們確實做到了。在科研領域,這種大規模協作并不常見,但我們通過有效的組織實現了。這種經驗和思維方式,隨著時間的推移不斷演進,變得越來越重要。
而在過去兩三年里,我們又融入了工程思維——我們有了模型的主線開發方向,學會了在主線基礎上進行探索。
我覺得「深度思維模型」(Deep Think)就是一個很好的例子:我們用它參加國際數學奧林匹克(IMO)、國際大學生程序設計競賽(ICPC)等頂級賽事。這些競賽的問題難度極大,很多人會想為賽事定制專門的模型,但我們選擇將其作為優化現有模型的機會。
我們堅信技術的通用性,通過賽事探索新想法,并將這些想法融入現有模型,最終打造出能參加頂級賽事的模型,再將其開放給所有人使用。
Logan Kilpatrick: 這讓我想到了一個對應:以前是 25 人共同發表一篇論文,現在 Gemini 3 的貢獻者名單可能已經有 2500 人了——很多人可能會覺得「 2500 人怎么可能都參與其中」,但事實確實如此。這種大規模協作解決問題的方式,真的很令人驚嘆。
Koray Kavukcuoglu: 這一點非常重要,也是 Google 的優勢所在。 Google 擁有全棧技術能力,我們能從中受益:從數據中心、芯片、網絡,到大規模模型的部署,每個環節都有專家坐鎮。
回到工程思維的話題,這些環節是密不可分的。我們設計模型時,會考慮它將運行的硬件;而設計下一代硬件時,也會預判模型的發展方向。這種協同非常美妙,但要協調這么多環節,確實需要數千人的共同努力。我們應該認可這種協作的價值,這真的很了不起。
Logan Kilpatrick: 這絕非易事。再回到 DeepMind 的傳統:我們一直采用多元科學方法,嘗試解決各種有趣的問題。而現在,我們已經明確這項技術在多個領域都有效,只需持續擴大規模。當然,這也需要創新支撐。
你認為在當今時代,DeepMind 如何平衡「純科學探索」和「擴大 Gemini 規模」?比如「Gemini 擴散模型」(Gemini Diffusion),就是這種決策的一個體現。
Koray Kavukcuoglu: 這是最關鍵的問題:找到兩者的平衡至關重要。
現在很多人問我,Gemini 最大的風險是什么?我認真思考過,答案是「缺乏創新」。我絕不相信我們已經找到了「萬能公式」,只需按部就班執行即可。
我們的目標是構建通用智能,這需要與用戶、產品深度綁定,但這個目標本身依然極具挑戰性,我們并沒有現成的解決方案——創新才是實現目標的核心動力。
創新可以有不同的規模和方向:在 Gemini 項目內部,我們會探索新架構、新想法、新方法;而作為 Google DeepMind 整體,我們還會開展更多跨領域的探索,因為有些想法可能在 Gemini 項目內部過于受限,無法充分發展。
所以, Google DeepMind 和 Google 研究院需要共同探索各類想法,然后將這些想法融入 Gemini,因為 Gemini 不是一種架構,而是一個目標:構建通用智能,讓 Google 的所有產品都能依托這個 AI 引擎運行。
無論最終采用哪種架構,我們都會持續演進,而創新將永遠是核心驅動力。找到平衡,或以不同方式推進探索,這至關重要。
Logan Kilpatrick: 我有一個相關的問題:在 I/O 大會上,我曾和 Sergey 聊過,當你把這么多人聚集在一起,共同發布模型、推動創新時,你能感受到一種「人性的溫度」——這一點我深有體會。我當時坐在你旁邊,也感受到了你的熱情。
這一點對我個人來說很有意義,因為它也反映了 DeepMind 的整體文化:既有深厚的科學底蘊,又有友善、包容的團隊氛圍。很多人可能沒有意識到這種文化的重要性,以及它如何影響工作。作為團隊的領導者,你如何看待這種文化的體現?
Koray Kavukcuoglu: 首先,謝謝你的夸獎,這讓我有點不好意思。但我確實相信團隊的力量,也堅信要信任他人、給予他人機會。團隊協作至關重要,這一點我也是在 DeepMind 工作期間學到的。
我們從一個小團隊起步,在成長過程中始終保持信任。我認為,營造一個「專注于解決有影響力的復雜技術和科學問題」的環境,非常重要,這也是我們現在正在做的。
Gemini 的核心是構建通用智能,這是一個極具挑戰性的技術和科學問題,我們需要以謙遜的態度去面對,不斷質疑自己、優化自己。希望團隊也能感受到這一點,我真的為我們的團隊感到驕傲,他們齊心協力、相互支持。
就像我剛才在茶水間和團隊聊的那樣:「這很辛苦,我們都很累,但這就是構建前沿技術的常態。我們沒有完美的流程,但每個人都在全力以赴、相互支持。」 而讓這一切變得有趣、有意義,讓我們有勇氣面對挑戰的,很大程度上是「擁有一支優秀的團隊」,大家共同為技術的潛力而奮斗。
我可以肯定地說,20 年后,我們現在使用的大語言模型(LLM)架構肯定會被淘汰。所以,持續探索新方向是正確的選擇。 Google DeepMind、 Google 研究院,以及整個學術研究社區,都需要共同推進多個領域的探索。
我認為,不必糾結于「什么是對的、什么是錯的」,真正重要的是技術在現實世界中的能力和表現。
Logan Kilpatrick: 最后一個問題:我個人在 Google 的第一年多時間里,感受到了一種「 Google 逆襲」的氛圍。盡管 Google 擁有強大的基礎設施優勢,但在 AI 領域,我們似乎一直在追趕。比如在 AI Studio 的早期階段,我們沒有用戶(后來增長到3萬人),沒有收入,Gemini 模型也處于早期階段。
而現在,隨著 Gemini 3 的發布,我最近收到了很多來自生態系統各方的反饋,人們似乎終于意識到「 Google 的AI時代已經到來」。你是否也有過這種「逆襲」的感受?你相信我們能走到今天嗎?對于團隊來說,這種角色的轉變會帶來什么影響?
Koray Kavukcuoglu: 在大語言模型(LLM)的潛力逐漸顯現時,我坦誠地說,我既認為 DeepMind 是前沿 AI 實驗室,也意識到我們作為研究人員,在某些領域的投入還不夠,這對我來說是一個重要的教訓:我們必須拓寬探索范圍,創新至關重要,而不是局限于某一種架構。
我一直對團隊坦誠相待:大約 2.5 年前,當我們開始認真對待大語言模型、啟動 Gemini 項目時,我們在很多方面都與最先進水平有差距,我們有很多不懂的東西,雖然也有自己的優勢,但確實處于追趕狀態。
這種追趕持續了很長時間,而現在,我認為我們已經進入了領先梯隊。我對我們的發展速度、團隊動態和協作節奏感到非常滿意。但我們必須正視過去的追趕歷程。
在追趕過程中,我們既要學習他人的優點,也要堅持自己的創新,找到適合自己的解決方案:無論是技術、模型、流程,還是團隊運作方式,這些都是我們獨有的。
很多人說「 Google 太大了,做事效率低」,但我認為這可以轉化為優勢。我們有能力做一些獨特的、大規模的事情,比如讓 Gemini 同步登陸所有 Google 產品。我對我們現在的狀態很滿意,但這是通過持續學習和創新實現的。這確實是一個很棒的「逆襲」故事。
當然,總會有各種比較,但我們的目標始終是構建通用智能——我們希望以正確的方式實現這一目標,并為此傾注全部心力和創新。
Logan Kilpatrick: 我覺得未來六個月可能會和過去六個月、乃至之前的六個月一樣令人振奮。再次感謝你抽出時間接受采訪,非常愉快!希望在明年 I/O 大會前我們能再聊一次。
雖然感覺還有很久,但時間肯定會過得很快。我相信下周就會有關于 2026 年 I/O 大會的規劃會議了。再次祝賀你和 DeepMind 團隊,以及所有模型研究人員,成功推出 Gemini 3、Nano Banana Pro 等一系列產品!
Koray Kavukcuoglu: 謝謝!這次交流非常棒。感謝團隊的付出,也感謝你的邀請!





京公網安備 11011402013531號