逼得奧特曼緊急掏出 GPT-5.2，Gemini 3 憑什么逆風翻盤 | Google 首席 AI 架構師首次揭秘

2025-12-09 09:49:11　來源: 愛范兒

廣東舉報

分享至

「這確實是一個很棒的逆襲故事?！?/p>

11 月 19 日凌晨，Gemini 3 的發(fā)布徹底打破了平淡。上線當日，全球訪問量便突破 5400 萬次，創(chuàng)平臺歷史新高。

Google 這一次王者歸來，震感甚至直接傳導到了競爭對手的神經中樞。據(jù) The Information 報道，面對 Google 步步緊逼的攻勢，OpenAI CEO Sam Altman 本周一緊急在內部備忘錄中宣布公司進入「紅色警戒（code red）」狀態(tài)，準備調動一切戰(zhàn)略資源對 ChatGPT 的能力進行大幅升級。

據(jù) The Verge 援引知情人士消息稱，OpenAI 計劃最早于下周初發(fā)布 GPT-5.2 模型，這一時間表較原定的 12 月下旬計劃大幅提前。

這不僅側面印證了 Gemini 3 帶來的壓迫感，也讓接下來的對話顯得更加意味深長。

近日，DeepMind CTO、Google 新任首席 AI 架構師 Koray Kavukcuoglu 在 Logan Kilpatrick 的訪談節(jié)目中亮相，他說「我們曾是追趕者，但創(chuàng)新是唯一的出路?！?/p>

亮點速覽：

1. Koray Kavukcuoglu 強調，Gemini 的優(yōu)化重點集中在以下幾個關鍵領域：

指令遵循：確保模型能準確理解并執(zhí)行用戶的具體需求，而非隨意生成內容。
國際化：提升多語言支持能力，確保全球用戶都能獲得高質量體驗。
代理與工具能力：模型不僅能自然使用我們已有的工具和函數(shù)，還能自主編寫工具。

2. Gemini 3 是一款「全 Google 團隊協(xié)作的模型」。來自歐洲、亞洲等世界各地的團隊都做出了貢獻，不僅有 DeepMind 團隊，還有 Google 各個部門的團隊。

3. 隨著技術進步，文本模型和圖像模型的架構、理念正在不斷融合。過去，兩者的架構差異很大，但現(xiàn)在越來越趨同。這是技術自然演進的結果：大家都在探索更高效的方案，理念逐漸統(tǒng)一，最終形成了共同的發(fā)展路徑。

視頻鏈接：

https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp

以下為完整內容的轉錄和翻譯。(順序有改動)

基準測試只是第一步，用戶反饋是 Step Two

Logan Kilpatrick: 大家好，歡迎回到 Release Notes。我是 Logan Kilpatrick，我在 DeepMind 團隊。今天很榮幸邀請到 DeepMind 的 CTO、Google 的新任首席 AI 架構師——Koray。Koray，感謝你的到來，期待與你深入交流。

Koray Kavukcuoglu: 我也很期待。謝謝邀請！

Logan Kilpatrick: 當然，Gemini 3 已經發(fā)布。我們此前就預感這款模型會表現(xiàn)出色，基準測試結果也非常亮眼，但真正將它交到用戶手中后，實際反響……

Koray Kavukcuoglu: 這才是最終的考驗?；鶞蕼y試只是第一步，之后我們也做了大量測試，包括讓可信測試者參與預發(fā)布體驗等。所以我們能感受到這是一款優(yōu)秀的模型，能力出眾，雖然不完美，但用戶的反饋確實讓我很滿意。

大家似乎很喜歡這款模型，而且我們覺得有意思的部分，他們也同樣感興趣。所以目前來看挺好的，一切都很順利。

Logan Kilpatrick: 沒錯，我們昨天還在聊，核心話題就是感慨 AI 的發(fā)展速度從未放緩。回想上次，也就是去年 I/O 大會上我們發(fā)布 Gemini 2.5 時，聽著演示、Serge 談論 AI 的未來，當時就覺得 2.5 已經是最先進的模型，在多個維度上都突破了前沿。而現(xiàn)在，Gemini 3.0 再次實現(xiàn)了突破。我很好奇，關于「這種進步能否持續(xù)」的討論一直存在，你現(xiàn)在的看法是什么？

Koray Kavukcuoglu: 我對目前的進展和研究都充滿信心。身處研究一線，你會發(fā)現(xiàn)各個領域都洋溢著創(chuàng)新的熱情，從數(shù)據(jù)、預訓練、微調，到每一個環(huán)節(jié)，都有大量新想法、新突破涌現(xiàn)。

歸根結底，這一切都依賴于創(chuàng)新和創(chuàng)意。當我們的技術能切實影響現(xiàn)實世界、被人們廣泛使用時，我們能獲得更多反饋信號，接觸面也會擴大，進而催生更多靈感。

而且我認為，未來的問題會更復雜、更多元，這會帶來新的挑戰(zhàn)，但這些挑戰(zhàn)是有益的，也是推動我們邁向通用智能的動力。

有時候，如果你只看一兩個基準測試，可能會覺得進步放緩了，但這很正常。基準測試是在某個技術難題凸顯時設立的，隨著技術發(fā)展，它不再是前沿的代名詞，這時就需要制定新的基準。

這在機器學習領域很常見：基準測試與模型開發(fā)是相輔相成的，基準測試指導模型迭代，而只有接近當前前沿，才能明確下一個目標，進而制定新的基準。

Logan Kilpatrick: 我完全認同。比如早期的 HLE 基準測試，所有模型的正確率都只有 1% 到 2%，而現(xiàn)在 DeepMind 的最新模型已經能達到 40% 左右，這太驚人了。ArcGIS 基準測試最初也幾乎沒有模型能應對，現(xiàn)在正確率也超過了 40%。

不過有些靜態(tài)基準測試確實經受住了時間的考驗，比如 GPQA Diamond，雖然我們現(xiàn)在只能一點點提升 1% 左右的正確率，但它依然被廣泛使用，可能已經接近飽和了。

Koray Kavukcuoglu: 這些基準測試中確實有很多難題，我們目前還無法完全攻克，但它們依然具有測試價值。以 GPQA 為例，我們沒必要追求 90% 以上的極致正確率，現(xiàn)在已經接近目標了，所以尚未解決的問題數(shù)量自然在減少。

因此，尋找新前沿、制定新基準至關重要。基準測試是衡量進步的一種方式，但并非絕對對齊。理想情況下兩者完全一致，但現(xiàn)實中永遠無法完全契合。

對我來說，衡量進步最重要的標準是：我們的模型是否在現(xiàn)實世界中被廣泛使用？科學家、學生、律師、工程師是否在用它解決問題？人們是否用它進行寫作、收發(fā)郵件等？無論簡單還是復雜，能在更多領域、更多場景中持續(xù)為用戶創(chuàng)造更大價值，這才是真正的進步。而基準測試只是幫助我們量化這種進步的工具。

Logan Kilpatrick: 我有一個不算爭議性的問題：Gemini 3 在眾多基準測試中表現(xiàn)出色，同步登陸 Google 所有產品端和合作伙伴生態(tài)，用戶反饋也非常積極。如果展望下一次 Google 重大模型發(fā)布，你覺得還有哪些方面是我們需要改進的？比如「我們希望能在 X、Y、Z 方面做得更好」，還是說我們應該先享受 Gemini 3 帶來的成果？

Koray Kavukcuoglu: 我覺得兩者可以兼顧。我們應該享受當下，畢竟發(fā)布日值得慶祝，團隊也應該為自己的成就感到自豪。但與此同時，我們也清楚地看到，模型在各個領域都存在不足：寫作能力并不完美，編碼能力也有提升空間。

尤其是在智能體行動和編碼方面，還有很大的進步空間，這也是最令人興奮的增長領域。我們需要找出可以優(yōu)化的方向，然后持續(xù)改進。我認為我們已經取得了長足的進步：對于 90% 到 95% 的編碼相關用戶（無論是軟件工程師，還是想構建產品的創(chuàng)意人士）來說，Gemini 3 可能是目前最好用的工具，但確實還有一些場景需要進一步優(yōu)化。

從「有創(chuàng)意」變得「能落地」

Logan Kilpatrick: 你如何看待「逐步優(yōu)化」？比如從Gemini 2.5 到 3.0，或者其他版本迭代中，我們的優(yōu)化重點是什么？如今基準測試數(shù)量繁多，我們如何選擇優(yōu)化方向，無論是針對整個 Gemini 系列，還是專門針對 Pro 版本？

Koray Kavukcuoglu: 我認為有幾個關鍵領域至關重要。首先是指令遵循能力。模型需要準確理解用戶需求并執(zhí)行，而不是隨意輸出答案，這是我們一直重視的方向。其次是國際化。 Google 的業(yè)務遍布全球，我們希望讓全世界的用戶都能用上這款模型。

Logan Kilpatrick: 確實，我今天早上還和 Tulsi 聊過，她提到這款模型在一些我們過去表現(xiàn)不佳的語言上，表現(xiàn)得非常出色。

Koray Kavukcuoglu: 這真的很棒。所以我們必須持續(xù)聚焦這些領域，它們可能不是知識前沿，但對用戶交互至關重要。正如我之前所說，我們需要從用戶那里獲取反饋信號。

再說到更技術化的領域，函數(shù)調用、工具調用、智能體行動和代碼能力也極為關鍵。

函數(shù)調用和工具調用能極大提升模型的智能乘數(shù)效應：模型不僅能自然使用我們已有的工具和函數(shù)，還能自主編寫工具。本質上，模型本身也是一種工具。

代碼能力之所以重要，不僅因為我們團隊中有很多工程師，更因為代碼是數(shù)字世界的基礎。無論是軟件開發(fā)，還是將任何想法變?yōu)楝F(xiàn)實，代碼都不可或缺。它能讓模型與人們生活中的諸多場景深度融合。

我舉個例子，比如「即時編碼」（vibe coding），我很看好這個功能。很多人富有創(chuàng)造力，但缺乏將想法落地的能力，而即時編碼能讓他們從「有創(chuàng)意」變得「能落地」：只需寫下想法，就能看到對應的應用程序呈現(xiàn)在眼前，而且大多數(shù)時候都能正常運行。

這種從創(chuàng)意到產品的閉環(huán)非常棒，它讓更多人有機會成為創(chuàng)造者。

Logan Kilpatrick: 太贊了！這簡直是 AI Studio 的完美宣傳點，我們會把這段剪輯出來發(fā)布到網(wǎng)上。你剛才提到的一個重要話題是，在 Gemini 3 發(fā)布之際，我們同步推出了 Google Anti-gravity 平臺。從模型角度來看，你認為這種產品架構對提升模型質量的重要性有多大？顯然，這和工具調用、編碼能力息息相關。

Koray Kavukcuoglu: 對我來說，這至關重要。平臺本身確實令人興奮，但從模型角度看，這是雙向作用的。首先，模型能通過與終端用戶（指軟件工程師）直接集成，獲取他們的反饋，進而明確模型需要改進的方向，這對我們來說至關重要。

就像 Gemini、AI Studio 一樣，Anti-gravity 平臺也是如此。這些產品能讓我們與用戶緊密相連，獲取真實的反饋信號，這是巨大的財富。Anti-gravity 平臺作為我們的關鍵發(fā)布合作伙伴，雖然加入時間不長，但在過去兩三周的發(fā)布籌備中，它的反饋起到了決定性作用。

搜索 AI 模式（AI Mode）也是如此，我們從那里獲得了大量反饋?；鶞蕼y試能幫助我們推動科學、數(shù)學等領域的智能提升，但了解現(xiàn)實世界的使用場景同樣重要，模型必須能解決實際問題。

Gemini 3，一款全 Google 團隊協(xié)作的模型

Logan Kilpatrick: 在你擔任新任首席 AI 架構師后，你的職責不僅是確保我們擁有優(yōu)秀的模型，還要推動產品團隊將模型落地，在 Google 的所有產品中打造出色的用戶體驗。 Gemini 3 在發(fā)布當天就同步登陸 Google 所有產品端，這對用戶來說是巨大的驚喜，也希望未來能覆蓋更多產品。從DeepMind 的角度來看，這種跨團隊協(xié)作是否增加了額外的復雜性？畢竟一年半前，事情可能還簡單得多。

Koray Kavukcuoglu: 但我們的目標是構建智能，對吧？很多人問我，身兼 CTO 和首席 AI 架構師兩個職位，會不會有沖突，但對我來說，這兩個角色本質上是一致的。

要構建智能，就必須通過產品與用戶的聯(lián)動來實現(xiàn)。我的核心目標是確保 Google 的所有產品都能用上最先進的技術。我們不是產品團隊，而是技術開發(fā)者，我們負責研發(fā)模型和技術，當然，我們也會對產品有自己的看法，但最重要的是，以最佳方式提供技術支持，與產品團隊合作，在 AI 時代打造最優(yōu)秀的產品。

這是一個全新的時代，新技術正在重新定義用戶期望、產品行為和信息傳遞方式。因此，我希望能在 Google 內部推動這種技術賦能，與所有產品團隊合作。這不僅對產品和用戶有益，對我們自身也至關重要。

只有貼近用戶，才能感受到他們的需求，獲取真實的反饋信號，這是推動模型迭代的核心動力。這就是我們構建通用人工智能（AGI）的方式：通過產品與用戶共同成長。

Logan Kilpatrick: 我完全認同。這簡直可以作為你的推特文案了！我也覺得，我們本質上是在與客戶、合作伙伴共同構建通用人工智能（AGI）——這不是某個實驗室的孤立研究，而是與全世界共同推進的聯(lián)合事業(yè)。

Koray Kavukcuoglu: 我認為這也是一個「可信測試體系」——我們越來越強調工程思維。這種思維很重要，因為精心設計的系統(tǒng)才會更穩(wěn)健、更安全。

我們在構建現(xiàn)實世界的產品時，借鑒了很多「可信測試」的理念，這體現(xiàn)在我們對安全、隱私的重視上：我們從一開始就將安全隱私作為核心原則，而不是事后補充。

無論是預訓練、微調，還是數(shù)據(jù)篩選，團隊中的每個人都需要考慮安全問題。我們當然有專門的安全團隊和隱私團隊，他們會提供相關技術支持，但我們更希望 Gemini 團隊的每個人都深度參與其中，將安全隱私融入開發(fā)的每一個環(huán)節(jié)，這些團隊本身也是微調團隊的一部分。

因此，在模型迭代、發(fā)布候選版本時，我們不僅會參考 GPQA、HLE 等基準測試結果，還會嚴格審查安全隱私指標。這種工程思維至關重要。

Logan Kilpatrick: 我完全同意。這也很符合 Google 的企業(yè)文化，畢竟，發(fā)布 Gemini 模型是一項需要全球團隊協(xié)作的龐大工程。

Koray Kavukcuoglu: 說到 Gemini 3，我覺得最值得一提的是，它是一款「全 Google 團隊協(xié)作的模型」。

Logan Kilpatrick: 我們可以看看相關數(shù)據(jù)，這可能是史上參與人數(shù)最多的項目之一，就像 NASA 的阿波羅計劃一樣，這是一項全球性的龐大工程。

Koray Kavukcuoglu: 沒錯，是全球性的。

Logan Kilpatrick: Google 所有團隊都參與其中，這太不可思議了。

Koray Kavukcuoglu: 來自歐洲、亞洲等世界各地的團隊都做出了貢獻，不僅有 DeepMind 團隊，還有 Google 各個部門的團隊。這是一項巨大的集體努力：我們與 AI 模式（AI Mode）、Gemini 應用程序同步發(fā)布，這不容易。

這些產品團隊在模型開發(fā)階段就與我們深度協(xié)作，這也是為什么我們能在發(fā)布當天實現(xiàn)全平臺同步上線。所謂「全 Google 參與」，不僅指直接參與模型構建的團隊，還包括所有各司其職、默默付出的團隊。

Nano Banana，自發(fā)的名字，自然地融合

Logan Kilpatrick: 另一個我關心的話題是生成式媒體模型——雖然我們一直有關注，但過去并未作為重點。不過，隨著 Veo 3、Veo 3.1、Nano Banana 模型的推出，我們在產品落地方面取得了很大成功。

我很好奇，在追求通用人工智能（AGI）的過程中，你如何看待生成式視頻模型的作用？有時候我會覺得視頻模型似乎與 AGI 無關，但仔細想想，它涉及對世界、物理規(guī)律的理解，所以兩者應該是相互關聯(lián)的。

Koray Kavukcuoglu: 10 到 15 年前，生成式模型主要集中在圖像領域，因為當時我們能更好地觀察圖像生成的過程，而且理解世界、物理規(guī)律也是圖像生成模型的核心目標。

Google 在生成式模型方面的探索可以追溯到 10 年前，甚至更早。我讀博時，大家都在做生成式圖像模型，比如像素卷積神經網(wǎng)絡（Pixel CNNs）。后來我們意識到，文本領域的進步速度會更快。

但現(xiàn)在，圖像模型的重要性再次凸顯。DeepMind 長期以來在圖像、視頻、音頻模型方面積累了深厚的技術實力，將這些技術與文本模型融合是順理成章的。

我們一直強調多模態(tài)，包括輸入多模態(tài)和輸出多模態(tài)。隨著技術進步，文本模型和圖像模型的架構、理念正在不斷融合。過去，兩者的架構差異很大，但現(xiàn)在越來越趨同。這不是我們刻意推動的，而是技術自然演進的結果：大家都在探索更高效的方案，理念逐漸統(tǒng)一，最終形成了共同的發(fā)展路徑。

這種融合的核心價值在于，文本模型擁有豐富的世界知識，而圖像模型從另一個視角理解世界，將兩者結合，能讓模型更好地理解用戶的意圖，創(chuàng)造出更令人驚喜的成果。

Logan Kilpatrick: 我還有一個關于 Nano Banana 的問題：你覺得我們應該給所有模型起一些有趣的名字嗎？這會不會有幫助？

Koray Kavukcuoglu: 不一定。我覺得名字應該自然產生，而不是刻意為之。比如 Gemini 3，我們并沒有刻意設計名字。

Logan Kilpatrick: 如果 Gemini 3 不叫這個名字，你會起什么？會不會是很搞笑的名字？

Koray Kavukcuoglu: 我不知道，我不擅長起名字。其實我們的 Gemini 模型有內部代號，有些代號甚至是用 Gemini 模型自己生成的，但 Nano Banana 不是，它沒有經過模型生成。

這個名字背后有個故事，我記得已經公開了。我覺得只要名字是自然、自發(fā)產生的，就很好。構建模型的團隊能對名字產生情感共鳴，這很有意義。

「Nano Banana」這個名字之所以被沿用，是因為我們在測試時用了這個代號，大家都很喜歡，它是自發(fā)傳播開來的。我覺得這種自然形成的名字很難通過流程刻意創(chuàng)造，有就用，沒有的話，用標準名稱也很好。

Logan Kilpatrick: 那我們來聊聊 Nano Banana Pro，這是基于 Gemini 3 Pro 打造的最先進的圖像生成模型。我聽說團隊在完成 Nano Banana 后，發(fā)現(xiàn)將其升級為 Pro 版本后，在文本渲染、世界知識理解等更精細的場景中，性能有了很大提升。對于這方面的發(fā)展，你有什么看法？

Koray Kavukcuoglu: 這正是不同技術融合的體現(xiàn)。我們一直說，每個版本的 Gemini 都是一個模型家族，比如 Pro、Flash 等，不同尺寸的模型在速度、準確率、成本等方面各有取舍。圖像生成模型也是如此，自然會形成不同定位的產品。

團隊基于 Gemini 3.0 Pro 的架構，結合第一代模型的經驗，通過擴大模型規(guī)模、優(yōu)化調優(yōu)方式，打造出了更強大的圖像生成模型，這很合理。它的核心優(yōu)勢在于處理復雜場景：比如輸入大量復雜文檔，模型不僅能回答相關問題，還能生成對應的信息圖表，而且效果很好。這就是輸入多模態(tài)與輸出多模態(tài)自然融合的體現(xiàn)，非常棒。

Logan Kilpatrick: 是啊，這簡直像魔法一樣！希望大家在這段視頻發(fā)布時已經看到了相關示例，內部分享的一些案例真的太驚人了。

Koray Kavukcuoglu: 完全同意！當你看到模型能將海量文本、復雜概念，用一張清晰直觀的圖片呈現(xiàn)出來時，真的會驚嘆「太厲害了」。這能直觀地體現(xiàn)模型的能力。

Logan Kilpatrick: 而且其中還有很多細節(jié)值得品味。我還有一個相關問題：去年 12 月，Tulsi 曾承諾我們會推出統(tǒng)一的 Gemini 模型檢查點（checkpoint）。你剛才描述的內容，是不是意味著我們現(xiàn)在已經非常接近這個目標了？

Koray Kavukcuoglu: 從歷史上看，生成式模型的架構一直是統(tǒng)一的……

Logan Kilpatrick: 所以我猜這是我們的目標：讓這些功能真正融入一個模型中，但現(xiàn)實中肯定有一些阻礙。你能從宏觀層面解釋一下嗎？

Koray Kavukcuoglu: 正如我之前所說，技術和架構正在不斷趨同，這種統(tǒng)一是必然趨勢，但這需要驗證。我們不能憑主觀臆斷，必須遵循科學方法：提出假設、進行測試、觀察結果，有時成功，有時失敗，但這就是技術進步的過程。

我們正在逐步接近目標，我相信在不久的將來，我們會看到更統(tǒng)一的模型，但這需要大量的創(chuàng)新。

這其實很難——模型的輸出空間至關重要，因為它直接關系到學習信號的質量。目前，我們的學習信號主要來自代碼和文本，這也是模型在這些領域表現(xiàn)出色的原因。

而圖像生成則不同：它對質量要求極高，不僅需要像素級的精準度，還需要圖像概念的連貫性，也就是每個像素都要符合整體畫面的邏輯。要同時做好文本和圖像生成，難度很大。但我認為這絕對是可行的，只是需要找到合適的模型創(chuàng)新方向。

Logan Kilpatrick: 太令人期待了！希望這也能讓我們的工作更高效，比如擁有一個統(tǒng)一的模型檢查點。

Koray Kavukcuoglu: 這很難說，但可能性很大。

一切都建立在學習之上

Logan Kilpatrick: 我再追問一個關于編碼和工具使用的問題?；仡?Gemini 的發(fā)展歷程：1.0 版本聚焦多模態(tài)，2.0 版本開始搭建基礎設施。雖然我們的進步速度很快，但為什么在多模態(tài)領域，我們沒能從一開始就在智能體工具使用方面達到最先進水平？畢竟 Gemini 1.0 在多模態(tài)領域一直保持領先。

Koray Kavukcuoglu: 我不認為這是刻意為之。說實話，我覺得這與模型開發(fā)環(huán)境是否貼近現(xiàn)實世界密切相關，越貼近現(xiàn)實，就越能理解用戶的真實需求。

Gemini 的發(fā)展歷程，也是我們從「純研究」轉向「工程思維」、與產品深度綁定的過程。 Google 在 AI 研究方面有著深厚的積淀，擁有眾多優(yōu)秀的研究人員，但 Gemini 的特別之處在于，它讓我們從「寫論文、做研究」轉向了「通過產品和用戶共同開發(fā)」。

我為我們的團隊感到驕傲——包括我在內，大多數(shù)人四五年前還在專注于發(fā)表論文、開展 AI 研究，而現(xiàn)在，我們站在技術前沿，通過產品和用戶共同推進技術迭代。

這種轉變非常驚人：我們每 6 個月就推出一個新模型，每 1 到 1.5 個月就進行一次更新。我認為，我們正是在這個過程中逐步完善智能體工具使用能力的。

Logan Kilpatrick: 還有一個有趣的話題：現(xiàn)在 DeepMind 擁有眾多世界頂尖的 AI 產品，比如即時編碼（vibe coding）、AI Studio、Gemini、Anti-gravity 平臺等， Google 旗下也有很多前沿模型，比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前，世界完全不是這樣的。

我很好奇，回顧你的個人歷程，你昨天提到，你是 DeepMind 的第一位深度學習研究員，這一點我和其他人都感到很意外。從 13 年前（2012年）人們對深度學習并不看好，到現(xiàn)在這項技術支撐著眾多產品、成為核心驅動力，你有什么感想？這一切是在意料之中，還是讓你感到意外？

Koray Kavukcuoglu: 我覺得這是最理想的結果。就像所有讀博的人一樣，你會堅信自己所做的事情很重要，會產生重大影響——我當時就是這種心態(tài)。

所以當 Demi 和 Shane 聯(lián)系我，告訴我 DeepMind 是一個專注于構建智能、以深度學習為核心的團隊時，我非常興奮。我和我的朋友 Carl Greger（我們都來自紐約大學 Jan 的實驗室）同時加入了 DeepMind。在當時，專注于深度學習和 AI 的初創(chuàng)公司非常罕見，所以 DeepMind 的理念非常有遠見，能在那里工作真的很令人激動。后來，我組建了深度學習團隊，看著它不斷發(fā)展壯大。

我對深度學習的態(tài)度一直是：以第一性原理為基礎，堅持「基于學習」的思維方式，這也是 DeepMind 的核心理念：一切都建立在學習之上。

回顧這段旅程，從早期的 DQN、AlphaGo、AlphaZero、AlphaFold，到現(xiàn)在的 Gemini，真的很令人感慨。我們一直懷著積極的期望推進工作，但同時也覺得自己很幸運。

我們有幸生活在這個時代,很多人曾為 AI 或自己熱愛的領域奮斗一生，希望能見證技術爆發(fā)，但這一切現(xiàn)在真的發(fā)生了。AI 的崛起不僅得益于機器學習和深度學習的進步，還離不開硬件、互聯(lián)網(wǎng)和數(shù)據(jù)的發(fā)展，這些因素共同促成了今天的局面。所以，我既為自己選擇了 AI 領域而自豪，也為能身處這個時代而感到幸運。這真的太令人興奮了。

Logan Kilpatrick: 我最近看了《思維游戲》（The Thinking Game）的視頻，了解了 AlphaFold 的相關故事。我沒有親歷那個時代，只能通過資料和他人的講述來了解。你經歷了 DeepMind 的多個重要項目，你覺得現(xiàn)在的工作與過去相比有什么不同？比如你之前提到的，「我們已經掌握了將模型推向世界的方法」，這種感覺與之前的項目有什么相似或不同之處？

Koray Kavukcuoglu: 如何組織團隊、培養(yǎng)文化，才能將復雜的科學技術問題轉化為成功的成果？我認為我們從多個項目中積累了很多經驗，從 DQN、AlphaGo、AlphaZero 到 AlphaFold，這些項目都產生了深遠影響。我們學會了如何圍繞特定目標和使命，組織大規(guī)模團隊開展工作。

我記得 DeepMind 早期，我們曾有 25 人共同參與一個項目，共同發(fā)表一篇論文——當時很多人都質疑「25 人怎么可能合作完成一篇論文」，但我們確實做到了。在科研領域，這種大規(guī)模協(xié)作并不常見，但我們通過有效的組織實現(xiàn)了。這種經驗和思維方式，隨著時間的推移不斷演進，變得越來越重要。

而在過去兩三年里，我們又融入了工程思維——我們有了模型的主線開發(fā)方向，學會了在主線基礎上進行探索。

我覺得「深度思維模型」（Deep Think）就是一個很好的例子：我們用它參加國際數(shù)學奧林匹克（IMO）、國際大學生程序設計競賽（ICPC）等頂級賽事。這些競賽的問題難度極大，很多人會想為賽事定制專門的模型，但我們選擇將其作為優(yōu)化現(xiàn)有模型的機會。

我們堅信技術的通用性，通過賽事探索新想法，并將這些想法融入現(xiàn)有模型，最終打造出能參加頂級賽事的模型，再將其開放給所有人使用。

Logan Kilpatrick: 這讓我想到了一個對應：以前是 25 人共同發(fā)表一篇論文，現(xiàn)在 Gemini 3 的貢獻者名單可能已經有 2500 人了——很多人可能會覺得「 2500 人怎么可能都參與其中」，但事實確實如此。這種大規(guī)模協(xié)作解決問題的方式，真的很令人驚嘆。

Koray Kavukcuoglu: 這一點非常重要，也是 Google 的優(yōu)勢所在。 Google 擁有全棧技術能力，我們能從中受益：從數(shù)據(jù)中心、芯片、網(wǎng)絡，到大規(guī)模模型的部署，每個環(huán)節(jié)都有專家坐鎮(zhèn)。

回到工程思維的話題，這些環(huán)節(jié)是密不可分的。我們設計模型時，會考慮它將運行的硬件；而設計下一代硬件時，也會預判模型的發(fā)展方向。這種協(xié)同非常美妙，但要協(xié)調這么多環(huán)節(jié)，確實需要數(shù)千人的共同努力。我們應該認可這種協(xié)作的價值，這真的很了不起。

Logan Kilpatrick: 這絕非易事。再回到 DeepMind 的傳統(tǒng)：我們一直采用多元科學方法，嘗試解決各種有趣的問題。而現(xiàn)在，我們已經明確這項技術在多個領域都有效，只需持續(xù)擴大規(guī)模。當然，這也需要創(chuàng)新支撐。

你認為在當今時代，DeepMind 如何平衡「純科學探索」和「擴大 Gemini 規(guī)?！?？比如「Gemini 擴散模型」（Gemini Diffusion），就是這種決策的一個體現(xiàn)。

Koray Kavukcuoglu: 這是最關鍵的問題：找到兩者的平衡至關重要。

現(xiàn)在很多人問我，Gemini 最大的風險是什么？我認真思考過，答案是「缺乏創(chuàng)新」。我絕不相信我們已經找到了「萬能公式」，只需按部就班執(zhí)行即可。

我們的目標是構建通用智能，這需要與用戶、產品深度綁定，但這個目標本身依然極具挑戰(zhàn)性，我們并沒有現(xiàn)成的解決方案——創(chuàng)新才是實現(xiàn)目標的核心動力。

創(chuàng)新可以有不同的規(guī)模和方向：在 Gemini 項目內部，我們會探索新架構、新想法、新方法；而作為 Google DeepMind 整體，我們還會開展更多跨領域的探索，因為有些想法可能在 Gemini 項目內部過于受限，無法充分發(fā)展。

所以， Google DeepMind 和 Google 研究院需要共同探索各類想法，然后將這些想法融入 Gemini，因為 Gemini 不是一種架構，而是一個目標：構建通用智能，讓 Google 的所有產品都能依托這個 AI 引擎運行。

無論最終采用哪種架構，我們都會持續(xù)演進，而創(chuàng)新將永遠是核心驅動力。找到平衡，或以不同方式推進探索，這至關重要。

Logan Kilpatrick: 我有一個相關的問題：在 I/O 大會上，我曾和 Sergey 聊過，當你把這么多人聚集在一起，共同發(fā)布模型、推動創(chuàng)新時，你能感受到一種「人性的溫度」——這一點我深有體會。我當時坐在你旁邊，也感受到了你的熱情。

這一點對我個人來說很有意義，因為它也反映了 DeepMind 的整體文化：既有深厚的科學底蘊，又有友善、包容的團隊氛圍。很多人可能沒有意識到這種文化的重要性，以及它如何影響工作。作為團隊的領導者，你如何看待這種文化的體現(xiàn)？

Koray Kavukcuoglu: 首先，謝謝你的夸獎，這讓我有點不好意思。但我確實相信團隊的力量，也堅信要信任他人、給予他人機會。團隊協(xié)作至關重要，這一點我也是在 DeepMind 工作期間學到的。

我們從一個小團隊起步，在成長過程中始終保持信任。我認為，營造一個「專注于解決有影響力的復雜技術和科學問題」的環(huán)境，非常重要，這也是我們現(xiàn)在正在做的。

Gemini 的核心是構建通用智能，這是一個極具挑戰(zhàn)性的技術和科學問題，我們需要以謙遜的態(tài)度去面對，不斷質疑自己、優(yōu)化自己。希望團隊也能感受到這一點，我真的為我們的團隊感到驕傲，他們齊心協(xié)力、相互支持。

就像我剛才在茶水間和團隊聊的那樣：「這很辛苦，我們都很累，但這就是構建前沿技術的常態(tài)。我們沒有完美的流程，但每個人都在全力以赴、相互支持。」而讓這一切變得有趣、有意義，讓我們有勇氣面對挑戰(zhàn)的，很大程度上是「擁有一支優(yōu)秀的團隊」，大家共同為技術的潛力而奮斗。

我可以肯定地說，20 年后，我們現(xiàn)在使用的大語言模型（LLM）架構肯定會被淘汰。所以，持續(xù)探索新方向是正確的選擇。 Google DeepMind、 Google 研究院，以及整個學術研究社區(qū)，都需要共同推進多個領域的探索。

我認為，不必糾結于「什么是對的、什么是錯的」，真正重要的是技術在現(xiàn)實世界中的能力和表現(xiàn)。

Logan Kilpatrick: 最后一個問題：我個人在 Google 的第一年多時間里，感受到了一種「 Google 逆襲」的氛圍。盡管 Google 擁有強大的基礎設施優(yōu)勢，但在 AI 領域，我們似乎一直在追趕。比如在 AI Studio 的早期階段，我們沒有用戶（后來增長到3萬人），沒有收入，Gemini 模型也處于早期階段。

而現(xiàn)在，隨著 Gemini 3 的發(fā)布，我最近收到了很多來自生態(tài)系統(tǒng)各方的反饋，人們似乎終于意識到「 Google 的AI時代已經到來」。你是否也有過這種「逆襲」的感受？你相信我們能走到今天嗎？對于團隊來說，這種角色的轉變會帶來什么影響？

Koray Kavukcuoglu: 在大語言模型（LLM）的潛力逐漸顯現(xiàn)時，我坦誠地說，我既認為 DeepMind 是前沿 AI 實驗室，也意識到我們作為研究人員，在某些領域的投入還不夠，這對我來說是一個重要的教訓：我們必須拓寬探索范圍，創(chuàng)新至關重要，而不是局限于某一種架構。

我一直對團隊坦誠相待：大約 2.5 年前，當我們開始認真對待大語言模型、啟動 Gemini 項目時，我們在很多方面都與最先進水平有差距，我們有很多不懂的東西，雖然也有自己的優(yōu)勢，但確實處于追趕狀態(tài)。

這種追趕持續(xù)了很長時間，而現(xiàn)在，我認為我們已經進入了領先梯隊。我對我們的發(fā)展速度、團隊動態(tài)和協(xié)作節(jié)奏感到非常滿意。但我們必須正視過去的追趕歷程。

在追趕過程中，我們既要學習他人的優(yōu)點，也要堅持自己的創(chuàng)新，找到適合自己的解決方案：無論是技術、模型、流程，還是團隊運作方式，這些都是我們獨有的。

很多人說「 Google 太大了，做事效率低」，但我認為這可以轉化為優(yōu)勢。我們有能力做一些獨特的、大規(guī)模的事情，比如讓 Gemini 同步登陸所有 Google 產品。我對我們現(xiàn)在的狀態(tài)很滿意，但這是通過持續(xù)學習和創(chuàng)新實現(xiàn)的。這確實是一個很棒的「逆襲」故事。

當然，總會有各種比較，但我們的目標始終是構建通用智能——我們希望以正確的方式實現(xiàn)這一目標，并為此傾注全部心力和創(chuàng)新。

Logan Kilpatrick: 我覺得未來六個月可能會和過去六個月、乃至之前的六個月一樣令人振奮。再次感謝你抽出時間接受采訪，非常愉快！希望在明年 I/O 大會前我們能再聊一次。

雖然感覺還有很久，但時間肯定會過得很快。我相信下周就會有關于 2026 年 I/O 大會的規(guī)劃會議了。再次祝賀你和 DeepMind 團隊，以及所有模型研究人員，成功推出 Gemini 3、Nano Banana Pro 等一系列產品！

Koray Kavukcuoglu: 謝謝！這次交流非常棒。感謝團隊的付出，也感謝你的邀請！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.