国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

逼得奧特曼緊急掏出 GPT-5.2,Gemini 3 憑什么逆風翻盤 | Google 首席 AI 架構師首次揭秘

0
分享至


「這確實是一個很棒的逆襲故事?!?/p>

11 月 19 日凌晨,Gemini 3 的發(fā)布徹底打破了平淡。上線當日,全球訪問量便突破 5400 萬次,創(chuàng)平臺歷史新高。


Google 這一次王者歸來,震感甚至直接傳導到了競爭對手的神經中樞。據(jù) The Information 報道,面對 Google 步步緊逼的攻勢,OpenAI CEO Sam Altman 本周一緊急在內部備忘錄中宣布公司進入「紅色警戒(code red)」狀態(tài),準備調動一切戰(zhàn)略資源對 ChatGPT 的能力進行大幅升級。


據(jù) The Verge 援引知情人士消息稱,OpenAI 計劃最早于下周初發(fā)布 GPT-5.2 模型, 這一時間表較原定的 12 月下旬計劃大幅提前。

這不僅側面印證了 Gemini 3 帶來的壓迫感,也讓接下來的對話顯得更加意味深長。

近日,DeepMind CTO、Google 新任首席 AI 架構師 Koray Kavukcuoglu 在 Logan Kilpatrick 的訪談節(jié)目中亮相,他說「我們曾是追趕者,但創(chuàng)新是唯一的出路?!?/p>

亮點速覽:

1. Koray Kavukcuoglu 強調,Gemini 的優(yōu)化重點集中在以下幾個關鍵領域:

  • 指令遵循: 確保模型能準確理解并執(zhí)行用戶的具體需求,而非隨意生成內容。
  • 國際化: 提升多語言支持能力,確保全球用戶都能獲得高質量體驗。
  • 代理與工具能力:模型不僅能自然使用我們已有的工具和函數(shù),還能自主編寫工具。

2. Gemini 3 是一款「全 Google 團隊協(xié)作的模型」。來自歐洲、亞洲等世界各地的團隊都做出了貢獻,不僅有 DeepMind 團隊,還有 Google 各個部門的團隊。

3. 隨著技術進步,文本模型和圖像模型的架構、理念正在不斷融合。過去,兩者的架構差異很大,但現(xiàn)在越來越趨同。這是技術自然演進的結果:大家都在探索更高效的方案,理念逐漸統(tǒng)一,最終形成了共同的發(fā)展路徑。

視頻鏈接:

https://youtu.be/fXtna7UrL44?si=A5xEGWGeEM4EEDhp

以下為完整內容的轉錄和翻譯。(順序有改動)

基準測試只是第一步,用戶反饋是 Step Two

Logan Kilpatrick: 大家好,歡迎回到 Release Notes。我是 Logan Kilpatrick,我在 DeepMind 團隊。今天很榮幸邀請到 DeepMind 的 CTO、Google 的新任首席 AI 架構師——Koray。Koray,感謝你的到來,期待與你深入交流。

Koray Kavukcuoglu: 我也很期待。謝謝邀請!

Logan Kilpatrick: 當然,Gemini 3 已經發(fā)布。我們此前就預感這款模型會表現(xiàn)出色,基準測試結果也非常亮眼,但真正將它交到用戶手中后,實際反響……

Koray Kavukcuoglu: 這才是最終的考驗?;鶞蕼y試只是第一步,之后我們也做了大量測試,包括讓可信測試者參與預發(fā)布體驗等。所以我們能感受到這是一款優(yōu)秀的模型,能力出眾,雖然不完美,但用戶的反饋確實讓我很滿意。

大家似乎很喜歡這款模型,而且我們覺得有意思的部分,他們也同樣感興趣。所以目前來看挺好的,一切都很順利。

Logan Kilpatrick: 沒錯,我們昨天還在聊,核心話題就是感慨 AI 的發(fā)展速度從未放緩。回想上次,也就是去年 I/O 大會上我們發(fā)布 Gemini 2.5 時,聽著演示、Serge 談論 AI 的未來,當時就覺得 2.5 已經是最先進的模型,在多個維度上都突破了前沿。而現(xiàn)在,Gemini 3.0 再次實現(xiàn)了突破。我很好奇,關于「這種進步能否持續(xù)」的討論一直存在,你現(xiàn)在的看法是什么?

Koray Kavukcuoglu: 我對目前的進展和研究都充滿信心。身處研究一線,你會發(fā)現(xiàn)各個領域都洋溢著創(chuàng)新的熱情,從數(shù)據(jù)、預訓練、微調,到每一個環(huán)節(jié),都有大量新想法、新突破涌現(xiàn)。

歸根結底,這一切都依賴于創(chuàng)新和創(chuàng)意。當我們的技術能切實影響現(xiàn)實世界、被人們廣泛使用時,我們能獲得更多反饋信號,接觸面也會擴大,進而催生更多靈感。

而且我認為,未來的問題會更復雜、更多元,這會帶來新的挑戰(zhàn),但這些挑戰(zhàn)是有益的,也是推動我們邁向通用智能的動力。

有時候,如果你只看一兩個基準測試,可能會覺得進步放緩了,但這很正常。基準測試是在某個技術難題凸顯時設立的,隨著技術發(fā)展,它不再是前沿的代名詞,這時就需要制定新的基準。

這在機器學習領域很常見:基準測試與模型開發(fā)是相輔相成的,基準測試指導模型迭代,而只有接近當前前沿,才能明確下一個目標,進而制定新的基準。

Logan Kilpatrick: 我完全認同。比如早期的 HLE 基準測試,所有模型的正確率都只有 1% 到 2%,而現(xiàn)在 DeepMind 的最新模型已經能達到 40% 左右,這太驚人了。ArcGIS 基準測試最初也幾乎沒有模型能應對,現(xiàn)在正確率也超過了 40%。

不過有些靜態(tài)基準測試確實經受住了時間的考驗,比如 GPQA Diamond,雖然我們現(xiàn)在只能一點點提升 1% 左右的正確率,但它依然被廣泛使用,可能已經接近飽和了。


Koray Kavukcuoglu: 這些基準測試中確實有很多難題,我們目前還無法完全攻克,但它們依然具有測試價值。以 GPQA 為例,我們沒必要追求 90% 以上的極致正確率,現(xiàn)在已經接近目標了,所以尚未解決的問題數(shù)量自然在減少。

因此,尋找新前沿、制定新基準至關重要。基準測試是衡量進步的一種方式,但并非絕對對齊。理想情況下兩者完全一致,但現(xiàn)實中永遠無法完全契合。

對我來說,衡量進步最重要的標準是:我們的模型是否在現(xiàn)實世界中被廣泛使用?科學家、學生、律師、工程師是否在用它解決問題?人們是否用它進行寫作、收發(fā)郵件等?無論簡單還是復雜,能在更多領域、更多場景中持續(xù)為用戶創(chuàng)造更大價值,這才是真正的進步。而基準測試只是幫助我們量化這種進步的工具。

Logan Kilpatrick: 我有一個不算爭議性的問題:Gemini 3 在眾多基準測試中表現(xiàn)出色,同步登陸 Google 所有產品端和合作伙伴生態(tài),用戶反饋也非常積極。如果展望下一次 Google 重大模型發(fā)布,你覺得還有哪些方面是我們需要改進的?比如「我們希望能在 X、Y、Z 方面做得更好」,還是說我們應該先享受 Gemini 3 帶來的成果?

Koray Kavukcuoglu: 我覺得兩者可以兼顧。我們應該享受當下,畢竟發(fā)布日值得慶祝,團隊也應該為自己的成就感到自豪。但與此同時,我們也清楚地看到,模型在各個領域都存在不足:寫作能力并不完美,編碼能力也有提升空間。

尤其是在智能體行動和編碼方面,還有很大的進步空間,這也是最令人興奮的增長領域。我們需要找出可以優(yōu)化的方向,然后持續(xù)改進。我認為我們已經取得了長足的進步:對于 90% 到 95% 的編碼相關用戶(無論是軟件工程師,還是想構建產品的創(chuàng)意人士)來說,Gemini 3 可能是目前最好用的工具,但確實還有一些場景需要進一步優(yōu)化。

從「有創(chuàng)意」變得「能落地」

Logan Kilpatrick: 你如何看待「逐步優(yōu)化」?比如從Gemini 2.5 到 3.0,或者其他版本迭代中,我們的優(yōu)化重點是什么?如今基準測試數(shù)量繁多,我們如何選擇優(yōu)化方向,無論是針對整個 Gemini 系列,還是專門針對 Pro 版本?

Koray Kavukcuoglu: 我認為有幾個關鍵領域至關重要。首先是指令遵循能力。模型需要準確理解用戶需求并執(zhí)行,而不是隨意輸出答案,這是我們一直重視的方向。其次是國際化。 Google 的業(yè)務遍布全球,我們希望讓全世界的用戶都能用上這款模型。

Logan Kilpatrick: 確實,我今天早上還和 Tulsi 聊過,她提到這款模型在一些我們過去表現(xiàn)不佳的語言上,表現(xiàn)得非常出色。

Koray Kavukcuoglu: 這真的很棒。所以我們必須持續(xù)聚焦這些領域,它們可能不是知識前沿,但對用戶交互至關重要。正如我之前所說,我們需要從用戶那里獲取反饋信號。

再說到更技術化的領域,函數(shù)調用、工具調用、智能體行動和代碼能力也極為關鍵。

函數(shù)調用和工具調用能極大提升模型的智能乘數(shù)效應:模型不僅能自然使用我們已有的工具和函數(shù),還能自主編寫工具。本質上,模型本身也是一種工具。

代碼能力之所以重要,不僅因為我們團隊中有很多工程師,更因為代碼是數(shù)字世界的基礎。無論是軟件開發(fā),還是將任何想法變?yōu)楝F(xiàn)實,代碼都不可或缺。它能讓模型與人們生活中的諸多場景深度融合。

我舉個例子,比如「即時編碼」(vibe coding),我很看好這個功能。很多人富有創(chuàng)造力,但缺乏將想法落地的能力,而即時編碼能讓他們從「有創(chuàng)意」變得「能落地」:只需寫下想法,就能看到對應的應用程序呈現(xiàn)在眼前,而且大多數(shù)時候都能正常運行。

這種從創(chuàng)意到產品的閉環(huán)非常棒,它讓更多人有機會成為創(chuàng)造者。


Logan Kilpatrick: 太贊了!這簡直是 AI Studio 的完美宣傳點,我們會把這段剪輯出來發(fā)布到網(wǎng)上。你剛才提到的一個重要話題是,在 Gemini 3 發(fā)布之際,我們同步推出了 Google Anti-gravity 平臺。從模型角度來看,你認為這種產品架構對提升模型質量的重要性有多大?顯然,這和工具調用、編碼能力息息相關。

Koray Kavukcuoglu: 對我來說,這至關重要。平臺本身確實令人興奮,但從模型角度看,這是雙向作用的。首先,模型能通過與終端用戶(指軟件工程師)直接集成,獲取他們的反饋,進而明確模型需要改進的方向,這對我們來說至關重要。

就像 Gemini、AI Studio 一樣,Anti-gravity 平臺也是如此。這些產品能讓我們與用戶緊密相連,獲取真實的反饋信號,這是巨大的財富。Anti-gravity 平臺作為我們的關鍵發(fā)布合作伙伴,雖然加入時間不長,但在過去兩三周的發(fā)布籌備中,它的反饋起到了決定性作用。

搜索 AI 模式(AI Mode)也是如此,我們從那里獲得了大量反饋?;鶞蕼y試能幫助我們推動科學、數(shù)學等領域的智能提升,但了解現(xiàn)實世界的使用場景同樣重要,模型必須能解決實際問題。

Gemini 3,一款全 Google 團隊協(xié)作的模型

Logan Kilpatrick: 在你擔任新任首席 AI 架構師后,你的職責不僅是確保我們擁有優(yōu)秀的模型,還要推動產品團隊將模型落地,在 Google 的所有產品中打造出色的用戶體驗。 Gemini 3 在發(fā)布當天就同步登陸 Google 所有產品端,這對用戶來說是巨大的驚喜,也希望未來能覆蓋更多產品。從DeepMind 的角度來看,這種跨團隊協(xié)作是否增加了額外的復雜性?畢竟一年半前,事情可能還簡單得多。

Koray Kavukcuoglu: 但我們的目標是構建智能,對吧?很多人問我,身兼 CTO 和首席 AI 架構師兩個職位,會不會有沖突,但對我來說,這兩個角色本質上是一致的。

要構建智能,就必須通過產品與用戶的聯(lián)動來實現(xiàn)。我的核心目標是確保 Google 的所有產品都能用上最先進的技術。我們不是產品團隊,而是技術開發(fā)者,我們負責研發(fā)模型和技術,當然,我們也會對產品有自己的看法,但最重要的是,以最佳方式提供技術支持,與產品團隊合作,在 AI 時代打造最優(yōu)秀的產品。

這是一個全新的時代,新技術正在重新定義用戶期望、產品行為和信息傳遞方式。因此,我希望能在 Google 內部推動這種技術賦能,與所有產品團隊合作。這不僅對產品和用戶有益,對我們自身也至關重要。

只有貼近用戶,才能感受到他們的需求,獲取真實的反饋信號,這是推動模型迭代的核心動力。這就是我們構建通用人工智能(AGI)的方式:通過產品與用戶共同成長。

Logan Kilpatrick: 我完全認同。這簡直可以作為你的推特文案了!我也覺得,我們本質上是在與客戶、合作伙伴共同構建通用人工智能(AGI)——這不是某個實驗室的孤立研究,而是與全世界共同推進的聯(lián)合事業(yè)。

Koray Kavukcuoglu: 我認為這也是一個「可信測試體系」——我們越來越強調工程思維。這種思維很重要,因為精心設計的系統(tǒng)才會更穩(wěn)健、更安全。

我們在構建現(xiàn)實世界的產品時,借鑒了很多「可信測試」的理念,這體現(xiàn)在我們對安全、隱私的重視上:我們從一開始就將安全隱私作為核心原則,而不是事后補充。

無論是預訓練、微調,還是數(shù)據(jù)篩選,團隊中的每個人都需要考慮安全問題。我們當然有專門的安全團隊和隱私團隊,他們會提供相關技術支持,但我們更希望 Gemini 團隊的每個人都深度參與其中,將安全隱私融入開發(fā)的每一個環(huán)節(jié),這些團隊本身也是微調團隊的一部分。

因此,在模型迭代、發(fā)布候選版本時,我們不僅會參考 GPQA、HLE 等基準測試結果,還會嚴格審查安全隱私指標。這種工程思維至關重要。

Logan Kilpatrick: 我完全同意。這也很符合 Google 的企業(yè)文化,畢竟,發(fā)布 Gemini 模型是一項需要全球團隊協(xié)作的龐大工程。

Koray Kavukcuoglu: 說到 Gemini 3,我覺得最值得一提的是,它是一款「全 Google 團隊協(xié)作的模型」。

Logan Kilpatrick: 我們可以看看相關數(shù)據(jù),這可能是史上參與人數(shù)最多的項目之一,就像 NASA 的阿波羅計劃一樣,這是一項全球性的龐大工程。

Koray Kavukcuoglu: 沒錯,是全球性的。

Logan Kilpatrick: Google 所有團隊都參與其中,這太不可思議了。

Koray Kavukcuoglu: 來自歐洲、亞洲等世界各地的團隊都做出了貢獻,不僅有 DeepMind 團隊,還有 Google 各個部門的團隊。這是一項巨大的集體努力:我們與 AI 模式(AI Mode)、Gemini 應用程序同步發(fā)布,這不容易。

這些產品團隊在模型開發(fā)階段就與我們深度協(xié)作,這也是為什么我們能在發(fā)布當天實現(xiàn)全平臺同步上線。所謂「全 Google 參與」,不僅指直接參與模型構建的團隊,還包括所有各司其職、默默付出的團隊。

Nano Banana,自發(fā)的名字,自然地融合

Logan Kilpatrick: 另一個我關心的話題是生成式媒體模型——雖然我們一直有關注,但過去并未作為重點。不過,隨著 Veo 3、Veo 3.1、Nano Banana 模型的推出,我們在產品落地方面取得了很大成功。

我很好奇,在追求通用人工智能(AGI)的過程中,你如何看待生成式視頻模型的作用?有時候我會覺得視頻模型似乎與 AGI 無關,但仔細想想,它涉及對世界、物理規(guī)律的理解,所以兩者應該是相互關聯(lián)的。

Koray Kavukcuoglu: 10 到 15 年前,生成式模型主要集中在圖像領域,因為當時我們能更好地觀察圖像生成的過程,而且理解世界、物理規(guī)律也是圖像生成模型的核心目標。

Google 在生成式模型方面的探索可以追溯到 10 年前,甚至更早。我讀博時,大家都在做生成式圖像模型,比如像素卷積神經網(wǎng)絡(Pixel CNNs)。后來我們意識到,文本領域的進步速度會更快。

但現(xiàn)在,圖像模型的重要性再次凸顯。DeepMind 長期以來在圖像、視頻、音頻模型方面積累了深厚的技術實力,將這些技術與文本模型融合是順理成章的。

我們一直強調多模態(tài),包括輸入多模態(tài)和輸出多模態(tài)。隨著技術進步,文本模型和圖像模型的架構、理念正在不斷融合。過去,兩者的架構差異很大,但現(xiàn)在越來越趨同。這不是我們刻意推動的,而是技術自然演進的結果:大家都在探索更高效的方案,理念逐漸統(tǒng)一,最終形成了共同的發(fā)展路徑。

這種融合的核心價值在于,文本模型擁有豐富的世界知識,而圖像模型從另一個視角理解世界,將兩者結合,能讓模型更好地理解用戶的意圖,創(chuàng)造出更令人驚喜的成果。

Logan Kilpatrick: 我還有一個關于 Nano Banana 的問題:你覺得我們應該給所有模型起一些有趣的名字嗎?這會不會有幫助?

Koray Kavukcuoglu: 不一定。我覺得名字應該自然產生,而不是刻意為之。比如 Gemini 3,我們并沒有刻意設計名字。

Logan Kilpatrick: 如果 Gemini 3 不叫這個名字,你會起什么?會不會是很搞笑的名字?

Koray Kavukcuoglu: 我不知道,我不擅長起名字。其實我們的 Gemini 模型有內部代號,有些代號甚至是用 Gemini 模型自己生成的,但 Nano Banana 不是,它沒有經過模型生成。

這個名字背后有個故事,我記得已經公開了。我覺得只要名字是自然、自發(fā)產生的,就很好。構建模型的團隊能對名字產生情感共鳴,這很有意義。

「Nano Banana」這個名字之所以被沿用,是因為我們在測試時用了這個代號,大家都很喜歡,它是自發(fā)傳播開來的。我覺得這種自然形成的名字很難通過流程刻意創(chuàng)造,有就用,沒有的話,用標準名稱也很好。

Logan Kilpatrick: 那我們來聊聊 Nano Banana Pro,這是基于 Gemini 3 Pro 打造的最先進的圖像生成模型。我聽說團隊在完成 Nano Banana 后,發(fā)現(xiàn)將其升級為 Pro 版本后,在文本渲染、世界知識理解等更精細的場景中,性能有了很大提升。對于這方面的發(fā)展,你有什么看法?

Koray Kavukcuoglu: 這正是不同技術融合的體現(xiàn)。我們一直說,每個版本的 Gemini 都是一個模型家族,比如 Pro、Flash 等,不同尺寸的模型在速度、準確率、成本等方面各有取舍。圖像生成模型也是如此,自然會形成不同定位的產品。

團隊基于 Gemini 3.0 Pro 的架構,結合第一代模型的經驗,通過擴大模型規(guī)模、優(yōu)化調優(yōu)方式,打造出了更強大的圖像生成模型,這很合理。它的核心優(yōu)勢在于處理復雜場景:比如輸入大量復雜文檔,模型不僅能回答相關問題,還能生成對應的信息圖表,而且效果很好。這就是輸入多模態(tài)與輸出多模態(tài)自然融合的體現(xiàn),非常棒。


Logan Kilpatrick: 是啊,這簡直像魔法一樣!希望大家在這段視頻發(fā)布時已經看到了相關示例,內部分享的一些案例真的太驚人了。

Koray Kavukcuoglu: 完全同意!當你看到模型能將海量文本、復雜概念,用一張清晰直觀的圖片呈現(xiàn)出來時,真的會驚嘆「太厲害了」。這能直觀地體現(xiàn)模型的能力。

Logan Kilpatrick: 而且其中還有很多細節(jié)值得品味。我還有一個相關問題:去年 12 月,Tulsi 曾承諾我們會推出統(tǒng)一的 Gemini 模型檢查點(checkpoint)。你剛才描述的內容,是不是意味著我們現(xiàn)在已經非常接近這個目標了?

Koray Kavukcuoglu: 從歷史上看,生成式模型的架構一直是統(tǒng)一的……

Logan Kilpatrick: 所以我猜這是我們的目標:讓這些功能真正融入一個模型中,但現(xiàn)實中肯定有一些阻礙。你能從宏觀層面解釋一下嗎?

Koray Kavukcuoglu: 正如我之前所說,技術和架構正在不斷趨同,這種統(tǒng)一是必然趨勢,但這需要驗證。我們不能憑主觀臆斷,必須遵循科學方法:提出假設、進行測試、觀察結果,有時成功,有時失敗,但這就是技術進步的過程。

我們正在逐步接近目標,我相信在不久的將來,我們會看到更統(tǒng)一的模型,但這需要大量的創(chuàng)新。

這其實很難——模型的輸出空間至關重要,因為它直接關系到學習信號的質量。目前,我們的學習信號主要來自代碼和文本,這也是模型在這些領域表現(xiàn)出色的原因。

而圖像生成則不同:它對質量要求極高,不僅需要像素級的精準度,還需要圖像概念的連貫性,也就是每個像素都要符合整體畫面的邏輯。要同時做好文本和圖像生成,難度很大。但我認為這絕對是可行的,只是需要找到合適的模型創(chuàng)新方向。

Logan Kilpatrick: 太令人期待了!希望這也能讓我們的工作更高效,比如擁有一個統(tǒng)一的模型檢查點。

Koray Kavukcuoglu: 這很難說,但可能性很大。

一切都建立在學習之上

Logan Kilpatrick: 我再追問一個關于編碼和工具使用的問題?;仡?Gemini 的發(fā)展歷程:1.0 版本聚焦多模態(tài),2.0 版本開始搭建基礎設施。雖然我們的進步速度很快,但為什么在多模態(tài)領域,我們沒能從一開始就在智能體工具使用方面達到最先進水平?畢竟 Gemini 1.0 在多模態(tài)領域一直保持領先。

Koray Kavukcuoglu: 我不認為這是刻意為之。說實話,我覺得這與模型開發(fā)環(huán)境是否貼近現(xiàn)實世界密切相關,越貼近現(xiàn)實,就越能理解用戶的真實需求。

Gemini 的發(fā)展歷程,也是我們從「純研究」轉向「工程思維」、與產品深度綁定的過程。 Google 在 AI 研究方面有著深厚的積淀,擁有眾多優(yōu)秀的研究人員,但 Gemini 的特別之處在于,它讓我們從「寫論文、做研究」轉向了「通過產品和用戶共同開發(fā)」。

我為我們的團隊感到驕傲——包括我在內,大多數(shù)人四五年前還在專注于發(fā)表論文、開展 AI 研究,而現(xiàn)在,我們站在技術前沿,通過產品和用戶共同推進技術迭代。

這種轉變非常驚人:我們每 6 個月就推出一個新模型,每 1 到 1.5 個月就進行一次更新。我認為,我們正是在這個過程中逐步完善智能體工具使用能力的。

Logan Kilpatrick: 還有一個有趣的話題:現(xiàn)在 DeepMind 擁有眾多世界頂尖的 AI 產品,比如即時編碼(vibe coding)、AI Studio、Gemini、Anti-gravity 平臺等, Google 旗下也有很多前沿模型,比如 Gemini 3、Nano Banana、Veo 等。10 年甚至 15 年前,世界完全不是這樣的。

我很好奇,回顧你的個人歷程,你昨天提到,你是 DeepMind 的第一位深度學習研究員,這一點我和其他人都感到很意外。從 13 年前(2012年)人們對深度學習并不看好,到現(xiàn)在這項技術支撐著眾多產品、成為核心驅動力,你有什么感想?這一切是在意料之中,還是讓你感到意外?

Koray Kavukcuoglu: 我覺得這是最理想的結果。就像所有讀博的人一樣,你會堅信自己所做的事情很重要,會產生重大影響——我當時就是這種心態(tài)。

所以當 Demi 和 Shane 聯(lián)系我,告訴我 DeepMind 是一個專注于構建智能、以深度學習為核心的團隊時,我非常興奮。我和我的朋友 Carl Greger(我們都來自紐約大學 Jan 的實驗室)同時加入了 DeepMind。在當時,專注于深度學習和 AI 的初創(chuàng)公司非常罕見,所以 DeepMind 的理念非常有遠見,能在那里工作真的很令人激動。后來,我組建了深度學習團隊,看著它不斷發(fā)展壯大。

我對深度學習的態(tài)度一直是:以第一性原理為基礎,堅持「基于學習」的思維方式,這也是 DeepMind 的核心理念:一切都建立在學習之上。

回顧這段旅程,從早期的 DQN、AlphaGo、AlphaZero、AlphaFold,到現(xiàn)在的 Gemini,真的很令人感慨。我們一直懷著積極的期望推進工作,但同時也覺得自己很幸運。

我們有幸生活在這個時代,很多人曾為 AI 或自己熱愛的領域奮斗一生,希望能見證技術爆發(fā),但這一切現(xiàn)在真的發(fā)生了。AI 的崛起不僅得益于機器學習和深度學習的進步,還離不開硬件、互聯(lián)網(wǎng)和數(shù)據(jù)的發(fā)展,這些因素共同促成了今天的局面。所以,我既為自己選擇了 AI 領域而自豪,也為能身處這個時代而感到幸運。這真的太令人興奮了。

Logan Kilpatrick: 我最近看了《思維游戲》(The Thinking Game)的視頻,了解了 AlphaFold 的相關故事。我沒有親歷那個時代,只能通過資料和他人的講述來了解。你經歷了 DeepMind 的多個重要項目,你覺得現(xiàn)在的工作與過去相比有什么不同?比如你之前提到的,「我們已經掌握了將模型推向世界的方法」,這種感覺與之前的項目有什么相似或不同之處?

Koray Kavukcuoglu: 如何組織團隊、培養(yǎng)文化,才能將復雜的科學技術問題轉化為成功的成果?我認為我們從多個項目中積累了很多經驗,從 DQN、AlphaGo、AlphaZero 到 AlphaFold,這些項目都產生了深遠影響。我們學會了如何圍繞特定目標和使命,組織大規(guī)模團隊開展工作。

我記得 DeepMind 早期,我們曾有 25 人共同參與一個項目,共同發(fā)表一篇論文——當時很多人都質疑「25 人怎么可能合作完成一篇論文」,但我們確實做到了。在科研領域,這種大規(guī)模協(xié)作并不常見,但我們通過有效的組織實現(xiàn)了。這種經驗和思維方式,隨著時間的推移不斷演進,變得越來越重要。

而在過去兩三年里,我們又融入了工程思維——我們有了模型的主線開發(fā)方向,學會了在主線基礎上進行探索。

我覺得「深度思維模型」(Deep Think)就是一個很好的例子:我們用它參加國際數(shù)學奧林匹克(IMO)、國際大學生程序設計競賽(ICPC)等頂級賽事。這些競賽的問題難度極大,很多人會想為賽事定制專門的模型,但我們選擇將其作為優(yōu)化現(xiàn)有模型的機會。

我們堅信技術的通用性,通過賽事探索新想法,并將這些想法融入現(xiàn)有模型,最終打造出能參加頂級賽事的模型,再將其開放給所有人使用。

Logan Kilpatrick: 這讓我想到了一個對應:以前是 25 人共同發(fā)表一篇論文,現(xiàn)在 Gemini 3 的貢獻者名單可能已經有 2500 人了——很多人可能會覺得「 2500 人怎么可能都參與其中」,但事實確實如此。這種大規(guī)模協(xié)作解決問題的方式,真的很令人驚嘆。

Koray Kavukcuoglu: 這一點非常重要,也是 Google 的優(yōu)勢所在。 Google 擁有全棧技術能力,我們能從中受益:從數(shù)據(jù)中心、芯片、網(wǎng)絡,到大規(guī)模模型的部署,每個環(huán)節(jié)都有專家坐鎮(zhèn)。

回到工程思維的話題,這些環(huán)節(jié)是密不可分的。我們設計模型時,會考慮它將運行的硬件;而設計下一代硬件時,也會預判模型的發(fā)展方向。這種協(xié)同非常美妙,但要協(xié)調這么多環(huán)節(jié),確實需要數(shù)千人的共同努力。我們應該認可這種協(xié)作的價值,這真的很了不起。

Logan Kilpatrick: 這絕非易事。再回到 DeepMind 的傳統(tǒng):我們一直采用多元科學方法,嘗試解決各種有趣的問題。而現(xiàn)在,我們已經明確這項技術在多個領域都有效,只需持續(xù)擴大規(guī)模。當然,這也需要創(chuàng)新支撐。

你認為在當今時代,DeepMind 如何平衡「純科學探索」和「擴大 Gemini 規(guī)?!??比如「Gemini 擴散模型」(Gemini Diffusion),就是這種決策的一個體現(xiàn)。

Koray Kavukcuoglu: 這是最關鍵的問題:找到兩者的平衡至關重要。

現(xiàn)在很多人問我,Gemini 最大的風險是什么?我認真思考過,答案是「缺乏創(chuàng)新」。我絕不相信我們已經找到了「萬能公式」,只需按部就班執(zhí)行即可。

我們的目標是構建通用智能,這需要與用戶、產品深度綁定,但這個目標本身依然極具挑戰(zhàn)性,我們并沒有現(xiàn)成的解決方案——創(chuàng)新才是實現(xiàn)目標的核心動力。

創(chuàng)新可以有不同的規(guī)模和方向:在 Gemini 項目內部,我們會探索新架構、新想法、新方法;而作為 Google DeepMind 整體,我們還會開展更多跨領域的探索,因為有些想法可能在 Gemini 項目內部過于受限,無法充分發(fā)展。

所以, Google DeepMind 和 Google 研究院需要共同探索各類想法,然后將這些想法融入 Gemini,因為 Gemini 不是一種架構,而是一個目標:構建通用智能,讓 Google 的所有產品都能依托這個 AI 引擎運行。

無論最終采用哪種架構,我們都會持續(xù)演進,而創(chuàng)新將永遠是核心驅動力。找到平衡,或以不同方式推進探索,這至關重要。

Logan Kilpatrick: 我有一個相關的問題:在 I/O 大會上,我曾和 Sergey 聊過,當你把這么多人聚集在一起,共同發(fā)布模型、推動創(chuàng)新時,你能感受到一種「人性的溫度」——這一點我深有體會。我當時坐在你旁邊,也感受到了你的熱情。

這一點對我個人來說很有意義,因為它也反映了 DeepMind 的整體文化:既有深厚的科學底蘊,又有友善、包容的團隊氛圍。很多人可能沒有意識到這種文化的重要性,以及它如何影響工作。作為團隊的領導者,你如何看待這種文化的體現(xiàn)?

Koray Kavukcuoglu: 首先,謝謝你的夸獎,這讓我有點不好意思。但我確實相信團隊的力量,也堅信要信任他人、給予他人機會。團隊協(xié)作至關重要,這一點我也是在 DeepMind 工作期間學到的。

我們從一個小團隊起步,在成長過程中始終保持信任。我認為,營造一個「專注于解決有影響力的復雜技術和科學問題」的環(huán)境,非常重要,這也是我們現(xiàn)在正在做的。

Gemini 的核心是構建通用智能,這是一個極具挑戰(zhàn)性的技術和科學問題,我們需要以謙遜的態(tài)度去面對,不斷質疑自己、優(yōu)化自己。希望團隊也能感受到這一點,我真的為我們的團隊感到驕傲,他們齊心協(xié)力、相互支持。

就像我剛才在茶水間和團隊聊的那樣:「這很辛苦,我們都很累,但這就是構建前沿技術的常態(tài)。我們沒有完美的流程,但每個人都在全力以赴、相互支持。」 而讓這一切變得有趣、有意義,讓我們有勇氣面對挑戰(zhàn)的,很大程度上是「擁有一支優(yōu)秀的團隊」,大家共同為技術的潛力而奮斗。

我可以肯定地說,20 年后,我們現(xiàn)在使用的大語言模型(LLM)架構肯定會被淘汰。所以,持續(xù)探索新方向是正確的選擇。 Google DeepMind、 Google 研究院,以及整個學術研究社區(qū),都需要共同推進多個領域的探索。

我認為,不必糾結于「什么是對的、什么是錯的」,真正重要的是技術在現(xiàn)實世界中的能力和表現(xiàn)。

Logan Kilpatrick: 最后一個問題:我個人在 Google 的第一年多時間里,感受到了一種「 Google 逆襲」的氛圍。盡管 Google 擁有強大的基礎設施優(yōu)勢,但在 AI 領域,我們似乎一直在追趕。比如在 AI Studio 的早期階段,我們沒有用戶(后來增長到3萬人),沒有收入,Gemini 模型也處于早期階段。

而現(xiàn)在,隨著 Gemini 3 的發(fā)布,我最近收到了很多來自生態(tài)系統(tǒng)各方的反饋,人們似乎終于意識到「 Google 的AI時代已經到來」。你是否也有過這種「逆襲」的感受?你相信我們能走到今天嗎?對于團隊來說,這種角色的轉變會帶來什么影響?

Koray Kavukcuoglu: 在大語言模型(LLM)的潛力逐漸顯現(xiàn)時,我坦誠地說,我既認為 DeepMind 是前沿 AI 實驗室,也意識到我們作為研究人員,在某些領域的投入還不夠,這對我來說是一個重要的教訓:我們必須拓寬探索范圍,創(chuàng)新至關重要,而不是局限于某一種架構。

我一直對團隊坦誠相待:大約 2.5 年前,當我們開始認真對待大語言模型、啟動 Gemini 項目時,我們在很多方面都與最先進水平有差距,我們有很多不懂的東西,雖然也有自己的優(yōu)勢,但確實處于追趕狀態(tài)。

這種追趕持續(xù)了很長時間,而現(xiàn)在,我認為我們已經進入了領先梯隊。我對我們的發(fā)展速度、團隊動態(tài)和協(xié)作節(jié)奏感到非常滿意。但我們必須正視過去的追趕歷程。

在追趕過程中,我們既要學習他人的優(yōu)點,也要堅持自己的創(chuàng)新,找到適合自己的解決方案:無論是技術、模型、流程,還是團隊運作方式,這些都是我們獨有的。

很多人說「 Google 太大了,做事效率低」,但我認為這可以轉化為優(yōu)勢。我們有能力做一些獨特的、大規(guī)模的事情,比如讓 Gemini 同步登陸所有 Google 產品。我對我們現(xiàn)在的狀態(tài)很滿意,但這是通過持續(xù)學習和創(chuàng)新實現(xiàn)的。這確實是一個很棒的「逆襲」故事。

當然,總會有各種比較,但我們的目標始終是構建通用智能——我們希望以正確的方式實現(xiàn)這一目標,并為此傾注全部心力和創(chuàng)新。

Logan Kilpatrick: 我覺得未來六個月可能會和過去六個月、乃至之前的六個月一樣令人振奮。再次感謝你抽出時間接受采訪,非常愉快!希望在明年 I/O 大會前我們能再聊一次。

雖然感覺還有很久,但時間肯定會過得很快。我相信下周就會有關于 2026 年 I/O 大會的規(guī)劃會議了。再次祝賀你和 DeepMind 團隊,以及所有模型研究人員,成功推出 Gemini 3、Nano Banana Pro 等一系列產品!

Koray Kavukcuoglu: 謝謝!這次交流非常棒。感謝團隊的付出,也感謝你的邀請!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

警示!上海一三甲醫(yī)院發(fā)生一起甲等醫(yī)療事故,醫(yī)院賠償70多萬

梅斯醫(yī)學
2025-12-19 07:54:40
中方拋118億美債,逼出4接盤國,馬斯克已通知白宮:美基本沒救了

中方拋118億美債,逼出4接盤國,馬斯克已通知白宮:美基本沒救了

普覽
2025-12-20 10:56:16
誰懂!你永遠不知道你的顧客是干什么的,網(wǎng)友:在知識面前顫抖吧

誰懂!你永遠不知道你的顧客是干什么的,網(wǎng)友:在知識面前顫抖吧

夜深愛雜談
2025-12-20 16:51:40
上海城投(集團)有限公司原黨委副書記楊茂鐸被查

上海城投(集團)有限公司原黨委副書記楊茂鐸被查

界面新聞
2025-12-19 22:32:12
臺北襲擊案27歲兇手背景披露:家境不錯從小叛逆,對槍械及軍事設備感興趣

臺北襲擊案27歲兇手背景披露:家境不錯從小叛逆,對槍械及軍事設備感興趣

黃河新聞網(wǎng)呂梁頻道
2025-12-20 14:35:04
網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

網(wǎng)友評南博事件:我不相信有人能為這幅畫謀劃近40年

映射生活的身影
2025-12-20 16:36:14
這一次,再多名和利,也救不了“狂妄自大、兩面三刀”的張本智和

這一次,再多名和利,也救不了“狂妄自大、兩面三刀”的張本智和

知法而形
2025-12-20 10:32:18
講個笑話:世界上人口最多的民族,居然連自己的民族服飾都不認識

講個笑話:世界上人口最多的民族,居然連自己的民族服飾都不認識

魔都姐姐雜談
2025-12-18 12:48:41
南京博物館:捐贈已歸國家,無義務返還

南京博物館:捐贈已歸國家,無義務返還

映射生活的身影
2025-12-19 17:13:17
驚喜!哈里梅根全家福曝光:阿奇王子長相帥氣不輸喬治路易

驚喜!哈里梅根全家福曝光:阿奇王子長相帥氣不輸喬治路易

風月得自難尋
2025-12-20 02:08:35
婚禮上新娘冷白皮成焦點,淺淺一笑攝影師看迷糊了:美得挪不開眼

婚禮上新娘冷白皮成焦點,淺淺一笑攝影師看迷糊了:美得挪不開眼

梅子的小情緒
2025-12-17 20:29:38
112-107!森林狼送雷霆第3敗,讓我看清5個事實:追不上勇士73勝

112-107!森林狼送雷霆第3敗,讓我看清5個事實:追不上勇士73勝

球場沒跑道
2025-12-20 13:30:32
大風、暴雪來襲!湖北氣溫暴跌10℃

大風、暴雪來襲!湖北氣溫暴跌10℃

湖北e家庭
2025-12-20 11:06:11
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂天閑聊
2025-12-20 10:59:49
2026央視跨年晚會陣容曝光,看完明星名單難掩激動,該來的都來了

2026央視跨年晚會陣容曝光,看完明星名單難掩激動,該來的都來了

阿纂看事
2025-12-19 14:38:58
近30年評分最高的10部電視劇,《漫長的季節(jié)》第6,第1實至名歸

近30年評分最高的10部電視劇,《漫長的季節(jié)》第6,第1實至名歸

皮皮電影
2025-12-19 10:47:48
別吃太清淡,181個國家研究:吃得越咸,壽命可能越長?真相來了

別吃太清淡,181個國家研究:吃得越咸,壽命可能越長?真相來了

岐黃傳人孫大夫
2025-12-17 09:05:37
他給延安送13萬兩黃金,手握幾十萬大軍,建國后卻成了勞資處長

他給延安送13萬兩黃金,手握幾十萬大軍,建國后卻成了勞資處長

大千世界觀
2025-12-19 21:51:13
犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個污點

犯了大忌!托卡耶夫去日本明治神宮,必將是其政治生涯的一個污點

我心縱橫天地間
2025-12-20 15:40:20
烏軍成功奪回庫皮揚斯克,俄軍慘遭全殲。

烏軍成功奪回庫皮揚斯克,俄軍慘遭全殲。

世界探索者探索
2025-12-15 23:02:13
2025-12-20 23:59:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38199文章數(shù) 2600426關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應

頭條要聞

印度官員:若"臺灣有事" 印度不太可能像西方那樣回應

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

親子
教育
旅游
手機
軍事航空

親子要聞

邊牧和德牧帶娃在外面挖坑,三個小朋友加起來800個心眼子!

教育要聞

調查發(fā)現(xiàn):影響孩子成績的三大主要因素,居然沒有補習班

旅游要聞

虹口新春“五必”榜單來啦!一季度“樂購樂游”攻略輕松拿捏!

手機要聞

OPPO Reno 15 Pro Mini參數(shù)曝光:天璣8450+1.5K高刷小直屏

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版