網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

模型與「殼」的價(jià)值同時(shí)被低估？真格基金戴雨森 2025 AI 中場(chǎng)萬字復(fù)盤

2025-07-29 09:15:11　來源: 真格基金

北京舉報(bào)

分享至

這一期的主題是 2025 年中的 AI 復(fù)盤與展望。

節(jié)目分成了兩次錄制。第一次是在 7 月 18 日，真格基金管理合伙人戴雨森與晚點(diǎn)科技報(bào)道負(fù)責(zé)人程曼祺，圍繞月之暗面剛發(fā)布的 Kimi K2、AI 應(yīng)用普及的新動(dòng)向，以及近幾個(gè)月持續(xù)升溫的搶人大戰(zhàn)，做了一次中場(chǎng)回顧。

第二次是在 7 月 21 日，我們補(bǔ)充聊了剛剛發(fā)生的新進(jìn)展：7 月 18 日，OpenAI 發(fā)布了 ChatGPT Agent；7 月 19 日，OpenAI 又宣布，一個(gè)尚未公開的通用大語言模型，首次達(dá)到了 IMO 國際數(shù)學(xué)奧林匹克金牌水準(zhǔn)；7 月 22 日，Google DeepMind 也宣布，他們的 Gemini DeepThink 模型取得了同樣成績。這之前，只有 Google DeepMind 曾用為數(shù)學(xué)調(diào)優(yōu)的模型達(dá)到銀牌。

兩年半前，曾寫下《通用人工智能的火花》的現(xiàn) OpenAI 研究員 Sébastien Bubeck 形容，通用大語言模型拿下 IMO 金牌，或許會(huì)成為 AI 的一個(gè)「登月時(shí)刻」。

這場(chǎng)已持續(xù)兩年多的 AI 競(jìng)速從未放緩，模型能力與應(yīng)用創(chuàng)新交替上升，而兩者的進(jìn)化速度，可能都在被低估。

全球的 AI 社區(qū)仍處于 Early Adopter（早期采用者）階段。他們?cè)敢庠囧e(cuò)、愿意反饋。當(dāng)你拿出一個(gè)好產(chǎn)品，并以開放的態(tài)度對(duì)待用戶時(shí)，無論是 DeepSeek、Kimi、Manus 還是 Genspark，都已經(jīng)證明：來自各地的用戶不僅會(huì)欣賞、支持你，甚至?xí)鲃?dòng)幫你改進(jìn)產(chǎn)品。

回看 Kimi K2 的故事，也能看到「投人」這件事在 AI 時(shí)代被重新認(rèn)識(shí)的過程。Kimi 從一開始就是一個(gè)以技術(shù)視野和技術(shù)能力為底的團(tuán)隊(duì)。2023 年，AI 風(fēng)向幾乎月月在變，但楊植麟的團(tuán)隊(duì)押中了長文本這個(gè)方向，并基于此做出了第一個(gè)具備搜索能力的版本。這是一場(chǎng)面向未來的下注。

AI 正在讓人們?nèi)L試那些原本不會(huì)做的事。這次 IMO 金牌事件更讓我們看清 AGI 即將到來的信號(hào)。如果說過去我們只是遠(yuǎn)遠(yuǎn)望見一輛冒煙的火車，如今，已經(jīng)能清楚地聽見它的轟鳴聲了。

2025 年，屬于各行各業(yè)的「李世石時(shí)刻」，可能才剛剛開始。

OpenAI 拿下 IMO 金牌，又一個(gè)李世石時(shí)刻

Q：最近有哪幾件重要的事值得展開聊聊？

戴雨森：確實(shí)過去這個(gè)周末發(fā)生了很多事情。我覺得最重要的一件是 OpenAI 的一個(gè)新模型，在 IMO（國際數(shù)學(xué)奧林匹克）2025 年的題目上獲得了金牌級(jí)別的成績。具體來說是六道題做對(duì)了五道。

這個(gè)為什么重要呢？因?yàn)榘凑?OpenAI 的描述，這是一個(gè)沒有聯(lián)網(wǎng)的通用大語言模型，并且沒有針對(duì)數(shù)學(xué)做特別優(yōu)化，也沒有用任何 Code Interpreter 一類的工具。它完成的是 IMO 的證明題，而且 OpenAI 找了三位 IMO 的金牌得主來交叉驗(yàn)證，確認(rèn)這些解答是對(duì)的。

當(dāng)然，這個(gè)結(jié)果也引發(fā)了一些爭(zhēng)議。比如有些人指出它還沒有經(jīng)過官方認(rèn)證，因此不一定有效。陶哲軒也說，IMO 題目的解法路徑會(huì)有很多不同，最終得分也會(huì)不一樣。

注：7 月 22 日當(dāng)晚，Google DeepMind CEO Demis Hassabis 在 X 上發(fā)帖強(qiáng)調(diào)，這一結(jié)果已經(jīng)獲得了奧賽組委會(huì)官方認(rèn)定。

但不管怎樣，這個(gè)結(jié)果是一個(gè)劃時(shí)代的進(jìn)展。語言模型沒有經(jīng)過特別的數(shù)學(xué)優(yōu)化，只在離線環(huán)境中就能解出 IMO 級(jí)別的證明題。像之前 Google 用 AlphaGeometry 是為數(shù)學(xué)專門設(shè)計(jì)的模型，還借助了形式化驗(yàn)證方法，并不具備泛化能力。

Q：這剛好是一年前的事，2024 年 7 月 Google 的 AlphaGeometry 達(dá)到了 IMO 銀牌的水準(zhǔn)，當(dāng)時(shí)差一點(diǎn)到金牌。但那不是通用大語言模型，而這次 OpenAI 說是通用大模型。

戴雨森：對(duì)，而且今年這個(gè)時(shí)間點(diǎn)正好是 IMO 出題的時(shí)間，OpenAI 是題目一出就做了，所以也不存在模型訓(xùn)練時(shí)提前見過這些題的情況。

雖然過去一年語言模型已經(jīng)有很多進(jìn)展，但像數(shù)學(xué)證明這樣的任務(wù)，尤其是 IMO 這類題，屬于 hard to verify 的問題類型。驗(yàn)證一個(gè)答案是否正確本身就非常難。

這類問題一直以來都被認(rèn)為是當(dāng)前語言模型難以勝任的任務(wù)。并且現(xiàn)實(shí)中世界上大部分真正的問題，事先都是沒有標(biāo)準(zhǔn)答案和解法的。所以當(dāng)一個(gè)語言模型可以在沒有任何特別調(diào)教的前提下，解出這類高難度的題，達(dá)到人類頂尖水平時(shí)，這意味著它的思考能力確實(shí)上了一個(gè)臺(tái)階。

OpenAI 也提到，這種能力可以通過延長思考時(shí)間進(jìn)一步提升，這也驗(yàn)證了 inference scaling law（推理擴(kuò)展定律）。

我們以前聊過，除了 pre-training，還有 post-training 和 inference scaling law。這次的結(jié)果說明：

1.LLM 的泛化能力很強(qiáng)，能解決我們?cè)瓉碚J(rèn)為解決不了的問題；

2.模型能力越強(qiáng)，可應(yīng)用的場(chǎng)景越多，所創(chuàng)造的價(jià)值也越大；

3.IMO 的證明題和現(xiàn)實(shí)中的某些理科的問題在形式邏輯上很相似，都是證明題。LLM 既然能做前者，也許說明它離發(fā)現(xiàn)新知識(shí)的能力也不遠(yuǎn)了。

目前它肯定還不能解決像哥德爾猜想這種超難問題，但發(fā)現(xiàn)理科新知識(shí)這件事，可能已經(jīng)是一步之遙了。

還有一個(gè)八卦：據(jù)說這次 OpenAI 使用的模型和 GPT-4o 是同一個(gè)底層模型。也就是說，取得這個(gè)成績并不是因?yàn)榈讓幽Ｐ陀泻艽筇嵘?，而是?post-training 和 inference 階段做出了優(yōu)化。后續(xù)的優(yōu)化空間給整個(gè) AI 發(fā)展帶來了很多想象。

Q：你是從一些技術(shù)人員那聽來的描述是嗎？

戴雨森：對(duì)，簡(jiǎn)單打聽了一下。這事情也就 24 小時(shí)之內(nèi)發(fā)生的，但我感受非常強(qiáng)烈。

這讓我想到 2023 年 3 月微軟那篇論文《Sparks of AGI》，當(dāng)時(shí)他們測(cè)試 GPT-4 的預(yù)發(fā)布版本，感嘆從中看到了 AGI 的火花。那篇文章也就兩年半前，而現(xiàn)在我們已經(jīng)走到了能解 IMO 的地步。兩年半在科技進(jìn)步史中是很短的時(shí)間，甚至比很多創(chuàng)業(yè)公司從種子輪到產(chǎn)品發(fā)布還短。

那篇文章的作者后來加入了 OpenAI，他在看到這次OpenAI 模型獲得 IMO 金牌成績后說：這是「AI 的登月時(shí)刻」。

一個(gè)「只是預(yù)測(cè)下一個(gè)詞」的語言模型，在沒有任何工具輔助的情況下，能夠完成一個(gè)只有極少數(shù)天才人類才能做出的有創(chuàng)造性的數(shù)學(xué)證明。這確實(shí)說明 AI 的能力已經(jīng)到了一個(gè)新的高度。

我們年初錄節(jié)目《》時(shí)也說過：2024 年會(huì)是很多行業(yè)迎來「李世石時(shí)刻」的一年。所謂「李世石時(shí)刻」，就是 AI 在某個(gè)領(lǐng)域超越了人類最強(qiáng)水平。

我們已經(jīng)在圍棋、編程、數(shù)學(xué)推理等領(lǐng)域看到這種情況不斷出現(xiàn)。接下來還會(huì)有更多這樣的時(shí)刻等待著我們，解決我們?cè)疽詾檫€很難、很遠(yuǎn)的問題。

Q：而且我還看到一個(gè)信息：似乎不止 OpenAI 做到了。因?yàn)?OpenAI 發(fā)這個(gè)消息之后，一個(gè) Google 的研究員也在 X（原 Twitter）上發(fā)帖，說 OpenAI 搶先發(fā)布了。

戴雨森：我們也在拭目以待。好像 Google DeepMind 也做到了金牌，但我們不知道是不是用通用模型實(shí)現(xiàn)的。如果真是通用模型，那就說明這個(gè)能力已經(jīng)不只是一家掌握的。這種技術(shù)一旦擴(kuò)散開來，會(huì)帶來推理能力的大幅提升，不管是哪個(gè)模型廠商都會(huì)從中受益。

注：7 月 22 日，Google DeepMind 宣布，Gemini Deep Think 模型獲得官方認(rèn)證的 IMO 金牌，并公開了具體解題過程。這一通用模型僅用純自然語言（英語）完成了解題。

Q：你和國內(nèi)一些從業(yè)者交流過，他們對(duì)這個(gè)成果是感到吃驚，還是覺得其實(shí)也在預(yù)期之中？

戴雨森：我覺得方向大家早就知道，是朝著更強(qiáng) reasoning 能力去的。誰都知道 reasoning 能力提升了，模型就能解更難的題。但現(xiàn)在就能做到確實(shí)還是讓人很震驚。我聊到一些中國最頂尖的研究者，他們也表示非常驚訝。但就像原子彈一樣：爆炸那一刻起，大家知道這件事情可以做到，就已經(jīng)離做出來不遠(yuǎn)了。

Q：從技術(shù)進(jìn)展的角度看，圍棋、編程、數(shù)學(xué)是三個(gè)典型的「李世石時(shí)刻」。你怎么看這三個(gè)的不同影響？

戴雨森：數(shù)學(xué)推理其實(shí)比編程更難。

編程屬于好驗(yàn)證的問題。強(qiáng)化學(xué)習(xí)在編程上容易成功，一大原因是因?yàn)樗?reward 清晰。代碼能運(yùn)行、能通過 test case 就說明結(jié)果是對(duì)的。

但數(shù)學(xué)證明題的判卷是非常復(fù)雜的。IMO 就是典型的「hard to produce, hard to verify」的問題。

圍棋是一個(gè)雙方信息公開且完備、勝負(fù)明確的任務(wù)，非常適合強(qiáng)化學(xué)習(xí)；編程也是結(jié)構(gòu)化任務(wù)，而且很多代碼是已有人寫過的，拼裝比全新創(chuàng)造多。

但數(shù)學(xué)是理工科的基礎(chǔ)，它的推理是很多學(xué)科的根基。而且不依賴自然世界實(shí)驗(yàn)，只靠邏輯思維。所以 AI 能解 IMO 級(jí)別的證明題，意味著理工科很多知識(shí)生成方式可能都要改變，帶來的科學(xué)進(jìn)步可能比編程還大。

Q：你覺得這個(gè)應(yīng)用影響會(huì)更大？

戴雨森：有可能更大。因?yàn)榫幊态F(xiàn)在替代的是一些重復(fù)性較高的初級(jí)工作，比如 Vibe Coding 大部分還是復(fù)制粘貼一些前端代碼。但數(shù)學(xué)推理帶來的是非常強(qiáng)的思考和潛在的新知識(shí)發(fā)現(xiàn)能力。顯然，這是更值錢的部分。

AI 會(huì)不斷替代簡(jiǎn)單任務(wù)，而人類往更有價(jià)值、更難的方向走。但現(xiàn)在 AI 正在追著人類解決那些最有價(jià)值的難題。

這就是為什么我說這次 IMO 金牌事件讓我更清晰地看到了 AGI 即將到來的信號(hào)。如果以前是遠(yuǎn)處看到一輛冒煙的火車，現(xiàn)在已經(jīng)能聽到它的轟鳴聲了。

Q：有人在 X（原 Twitter）上說強(qiáng)化學(xué)習(xí)現(xiàn)在也能處理那些獎(jiǎng)勵(lì)反饋不是很直接的領(lǐng)域。這可能是這次進(jìn)展背后更大的突破之一。還有人提到「驗(yàn)證的非對(duì)稱性」，說有些任務(wù)你做出來的時(shí)間可能比驗(yàn)證時(shí)間還短。IMO 數(shù)學(xué)題就屬于這種類型。

戴雨森：對(duì)，以前很多任務(wù)是「hard to produce, easy to verify」，比如寫代碼。但現(xiàn)在變成了「hard to produce, hard to verify」。

Q：不過有人認(rèn)為，在這些驗(yàn)證成本高的任務(wù)上，AI 還很難完全替代人，因?yàn)樽罱K還得靠人來判斷。

戴雨森：有可能。但光是給出證明這一點(diǎn)，其實(shí)就已經(jīng)是質(zhì)的飛躍?，F(xiàn)在我們還不知道所有細(xì)節(jié)，但我們期待更多公開信息，或其他模型公司復(fù)刻類似成果。按照目前 AI 的發(fā)展速度，只要一件事被做到，那它就已經(jīng)不是遙不可及的難題了。

ChatGPT Agent 發(fā)布，「殼」的價(jià)值在于 context

Q：7 月 18 日凌晨，OpenAI 發(fā)布了 ChatGPT Agent。不過和 Manus 不同，這個(gè) Agent 讓很多人其實(shí)覺得有點(diǎn)失望，沒有那么驚艷。

戴雨森：我覺得這反映了 OpenAI 作為 AI 的領(lǐng)頭羊、最大的 AI 應(yīng)用公司，他們也把 Agent 作為重要的方向。就像我們年初就開始討論的：理解目標(biāo)、拆解規(guī)劃、編程使用工具、對(duì)結(jié)果進(jìn)行復(fù)盤和反思。從一開始的構(gòu)想，到 Devin、Manus 等第一波產(chǎn)品的出現(xiàn)，再到 ChatGPT Agent 的發(fā)布，Agent 確實(shí)逐漸成為了AI 應(yīng)用的共識(shí)，變成了大家聚焦的方向。

Q：有人說「OpenAI 發(fā)了一個(gè) Manus」，你怎么看？

戴雨森：我們不會(huì)這么想。我覺得不能低估 OpenAI。他們有最多的人、最多的卡、最多的用戶，在安全性上也做了很多考量，加了很多額外約束。其實(shí) ChatGPT Agent 的能力是被限制得很死的，這是負(fù)責(zé)任的表現(xiàn)。

這個(gè)產(chǎn)品也是他們第一個(gè)在 AI 安全性評(píng)估中被列為「高危險(xiǎn)級(jí)別」的，說明他們確實(shí)擔(dān)心這類 Agent 會(huì)遇到比如釣魚網(wǎng)站、或者生物武器信息等風(fēng)險(xiǎn)（詳見 OpenAI 發(fā)布的 ChatGPT agent System Card）。當(dāng)公司變大，就會(huì)變得更謹(jǐn)慎；這也反過來說明了創(chuàng)業(yè)公司的行動(dòng)力快、敢于突破的機(jī)會(huì)所在。

Q：我覺得「發(fā)了個(gè) Manus」的說法也不一定是說效果不好，更多是說產(chǎn)品形態(tài)。它其實(shí)把 Operator 和 Deep Research 結(jié)合起來了，形態(tài)上有點(diǎn)像 Manus 或 Genspark。

戴雨森：是的，Manus 確實(shí)探索出了一個(gè)方向：讓 AI 在做什么可以被直觀看到，讓人理解背景，否則如果只看到最后的結(jié)果，會(huì)很困擾。所以我們看到 Manus、Genspark、Kimi，還有 MiniMax 等中國團(tuán)隊(duì)也在針對(duì) OpenAI 的 Task，用自己已經(jīng)發(fā)布的線上 Agent 做對(duì)比。不得不說，這些公司的產(chǎn)品在很多維度上的表現(xiàn)，比如做 PPT 的任務(wù)，確實(shí)比 ChatGPT Agent 要好。

Q：ChatGPT Agent 做出來的 PPT 真的有點(diǎn)丑。

戴雨森：但這讓我有幾個(gè)啟發(fā)：

第一，中國團(tuán)隊(duì)在產(chǎn)品力上確實(shí)不錯(cuò)。移動(dòng)互聯(lián)網(wǎng)時(shí)代就有很多例子，比如 TikTok、Shein、剪映，中國團(tuán)隊(duì)確實(shí)做出了很多好產(chǎn)品。

第二，所謂的「套殼」產(chǎn)品，也就是調(diào)用 API 的應(yīng)用，并不會(huì)就一定被 model native 產(chǎn)品吊打。之前大家以為 OpenAI 下場(chǎng)，訓(xùn)練的模型能端到端處理，就能完全替代第三方。但其實(shí)不然，尤其 Agent 需要更多 context 和工具，很多都依賴殼和應(yīng)用本身提供的環(huán)境。

Manus 分享的那篇關(guān)于 Context Engineering 的文章《》就收到很多好評(píng)。因?yàn)檫@就是一個(gè)大家現(xiàn)在都在解決的問題，里面有很多實(shí)踐是需要時(shí)間和經(jīng)驗(yàn)的。

我理解，Context Engineering 最早是來自于 Prompt Engineering。Prompt Engineering 就是給 AI 一個(gè)命令、一個(gè)任務(wù)，然后 AI 自己去做事。這很像傳統(tǒng)管理方式：老板布置任務(wù)，員工去執(zhí)行。而像 Netflix、字節(jié)等先進(jìn)公司強(qiáng)調(diào)的「Context, not control」，意味著要給員工更多上下文和授權(quán)，才能更好完成任務(wù)。Context Engineering 也是類似的道理：我們要給模型提供的是能夠幫助它更好完成任務(wù)的上下文。

第一個(gè)層面，就是單個(gè) session，看我們?cè)趺刺峁└玫纳舷挛摹⒏玫臄?shù)據(jù)、以更適合模型操作的格式去處理它。

第二個(gè)層面，是多 session 或跨 session 的個(gè)性化記憶：比如說今天做了什么，明天再做對(duì)應(yīng)的事，用戶的偏好、習(xí)慣、工作經(jīng)驗(yàn)，能不能累積？這個(gè)長期可能成為護(hù)城河。因?yàn)橥瑯拥哪Ｐ?，誰有更好的上下文，它就更懂我。

第三個(gè)層面，是產(chǎn)品設(shè)計(jì)本身可以提供模型原本獲取不到的上下文。比如大家設(shè)想的一個(gè)還沒做出來的產(chǎn)品：戴個(gè)眼鏡可以實(shí)時(shí)看到周圍世界。這樣的 context 是模型自己無法產(chǎn)生的，必須通過好的硬件與軟件設(shè)計(jì)來實(shí)現(xiàn)，也說明了產(chǎn)品層的價(jià)值。

Q：你說的眼鏡能看到的數(shù)據(jù)，是現(xiàn)在所有互聯(lián)網(wǎng)巨頭都沒有的。

戴雨森：對(duì)。所以從 ChatGPT Agent 的發(fā)布，我覺得可以看到三點(diǎn)：

第一，Agent 方向逐漸達(dá)成共識(shí)；

第二，創(chuàng)業(yè)公司在模型核心巨頭面前，依然有靈活性、先發(fā)優(yōu)勢(shì)和競(jìng)爭(zhēng)力；

第三，進(jìn)一步印證了我們之前說的兩個(gè)被低估：模型進(jìn)步速度被低估了，產(chǎn)品「殼」的價(jià)值也被低估了。

模型這條線，OpenAI 這周剛拿下了 IMO 金牌，說明它的進(jìn)步速度還是很快。而 OpenAI 自己做的 ChatGPT Agent 還有很大提升空間，說明「殼」的價(jià)值也非常重要。所以我覺得模型和應(yīng)用都被低估了。

Q：你剛說的 context 的價(jià)值特別好。它其實(shí)和管理學(xué)也打通了，比如 Netflix 的那本書《No Rules Rules》最開始就講了這個(gè)邏輯。AI 確實(shí)很像一個(gè)人，你要教它、要給上下文，比起給它具體指令，這可能是更好的方式。

戴雨森：第一階段大家都在寫更好的 prompt，就像老板寫 brief。后來發(fā)現(xiàn)要加更多示例、更好的上下文、更適合模型工作的環(huán)境。這其中有很多具體技巧。Manus 的文章就分享了很多。我想說的是，更多的 context 帶來模型能力的提升，也反映出我們對(duì) AI 的使用越來越深入，產(chǎn)品本身也越來越完善。以前一句 prompt 就能跑，現(xiàn)在產(chǎn)品本身要承擔(dān)更多事情，產(chǎn)品公司的價(jià)值也在這里體現(xiàn)。

Q：你覺得這一層的應(yīng)用價(jià)值，什么時(shí)候會(huì)被模型本身做掉？是不是等到模型具備在線學(xué)習(xí)能力、能不斷吸收新的上下文的時(shí)候？

戴雨森：也得看你的產(chǎn)品有沒有用戶 input。如果沒有用戶輸入，那模型再怎么學(xué)習(xí)也沒法學(xué)到用戶自己獨(dú)特的東西。

Q：所以是不是又回到一個(gè)曾經(jīng)被否認(rèn)的邏輯？以前移動(dòng)互聯(lián)網(wǎng)時(shí)代，用戶越多，數(shù)據(jù)反饋越多，推薦越準(zhǔn)，有一個(gè)數(shù)據(jù)飛輪。但后來大家覺得大模型里用戶輸入對(duì)模型智能提升沒啥幫助。但你剛剛的意思是：用戶輸入對(duì)上下文是有幫助的。

戴雨森：這是兩個(gè)不同的問題。大家說的數(shù)據(jù)飛輪失效，指的是用戶的聊天記錄不能提升模型智能。這我同意。因?yàn)楝F(xiàn)在模型的智能已經(jīng)超過普通人。你跟它聊些日常話題，沒法提升它的能力。

最開始模型通過 RLHF（人類反饋強(qiáng)化學(xué)習(xí)）來學(xué)習(xí)人類偏好，現(xiàn)在來看普通人反饋意義不大。比如 AI 都能解 IMO 的題了，為什么還要在意普通人覺得哪個(gè)答案更好？所以對(duì)于有標(biāo)準(zhǔn)答案的任務(wù)，用戶輸入越來越?jīng)]什么價(jià)值。

但如果是完成一個(gè)具體工作，比如 Agent 在完成人類工作時(shí)怎么更好達(dá)成目標(biāo)，這時(shí)用戶的輸入和喜好當(dāng)然有用。

Q：所以用戶數(shù)據(jù)其實(shí)對(duì)產(chǎn)品體驗(yàn)是有幫助的，但不一定能直接提升模型能力？

戴雨森：是的，尤其是在智能能力或者那種有標(biāo)準(zhǔn)答案的任務(wù)上。最開始大模型可以看作是對(duì)大量人類平均智能的一種壓縮。當(dāng)時(shí)特德·姜（Ted Chiang）不是就說過，語言模型本質(zhì)上是對(duì)互聯(lián)網(wǎng)的模糊壓縮嗎？但現(xiàn)在，它顯然已經(jīng)超越了普通人的水平，達(dá)到了某種超人水平。在這個(gè)階段，簡(jiǎn)單的數(shù)據(jù)可能就沒那么有用了。

Q：現(xiàn)在這個(gè)時(shí)間點(diǎn)，是越早做 Agent 越好嗎？因?yàn)槟惴e累的用戶上下文越多，價(jià)值也越大。之前大家可能擔(dān)心新的強(qiáng)模型會(huì)把已有產(chǎn)品淹沒掉。

戴雨森：如果你沒有上下文、沒有環(huán)境，最后只是調(diào)模型，那確實(shí)可能被新模型取代。

AI 應(yīng)用普及：最重要的、被高估的、被低估的

Q：上次我們聊是二月份，轉(zhuǎn)眼到現(xiàn)在差不多五個(gè)月了。今年已經(jīng)過去一半，回頭看，你覺得 2025 年上半年 AI 領(lǐng)域發(fā)生的幾件最重要的事是什么？

戴雨森：整體來說，AI 已經(jīng)從一個(gè)偏研究性質(zhì)、看起來很新穎但實(shí)用性有限的技術(shù)，進(jìn)入到了主流市場(chǎng)。上半年我認(rèn)為有幾個(gè)重大進(jìn)展。

第一，是 AI 在編程領(lǐng)域的突破。Coding 已經(jīng)成為 AI 應(yīng)用的重中之重。我今天還聽說 OpenAI 現(xiàn)在已經(jīng)有三個(gè)業(yè)務(wù)線：GPT、API 和 Coding。用戶也發(fā)現(xiàn) AI coding 產(chǎn)品非常有用，也愿意為此付費(fèi)。Cursor 等 AI 編程工具的成長速度就是一個(gè)代表。Claude Code 也有人稱是 L3 或 Agent 級(jí)別的產(chǎn)品，能比人類寫得更快更好，代碼更優(yōu)雅，還能處理更大的代碼庫。所以 AI 在編程領(lǐng)域已經(jīng)正式跨越鴻溝，進(jìn)入了主流市場(chǎng)。

第二，是 o3 在四月的正式發(fā)布，伴隨著 ChatGPT 用戶的高速增長，這是推理模型的持續(xù)演進(jìn)。從去年下半年開始我們就看到 OpenAI 推出 o1、R1，到今年的 o3，它標(biāo)志著推理問答、題解這些能力從科研層面進(jìn)入到了普通用戶可以使用的產(chǎn)品，是真正的落地了。

ChatGPT 的用戶增長還在持續(xù)，這一波也受益于 o3 推理能力的提升。我們也看到年初中國這邊的突破，比如 R1 是國內(nèi)在 reasoning 上邁出的重要一步，Kimi Researcher 也是第一個(gè)廣泛可用的 deep research 類產(chǎn)品，用戶反饋很好。AI 在這個(gè)領(lǐng)域已經(jīng)比絕大多數(shù)人做得更好了，也是跨越鴻溝。

第三，是 Agent 應(yīng)用開始普及。比如 Devin 是第一個(gè)讓人看到 L3 Agent prototype 的產(chǎn)品。Manus 和 Genspark 都是在三月發(fā)布，Claude Code 也在不斷完善。我們看到隨著模型在推理、編程、工具使用這三大能力的增強(qiáng)，出現(xiàn)了第一批具備完整 Agent 形態(tài)的產(chǎn)品：它們能接收模糊目標(biāo)，自主調(diào)用工具，尋找解決方案，評(píng)估任務(wù)進(jìn)度，并最終完成任務(wù)。雖然它們還不算主流，但已經(jīng)進(jìn)入 Early Adopter 階段，部分場(chǎng)景下用戶非常愿意用。盡管還有不少問題，但 Agent 已經(jīng)變得有用了，這是上半年 AI 應(yīng)用領(lǐng)域最重要的進(jìn)展之一。

第四，是多模態(tài)能力的快速進(jìn)步，尤其是圖像生成。從早期像玩具一樣的工具，變成了實(shí)實(shí)在在的生產(chǎn)力工具。比如 ChatGPT 的圖像生成對(duì)語義的跟隨非常好，能準(zhǔn)確理解用戶意圖?，F(xiàn)在很多人用 AI 來畫漫畫、畫流程圖、做視覺內(nèi)容。這種生成能力的提升已經(jīng)變得非常實(shí)用。

Q：它也能支持 Agent 做出更豐富的輸出，對(duì)吧？

戴雨森：對(duì)，因?yàn)樗闹噶罡S能力越來越強(qiáng)，能更好滿足用戶需求。原來是像抽卡那樣的不確定性，現(xiàn)在已經(jīng)越來越好了。直播頭像好多都變成了 AI 生成的。

Veo3 也是一個(gè)很厲害的模型。它加入語音配音后，我發(fā)了個(gè)朋友圈感嘆，它生成的世界已經(jīng)接近真相難辨的虛擬世界了。Veo3 第一次讓我有一種跨越恐怖谷的感覺，真假難辨。

第五，是搶人大戰(zhàn)。無論是 Meta 的大規(guī)模挖人，還是創(chuàng)業(yè)公司瘋狂融資，再到 Windsurf 最近收購的 drama，都說明硅谷對(duì)人才的爭(zhēng)奪和資本競(jìng)爭(zhēng)進(jìn)入了一個(gè)新的階段。我們?cè)趪鴥?nèi)也感受到類似熱度：融資額上升、項(xiàng)目搶手、一個(gè)月融資幾輪的情況又出現(xiàn)了。這背后是因?yàn)榇蠹艺娴目吹搅?AI 正在落地，不再只是概念，很多已經(jīng)實(shí)實(shí)在在地產(chǎn)生收入了。

Q：你關(guān)注的主線還是圍繞 AI 的應(yīng)用普及，技術(shù)的變化是原動(dòng)力，對(duì)嗎？

戴雨森：我們認(rèn)為模型基礎(chǔ)能力的提升是解鎖應(yīng)用場(chǎng)景的關(guān)鍵。模型能力配合好的產(chǎn)品設(shè)計(jì)，才能真正釋放價(jià)值。一個(gè)真正有價(jià)值的 AI 應(yīng)用，一定能通過某種方式讓用戶付費(fèi)，比如訂閱或按工作交付。所以我們特別關(guān)注 AI 在提升生產(chǎn)力方面的價(jià)值，尤其是在數(shù)字世界里的應(yīng)用?？梢钥吹轿覀兺兜暮芏嗍?AI Agent 或者 AI 生產(chǎn)力方向的項(xiàng)目，因?yàn)檫@是當(dāng)下最能真正幫用戶解決問題的場(chǎng)景。

Q：除了你說的應(yīng)用這條主線，其實(shí) AI 硬件也很熱，比如機(jī)器人，具身智能其實(shí)也在 AI 產(chǎn)業(yè)鏈上。

戴雨森：是的，但我認(rèn)為上半年有一個(gè)被高估的方向，就是人形機(jī)器人。特斯拉最近下調(diào)了對(duì) Optimus 的生產(chǎn)預(yù)期，我覺得很有代表性。

去年我就說過，大家對(duì) Optimus 進(jìn)工廠打螺絲的期待值太高了。當(dāng)時(shí)有人說 2025 年特斯拉就能有一萬個(gè)機(jī)器人進(jìn)廠干活，這完全低估了 manipulation（操作控制）的難度?，F(xiàn)在我們看到的一些 demo 確實(shí)越來越好，比如疊衣服，但真的要機(jī)器人做出一杯咖啡，還是非常難的。

當(dāng)然，我認(rèn)為這個(gè)領(lǐng)域還在快速發(fā)展，在未來幾年可能會(huì)看到 manipulation 的「ChatGPT 時(shí)刻」突破，但如果期待 2025 年就能大規(guī)模落地，我覺得是大大高估了。

技術(shù)的發(fā)展不能拔苗助長，必須經(jīng)歷：方向確定、逐漸放大、形成產(chǎn)品、再到大規(guī)模落地，這幾個(gè)階段，沒法跳過。機(jī)器人目前顯然還處在早期探索階段。

Q：另一方面，你覺得這半年有沒有一些被低估的事情、公司或者現(xiàn)象？

戴雨森：我覺得首先，應(yīng)用的價(jià)值還是在被低估的。一年前，大家還在講模型公司會(huì)顛覆應(yīng)用公司，說「應(yīng)用只是套殼」，這個(gè)業(yè)務(wù)模式不成立。當(dāng)時(shí)不管是 Manus、Genspark，還是很多其他公司，都經(jīng)歷了不少質(zhì)疑，說：「你是一個(gè)殼公司，有沒有長期價(jià)值？是不是模型一升級(jí)你就完了？」

現(xiàn)在這個(gè)爭(zhēng)論雖然還在繼續(xù)，但顯然不是模型升級(jí)了應(yīng)用公司就會(huì)完蛋。相反，好的應(yīng)用公司是期待模型升級(jí)的，這樣可以讓用戶享受更強(qiáng)大的體驗(yàn)?！笟ぁ沟膬r(jià)值仍被低估了。

第二，優(yōu)秀團(tuán)隊(duì)的價(jià)值也在被低估。不管是 Kimi、Manus，還是 Genspark，我們歸根結(jié)底是投人。

大家之前可能不會(huì)料到，肖弘能做出一個(gè)世界級(jí)的 AI 應(yīng)用。而幾天前發(fā)布的 Kimi K2，在 7 月 15 日這個(gè)時(shí)間點(diǎn)，可以說是全球最強(qiáng)的開源大模型，沒有之一。它在 coding、Agent 工作流和中文寫作等方面的表現(xiàn)，確實(shí)優(yōu)于 Claude。當(dāng)然，Claude 是在年初發(fā)布的，但在 AI 這個(gè)領(lǐng)域，六個(gè)月就相當(dāng)于很久了。

OpenRouter 上的調(diào)用數(shù)據(jù)顯示，K2 剛上線沒幾天，昨天還在編程類目里排第 13，今天就升到了第 10，前面是 Claude、Gemini、GPT。這種上升速度是非?？斓?，說明用戶反饋非常好，但現(xiàn)在大家其實(shí)已經(jīng)對(duì) benchmark 麻木了。我們更看重實(shí)際用戶的使用反饋。

比如 Perplexity 的創(chuàng)始人就在推特上說，他們團(tuán)隊(duì)已經(jīng)開始調(diào)研在 Perplexity 上引入 K2，也明確表示：Kimi 做得非常好。

Kimi 是最典型的例子，但不是唯一的。我們也討論過 DeepSeek 后他們團(tuán)隊(duì)的轉(zhuǎn)型問題，Kimi 背后的 Moonshot 也經(jīng)歷了很多復(fù)盤，并集中精力攻堅(jiān)下一代模型。我覺得外界太容易在很早期就下結(jié)論，比如說 DeepSeek 出來的六小龍公司是不是都不行了。但實(shí)際上，如果一個(gè)團(tuán)隊(duì)足夠穩(wěn)定，有優(yōu)秀人才、有資源、有意志，那他們的主觀能動(dòng)性和突破空間遠(yuǎn)遠(yuǎn)被低估了。

第三，我覺得模型能力進(jìn)化的速度也被低估了。比如現(xiàn)在已經(jīng)有傳言說 GPT-5 很快就要發(fā)，它可能是一個(gè)原生多模態(tài)、推理能力非常強(qiáng)、具備高級(jí) Agent 能力的模型。

現(xiàn)在新產(chǎn)品發(fā)布的時(shí)候往往會(huì)被噴，說畫了大餅但實(shí)際上產(chǎn)品體驗(yàn)沒有那么好。但好的應(yīng)用公司需要為 6 到 12 個(gè)月后的模型設(shè)計(jì)。比如 Cursor 一開始發(fā)布的時(shí)候，當(dāng)時(shí)的模型還無法實(shí)現(xiàn)它的完整愿景，直到 Claude 3.5 Sonnet 出來，Cursor 才真正成為一個(gè)好用的產(chǎn)品。

Manus 在設(shè)計(jì)時(shí)能用的最好模型是 Sonnet 3.5，發(fā)布時(shí) Sonnet 3.7 剛上線，Manus 因此能夠完成一些更復(fù)雜的任務(wù)，之后Claude 4，Gemini 2.5 Pro 等新模型的發(fā)布也進(jìn)一步提升了 Manus 的表現(xiàn)。也許再需要 1-2 個(gè)模型的大版本迭代，才能夠充分讓主流用戶感受到 Agent 帶來的生產(chǎn)力提升。

所以我們認(rèn)為，未來模型的能力提升仍然非?？?，也許很快就會(huì)有讓大家震驚的發(fā)布出現(xiàn)。那時(shí)，模型增長和應(yīng)用價(jià)值可能都將超出市場(chǎng)預(yù)期，整個(gè) AI 發(fā)展節(jié)奏也會(huì)再度加快。

Q：這半年還有一個(gè)我之前沒有想到的新變化，就是最近非常激烈的外賣大戰(zhàn)。因?yàn)橥赓u大戰(zhàn)這件事情牽扯了好幾個(gè)巨頭的精力和資源，包括阿里、美團(tuán)和京東。你覺得這個(gè)會(huì)怎么影響中國的 AI 的格局，或者說對(duì)創(chuàng)業(yè)公司來說，它可能會(huì)有什么影響？

戴雨森：現(xiàn)在看其實(shí)還是兩個(gè)戰(zhàn)場(chǎng)。從長期看，可能會(huì)對(duì)資源投入產(chǎn)生一些影響。

但我看阿里云的增速預(yù)期還是挺高的。今天 Jensen 還宣布可以重新向中國銷售 H100。我們看到，今年美國的 IDC 和云服務(wù)增長得非?？欤?yàn)閼?yīng)用落地之后推理的用量會(huì)大幅增長。

我認(rèn)為中國市場(chǎng)的發(fā)展路徑也會(huì)是類似的。當(dāng) Kimi、字節(jié)、DeepSeek 等公司推出更好的模型后，更多場(chǎng)景被解鎖，推理的算力需求也會(huì)很快爆發(fā)。知識(shí)工作者在中美其實(shí)都很像，大家都用 Office、都要搜索、都用 deep research 工具，在美國市場(chǎng)已經(jīng)驗(yàn)證的這些需求場(chǎng)景在中國遲早也會(huì)爆發(fā)。

當(dāng)然這跟外賣大戰(zhàn)沒什么直接關(guān)系。但比如說阿里云、火山云這些中國云服務(wù)商，可能也會(huì)經(jīng)歷一次美國那樣的增長過程。

從 DeepSeek 出發(fā)，不同公司各有演進(jìn)之路

Q：我們接下來圍繞一些具體的方向聊聊，你覺得為什么 DeepSeek 還沒發(fā)布 R2？

戴雨森：這個(gè)現(xiàn)在還是挺神秘的，我們也只能通過一些外圍信息去了解。我聽說現(xiàn)在 V4 還在訓(xùn)練階段。因?yàn)樗麄儺?dāng)時(shí)是先發(fā)了一個(gè) V3，然后再發(fā) R1，那現(xiàn)在 V4 都還沒補(bǔ)發(fā)，聽說還在訓(xùn)練中，那 R2 的發(fā)布時(shí)間可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的創(chuàng)新。我們也和里面的一些同學(xué)聊過，知道他們的創(chuàng)新能力是非常強(qiáng)的。不過我覺得他們也確實(shí)會(huì)受到算力資源的限制。畢竟卡的總量是有限的，而且他們發(fā)布模型之后，還有大量的算力要用來做推理（inference）。

Q：對(duì)，我覺得他們現(xiàn)在可能也在思考模型或者智能未來的演進(jìn)方向，基本上還是不做多模態(tài)。

戴雨森：對(duì)，這其實(shí)反映了一個(gè)很現(xiàn)實(shí)的情況：DeepSeek 的資源沒有多到可以在所有領(lǐng)域?qū)?biāo) SOTA。所以就像 Claude 背后的 Anthropic 一樣，他們要做一些判斷：哪些方向在當(dāng)前階段最重要、最能出結(jié)果，然后集中資源突破；而對(duì)于一些尚不明朗的方向，他們可以等等，等到思路更清晰之后，再利用自己的工程能力和團(tuán)隊(duì)的努力趕上。

而字節(jié) Seed 現(xiàn)在可能是在試圖做到全面領(lǐng)先：他們有 Edge 組去做最前沿的研究，有 Focus 組去沖擊 SOTA，還有 Base 組去做服務(wù)產(chǎn)品應(yīng)用。這種是全棧型的布局。

相比之下，DeepSeek 更有選擇性，比如重點(diǎn)突破模型智能。當(dāng)資源不那么充足時(shí)，確實(shí)需要做一些取舍。像 Seed 這樣的組織結(jié)構(gòu)，把 Edge、Focus、Base 三個(gè)方向明確分開，我覺得是更明確的。

Q：對(duì)，他們現(xiàn)在就是這種比較明確的分工結(jié)構(gòu)。Edge 一開始列了五個(gè)方向，現(xiàn)在可能已經(jīng)擴(kuò)展到了十幾個(gè)項(xiàng)目，確實(shí)挺厲害的。

戴雨森：我覺得把應(yīng)用和研究分開，再把研究中的 SOTA 和 Frontier 部分繼續(xù)細(xì)分，是比較對(duì)的做法。之前大家可能就是分成 Frontier 和 Applied Research，但那時(shí)候資源不夠，組織的職責(zé)也不夠明確。普遍的問題是：如果你讓一個(gè)模型團(tuán)隊(duì)既要做前沿研究追趕 SOTA，甚至超越 SOTA，同時(shí)又要滿足 App 的落地需求，這兩個(gè)目標(biāo)是很容易沖突的。

Kimi 在過去半年其實(shí)也總結(jié)了很多這方面的經(jīng)驗(yàn)。如果有個(gè)大用戶量的應(yīng)用在線上，需要花大量精力去維護(hù)，處理各種 corner case，修 bug。但這些工作其實(shí)對(duì)推動(dòng)下一代模型、挑戰(zhàn) SOTA 的幫助是有限的。今年就沒有投入太多精力在 K1 的迭代和應(yīng)用功能上，而是專注于做下一代模型，來拓展模型智能的邊界。

Q：這也是我們以前反復(fù)會(huì)問大模型創(chuàng)業(yè)公司創(chuàng)始人的一個(gè)問題：你一邊做模型，一邊做產(chǎn)品，中間的精力怎么分配？

戴雨森：目前來看，我覺得還是要先把一個(gè)方向做到極致。比如你如果是做應(yīng)用的，那就假設(shè)自己能用上最好的模型，誰最強(qiáng)、最合適就用誰。但如果你是做模型的，那目標(biāo)就是讓自己的模型保持在 SOTA 水準(zhǔn)，在某個(gè)具體領(lǐng)域做到最強(qiáng)。

投人的價(jià)值，K2 如何逆風(fēng)翻盤

Q：我想聊一下 Kimi K2。今年年初 DeepSeek 引發(fā)熱潮后，Kimi 內(nèi)部也有了一個(gè)比較明確的目標(biāo)，就是要追求 SOTA。在這個(gè)目標(biāo)下，K2 應(yīng)該是他們做出方向調(diào)整后第一個(gè)比較重磅的成果。你對(duì)這個(gè)過程是怎么理解的？

戴雨森：我想先講個(gè)小故事。前幾天，暗涌在良渚組織了一個(gè)圓桌，把投資了 Kimi 和 MiniMax 的投資人都請(qǐng)到一塊。我還開玩笑說，這像是一個(gè)「同情局」，仿佛我們投了大模型公司，很慘該被同情。但我覺得，其實(shí)真正體現(xiàn)一個(gè)團(tuán)隊(duì)能力的，是他們面對(duì)挑戰(zhàn)時(shí)的應(yīng)對(duì)方式，以及是否堅(jiān)持自己的路線去做有價(jià)值的創(chuàng)新。

順風(fēng)的時(shí)候有順風(fēng)的打法，逆風(fēng)的時(shí)候也有逆風(fēng)的打法。像 MiniMax，他們專注自己的方向，現(xiàn)在也在推進(jìn)上市流程。這就是他們面對(duì)挑戰(zhàn)的方式。當(dāng)然，也有一些公司在逆風(fēng)中內(nèi)部團(tuán)隊(duì)發(fā)生較大變化，甚至業(yè)務(wù)方向都有調(diào)整。但我覺得 Kimi 特別的一點(diǎn)，是他們的團(tuán)隊(duì)非常穩(wěn)定。如果你看他們的創(chuàng)始團(tuán)隊(duì)或核心成員，幾乎沒有大的變動(dòng)。

Q：這其實(shí)就是我第一個(gè)好奇的點(diǎn)。現(xiàn)在很多公司到了聯(lián)合創(chuàng)始人或核心業(yè)務(wù)負(fù)責(zé)人層面，都會(huì)有一些變化，但 Kimi 基本沒怎么變。

戴雨森：這可能跟他們的團(tuán)隊(duì)組成有關(guān)。Kimi 的創(chuàng)始團(tuán)隊(duì)一直是以植麟為核心，而且成員是清華的老同學(xué)，之間合作很多，甚至是室友還一起玩過樂隊(duì)。并不是因?yàn)橐龃竽Ｐ凸静排R時(shí)組起來的。

Q：我查閱資料時(shí)發(fā)現(xiàn)，當(dāng)年楊植麟去評(píng)特獎(jiǎng)的時(shí)候，有一張照片是他們系的一些同學(xué)舉著橫幅去支持他。幾位他們系的師弟師妹都會(huì)說，楊植麟在當(dāng)時(shí)就是一個(gè)讓大家覺得非常有號(hào)召力的人。

戴雨森：沒錯(cuò)，這也是我們從一開始就決定投資他們的重要原因之一。這個(gè)團(tuán)隊(duì)不僅有技術(shù)，而是有很長的共同信任。創(chuàng)業(yè)會(huì)經(jīng)歷很多挑戰(zhàn)，如同壓力測(cè)試，在面對(duì)挑戰(zhàn)的時(shí)候，團(tuán)隊(duì)穩(wěn)定和方向聚焦會(huì)很重要。

Kimi 這個(gè)團(tuán)隊(duì)從一開始就是以技術(shù)基因和技術(shù)視野作為核心能力的。很多人可能已經(jīng)忘了，在 2023 年的時(shí)候，AI 的變化太快，幾乎每個(gè)月都有新風(fēng)向。當(dāng)時(shí)，Kimi 就對(duì)長文本這個(gè)方向做出了很重要的判斷，選擇做了一個(gè)具備長文本能力的模型，并基于這個(gè)推出了帶搜索能力的 Kimi 第一個(gè)版本。

那時(shí)大量的 AI chatbot 其實(shí)是沒有搜索功能的。沒有搜索，模型的用途就會(huì)受到很大限制，比如你隨便問一個(gè)「現(xiàn)在的美國總統(tǒng)是誰」，它都可能答不上來。

Kimi 團(tuán)隊(duì)當(dāng)時(shí)對(duì)長文本技術(shù)方向的判斷就展現(xiàn)了他們非常強(qiáng)的技術(shù) vision。到了 2025 年，AI 更強(qiáng)調(diào) Agent 能力、復(fù)雜任務(wù)執(zhí)行、以及處理更大的代碼庫，大家才真正意識(shí)到長文本的重要性。如果你真的要讓 AI 做一個(gè) Agent，完成一個(gè)復(fù)雜任務(wù)，它不能只是執(zhí)行 100 步就歇了?；仡^看，其實(shí)這也驗(yàn)證了植麟判斷上的準(zhǔn)確。

所以我覺得他們團(tuán)隊(duì)身上，有三個(gè)特別重要的品質(zhì)：

第一是團(tuán)隊(duì)的穩(wěn)定性。這來自于成員之間長期的淵源和信任。

第二是對(duì)技術(shù)方向的堅(jiān)持。他們不是看到哪個(gè)火就往哪兒跟風(fēng)，比如陪伴火了去做陪伴，多模態(tài)火了又去做多模態(tài)。很多方向都可以做，但真正有積累的是那些持續(xù)做一件事的團(tuán)隊(duì)。

第三是他們一直保持的技術(shù)敏感度和洞察力。這個(gè)在技術(shù)變化的關(guān)鍵節(jié)點(diǎn)上尤其重要。

當(dāng)然 R1 的成功也確實(shí)給了行業(yè)很多啟發(fā)，這一點(diǎn)毫無疑問。當(dāng)時(shí)很多人看到 R1，有個(gè)流行說法是：「pre-training 不重要，post-training 才重要?！沟艺J(rèn)為 R1 的基礎(chǔ)是 V3，這恰好說明好的基礎(chǔ)模型很重要，pre-training 和整體架構(gòu)優(yōu)化可以帶來模型能力的提升。K2 現(xiàn)在還是個(gè) non-reasoning 的模型，已經(jīng)呈現(xiàn)出很好的能力，這也說明 pre-training 依然很重要。

開源也很重要?，F(xiàn)在全球 AI 社區(qū)正處于 Early Adopter（早期采用者）階段，通過開源優(yōu)秀的模型和產(chǎn)品給社區(qū)提供價(jià)值的團(tuán)隊(duì)，很容易得到熱心的回應(yīng)。我們?cè)?DeepSeek、K2，以及我們 sponsor 的 vLLM、ControlNET 等開源項(xiàng)目中看到，只要不斷拿出好的產(chǎn)品，保持對(duì)用戶開放交流的態(tài)度，世界各地的用戶都會(huì)欣賞、支持你，甚至主動(dòng)幫你改進(jìn)問題。但只開源不是本質(zhì)，本質(zhì)是開源好的東西，不是開源就一定好，社區(qū)覺得好才是核心。

Q：說到開源，因?yàn)?K2 是 1 萬億參數(shù)，開源社區(qū)里能真正部署的人很少。

戴雨森：K2 主要的場(chǎng)景不是在本地機(jī)器部署，事實(shí)上要在本地滿血跑 Deepseek R1 也不簡(jiǎn)單。開源的核心不在于本地部署，而是讓大家對(duì)模型有更多自主把控。

Q：你能總結(jié)下他們?yōu)槭裁茨茏龀?K2 這種級(jí)別模型？現(xiàn)實(shí)過程中遇到了哪些挑戰(zhàn)？外部輿論把他們放在低谷，是否帶來很大壓力，比如人才流失？我指的不光是核心層，還有一線工程師。

戴雨森：這里肯定有人流失，但 Kimi 有兩點(diǎn)優(yōu)勢(shì)：第一，核心層很穩(wěn)定；第二，很多年輕同事愿意留在 Kimi。

我覺得大家留下不只是因?yàn)殄X，更因?yàn)槟軐W(xué)到東西，能干成自己覺得厲害的事。這符合 Kimi 核心團(tuán)隊(duì)的基因。

之前做投放時(shí)討論過，他們做投放不是強(qiáng)項(xiàng)，要做團(tuán)隊(duì)能力最強(qiáng)的方向。我覺得這很重要。面對(duì)外部市場(chǎng)壓力，首先不要亂，要聚焦自己最擅長、最能做好、最有意義的事情。知乎上也有好幾位 Kimi 的研究員寫了參與 K2 的很多感想。

技術(shù)變化：推理、編程、工具使用

Q：在技術(shù)領(lǐng)域，你會(huì)比較關(guān)注哪些變化？

戴雨森：我們之前聊到過，我認(rèn)為解鎖 AI 生產(chǎn)力的三大主線是 reasoning、coding 和 tool use。

在 reasoning 方面，我們看到了 o3、o4 mini 的發(fā)布，還有后來的 o3 pro。雖然這些模型在一些榜單上表現(xiàn)進(jìn)展不大，但我們自己的使用體驗(yàn)是，o3 相比 o1 是一個(gè)明顯的大臺(tái)階，o3 pro 在推理長度和邏輯連貫性上也越來越好?，F(xiàn)在很多模型在 reasoning 的細(xì)節(jié)上都有進(jìn)步，比如細(xì)節(jié)的幻覺減少，推理結(jié)果更嚴(yán)謹(jǐn)。

同時(shí)我們還看到，一些小一點(diǎn)的模型也開始具備很強(qiáng)的 reasoning 能力。像 GPQA 或 AIME 這些反應(yīng)模型 reasoning 能力的指標(biāo)都非常高。K2 在這方面也表現(xiàn)不錯(cuò)。

Q：我們之前和一些人交流，比如阿里云 CTO 周靖人，他并不覺得像 o 系列的更新是特別大的范式變化。他認(rèn)為這還是在大模型原有方法框架內(nèi)的自然延展。

戴雨森：這個(gè)我同意。如果這些模型還是 Transformer 架構(gòu)，那它們就還是在現(xiàn)有范式內(nèi)演進(jìn)。大家現(xiàn)在都在期待下一個(gè) Transformer 是什么。

不過有時(shí)候，一個(gè)技術(shù)范式就可以走得很遠(yuǎn)。就像高速公路可以用幾十年，不一定非要每年都有顛覆式的架構(gòu)變化才叫創(chuàng)新，實(shí)際上，如果每年都有顛覆式的技術(shù)發(fā)生，那說明這個(gè)行業(yè)還很不穩(wěn)定，反而不一定適合產(chǎn)業(yè)落地。今年我們?cè)诋a(chǎn)業(yè)上真正能用到的技術(shù)，并不是從 0 到 1 的變化，更像是從 1 到 10，甚至從 5 到 8 的進(jìn)化。像 reasoning 的進(jìn)步，就是從很好變成非常好。

在 coding 上，Sonnet 3.5 已經(jīng)很不錯(cuò)了，但 context 長度還不夠，自我糾錯(cuò)能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。對(duì)復(fù)雜代碼、長代碼段，它們常常一步就能做對(duì)。這不是從 0 到 1，而是從 7 到 10 的質(zhì)量提升。

Q：在基礎(chǔ)模型的競(jìng)爭(zhēng)上，Google 最近的勢(shì)頭也很強(qiáng)。過去兩年 OpenAI 橫空出世時(shí)，Google 給人感覺有點(diǎn)被打懵。但現(xiàn)在 Gemini 2.5 的口碑和實(shí)際使用反饋都很好。

戴雨森：確實(shí)，Google 技術(shù)積累深厚，人才密度高，又非常有錢，算力也很充沛。所以我們今年明顯感覺到 Google 的邊際變化是很大的。

模型層面，Google 的 Gemini 2.5 表現(xiàn)非常好。云服務(wù)層面，提供同樣的 Claude API 推理服務(wù)上，GCP 的表現(xiàn)其實(shí)更好，這背后也離不開 TPU 的支持。Google 的實(shí)力很強(qiáng)，是現(xiàn)在模型領(lǐng)域前三名中非常有競(jìng)爭(zhēng)力的一家。

但他們現(xiàn)在也有一個(gè)現(xiàn)實(shí)問題，就是 Google 的搜索主業(yè)正在承壓。因?yàn)閾?dān)心 AI 對(duì)搜索廣告帶來沖擊，所以它的股價(jià)一直在震蕩。我覺得這就是一個(gè)典型例子：老業(yè)務(wù)在受損，而新業(yè)務(wù)增長又很快。這最終會(huì)怎么演化，我覺得可能還需要一兩年才能看清。

應(yīng)用的生長，讓 AI 不止于問答

Q：這也回到了你之前提到的一個(gè)主題：模型和上層應(yīng)用之間的關(guān)系，現(xiàn)在這個(gè)關(guān)系還在演變。

戴雨森：應(yīng)用的價(jià)值首先取決于模型本身，也就是模型廠商固化在權(quán)重里的那些基礎(chǔ)能力。模型的推理能力、編程能力越強(qiáng)，應(yīng)用所能釋放的價(jià)值就越大。但權(quán)重一旦固定，內(nèi)容就是死的，而問題是動(dòng)態(tài)的，所以需要引入 context，現(xiàn)在流行的 Context Engineering vs Prompt Engineering 也說明了 prompt 模型并不夠，還需要更多更好的 context。

我認(rèn)為 context 可以分為三層：

第一層是通用信息，比如「今天的天氣怎么樣？」這類模型本身是沒有的，需要通過搜索等方式動(dòng)態(tài)獲取。雖然現(xiàn)在也有模型能做簡(jiǎn)單的搜索工作，但這需要給模型配備合適的工具。

第二層是組織層面，比如公司內(nèi)部有哪些流程、文檔、已有的知識(shí)積累。這些信息模型本身也不知道，需要通過應(yīng)用層與模型協(xié)作，讓模型指導(dǎo)人去調(diào)用這些信息。比如一個(gè)人和 AI 的對(duì)話歷史、個(gè)人偏好、背景信息等，這些模型也不具備，必須由應(yīng)用層來提供。

所以 context 這一層是由應(yīng)用來提供的，它的質(zhì)量會(huì)對(duì) AI 應(yīng)用的表現(xiàn)帶來巨大差別。

AI 的目標(biāo)不只是成為一個(gè)問答機(jī)器，最終它是要真正幫用戶完成事情。那在做事情的時(shí)候，它能調(diào)用哪些工具、影響什么結(jié)果，這些也是由應(yīng)用層公司提供的。比如產(chǎn)品提供了哪些公有或私有的 MCP 工具，或者最終 AI 能把它的輸出結(jié)果部署在什么環(huán)境上。

模型其實(shí)只是最底層的那一塊。但因?yàn)?ChatGPT 剛出來的時(shí)候，我們的大多數(shù)使用場(chǎng)景都是在「問」模型，所以只能提取它通過壓縮已有知識(shí)所獲得的回答。比如問一個(gè)事實(shí)類的問題，這種情況下確實(shí)主要靠模型本身。但當(dāng)任務(wù)更復(fù)雜、模型的智力需要與 context、甚至 environment 配合才能發(fā)揮作用時(shí)，那就是「殼」的價(jià)值了。

Q：所以你覺得這是一個(gè)很自然的演化路徑？也沒必要非得強(qiáng)化「我們就是做模型」這件事？

戴雨森：對(duì)，模型肯定很重要，但只靠模型本身可能不足以真正釋放出全部的價(jià)值。

Q：一年前大家怎么看 Google？一個(gè)失意者？

戴雨森：大家那時(shí)候肯定覺得 Google 有點(diǎn)落后，被 OpenAI 搶了風(fēng)頭，很多人才也選擇出走。但后來 Google 的聯(lián)合創(chuàng)始人 Sergey Brin 回歸公司之后，很多事情發(fā)生了變化。比如有傳聞?wù)f Google 收購的 Character.ai 創(chuàng)始人 Noam Shazeer 回去后親自改了一個(gè) bug，直接讓模型性能大幅提升。真假不確定，但關(guān)鍵人才確實(shí)能解決問題。

Q：所以 Google 能快速追趕，可能不僅是技術(shù)，也有組織方式、投入強(qiáng)度的變化？

戴雨森：對(duì)，他們對(duì)這件事是非常重視。我聽說 Gemini 團(tuán)隊(duì)加班也很厲害，原本大家覺得 Google 是養(yǎng)老公司，但現(xiàn)在他們也很拼。

Q：模型競(jìng)爭(zhēng)其實(shí)激活了很多聰明人，追求的成就感也回來了。

戴雨森：我覺得是的。這幾家公司的創(chuàng)始人都非常重視 AI，現(xiàn)在已經(jīng)不是「AI 會(huì)不會(huì)落地」的問題了，而是必須贏。

不管是 Zuckerberg、Sergey Brin，還是 OpenAI 和 Anthropic 的團(tuán)隊(duì)，他們都看到 AGI 已經(jīng)迫在眉睫，意識(shí)到這件事的重要性，愿意花錢、愿意投入資源。

最近 Y Combinator 的創(chuàng)業(yè)營也提到，現(xiàn)在做任何公司，都應(yīng)該以「AGI 兩年內(nèi)實(shí)現(xiàn)」為前提假設(shè)。你要思考：假設(shè) AGI 兩年內(nèi)實(shí)現(xiàn)，那你的公司該怎么做？

當(dāng)然 AGI 到底是什么還有很多爭(zhēng)議，但毫無疑問巨大的變化正在發(fā)生，而且是快速發(fā)生?，F(xiàn)在硅谷學(xué)計(jì)算機(jī)的學(xué)生找工作都變難了，因?yàn)槌跫?jí)程序員的工作已經(jīng)被 AI 替代了很多，很多變化是實(shí)實(shí)在在發(fā)生的。

Q：我們回到你說的三條主線。我們講了推理和編程，現(xiàn)在講工具使用。最近像 Kimi K2 和 Grok 都在訓(xùn)練階段就加入了使用工具的能力。這是新趨勢(shì)嗎？

戴雨森：現(xiàn)在 AI 使用工具主要有兩條路線：

1. 像 MCP 這樣，走 API 接口方式；

2.通過視覺模擬 AI 操作已有軟件。

這兩種方式都有人在做，現(xiàn)在像 MCP 這樣的生態(tài)已經(jīng)建立起來了，越來越多為 AI 搭建的工具變得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虛擬機(jī)里面的瀏覽器、通過視覺操作瀏覽器等已有的軟件，模擬人類的使用過程，目的是讓 AI 更好地調(diào)用已有軟件的功能。

能夠使用人類的工具完成任務(wù)，我覺得這是讓 AI 真正變有用非常重要的一件事。

Agent 讓每個(gè)人學(xué)會(huì)當(dāng)好老板

Q：其實(shí)在 OpenAI 最開始規(guī)劃的五個(gè)階段里面，第三個(gè)階段就是推理之后的 Agent。

戴雨森：對(duì)，之前張祥雨有個(gè)播客講得特別好，我很認(rèn)同他的分析。第一個(gè)階段是 chatbot，對(duì)應(yīng) ChatGPT；第二個(gè)階段是 reasoning，對(duì)應(yīng) o 系列模型；第三階段的 Agent 對(duì)應(yīng)的是 Agent-native 模型，但目前好像還沒有真正出現(xiàn)。

在 Agent 的定義中，目標(biāo)是 AI 自己去尋找的，但目前目標(biāo)仍由人給定。Agent 是說，我給你一個(gè)目標(biāo)后，它去預(yù)測(cè)使用工具的序列，選擇什么工具完成任務(wù)。它可能還沒做到像給員工完成任務(wù)那樣，自己拆分任務(wù)和定義目標(biāo)。

現(xiàn)在 AI Agent 這一類產(chǎn)品還處于非常早期階段。比如 Manus 才剛推出幾個(gè)月，但我覺得一年甚至半年后，隨著模型能力提升，這類產(chǎn)品的能力會(huì)大幅增強(qiáng)。

我想說的是，不同公司因?yàn)橘Y源稟賦不同，解決 Agent 這個(gè)問題的方式也會(huì)有差異。我們盡量不做預(yù)判，不認(rèn)為我們能夠預(yù)先知曉未來。比如 Kimi 的看法是 Model as Agent，通過模型訓(xùn)練中加入大量端到端的工具使用數(shù)據(jù)，讓模型本身具備強(qiáng)大的工具調(diào)用能力。而同樣是調(diào)用閉源模型 API 的產(chǎn)品。Manus 提出了「less structure, more intelligence」，但有時(shí)結(jié)構(gòu)化也能提升工作效率。Genspark 就專門做了針對(duì) PPT 場(chǎng)景的 slide 生成功能，引入了一系列優(yōu)化工作效果的方法。

Q：這兩種角度都對(duì)。對(duì)用戶來說，有些場(chǎng)景有大致流程，結(jié)果更可控，成本也會(huì)更低。

戴雨森：因?yàn)橛脩粢氖亲詈蟮慕Y(jié)果，而不同的公司想實(shí)現(xiàn)這個(gè)結(jié)果，可能有各種不同的路徑。有的靈活但成本高，有的固定但成本低。所以大家解同一道題，用不同方法都合理。

Q：你說的最大趨勢(shì)無疑還是 Agent？

戴雨森：是 AI 對(duì)生產(chǎn)力的提升，想讓 AI 把生產(chǎn)力真的提高，就得讓 AI 承擔(dān)更多工作。像 Claude Code、Manus 等 Agent 產(chǎn)品，核心理念是人不做事，AI 做事。

有人說這是類似自動(dòng)駕駛 L3級(jí)別的產(chǎn)品，人不動(dòng)方向盤，車自動(dòng)駕駛。我們發(fā)現(xiàn)寫代碼的工程師一開始喜歡 Cursor，因?yàn)樗€是讓你在熟悉的 IDE 里面寫代碼，但Manus 發(fā)現(xiàn)產(chǎn)品經(jīng)理用 Cursor 去完成任務(wù)不怎么看代碼，只是看右邊的對(duì)話框，所以他們把對(duì)話框放到主要的位置，做出了一個(gè)更加適合非程序員人群使用的 Agent。

隨著模型能力的進(jìn)步，Claude Code 更極致，用戶不能寫代碼，只能告訴 AI 你要做什么，其他的 AI 去完成。所以 L3 或 Agent 意味著 AI 去作為執(zhí)行主角，而用戶要學(xué)會(huì)當(dāng) AI 的好老板。

Q：這對(duì)很多人來說挺難，是門檻。AI 做事不滿意，你讓它做幾次都不行。

戴雨森：以前我創(chuàng)業(yè)時(shí)也這么想，所有事我都親自做。后來發(fā)現(xiàn)這不是好管理方式，我應(yīng)該賦能下屬，讓他們知道我要什么，讓他們有主觀能動(dòng)性。

以后人類指揮 AI 可能也是這樣，這可能是人類歷史上第一次要培養(yǎng)一個(gè)工具。以前培養(yǎng)人很難，大部分人是被培養(yǎng)的，很少有人有能力或機(jī)會(huì)去培養(yǎng)一個(gè)下屬。但現(xiàn)在每個(gè)人可能都要學(xué)會(huì)如何給 AI 下命令，如何培養(yǎng) AI 去更好完成工作。

Q：你提到 Manus、Genspark 這類通用 Agent 的用戶群都比較廣泛。你們?cè)趺从^察垂直場(chǎng)景里的 Agent？

戴雨森：通用是因?yàn)楫?dāng)前模型能力偏通用，但肯定會(huì)逐漸涌現(xiàn)某些垂直場(chǎng)景。

我覺得一個(gè)好的產(chǎn)品，最后肯定還是要有清晰的定位，要在某些領(lǐng)域做到絕對(duì)的第一名，才能擁有長期價(jià)值。或者說我們目標(biāo)不是追求通用，而是從通用開始，逐漸發(fā)展收斂到一些核心場(chǎng)景。

技術(shù)革命的早期發(fā)展階段，往往大家都在嘗試，也不知道新技術(shù)適合做什么，最后看什么效果最好。例如蒸汽機(jī)剛被發(fā)明時(shí)，最開始是用于抽煤礦的水，后來發(fā)現(xiàn)用來驅(qū)動(dòng)火車和紡織機(jī)更好。蒸汽機(jī)也是一個(gè)「通用技術(shù)」，但最后最大的價(jià)值可能來自幾個(gè)具體場(chǎng)景。

我覺得現(xiàn)在 coding、做 PPT 這類的 office work、deep research 三者毋庸置疑是已經(jīng)涌現(xiàn)出來的重要方向。

Q：有個(gè)話題挺有意思。國內(nèi)大家討論通用產(chǎn)品，覺得這是大公司的必爭(zhēng)之地。但跟國外投資人聊，他們反而對(duì) Super App 的可能性更感興趣，關(guān)心怎么打敗 OpenAI 和 Google。

戴雨森：如果你有機(jī)會(huì)挑戰(zhàn)大公司，那是好事，至少有資格參與奧運(yùn)會(huì)，比不參與強(qiáng)。

很有意思的一件事是，Manus 出現(xiàn)后，有很多人說它沒壁壘，用開源框架一個(gè)周末就能搞出來。但現(xiàn)在過了這么多個(gè)周末，還沒看到任何一個(gè)類似的應(yīng)用能真正做好的。

我覺得在全球市場(chǎng)，大家對(duì)真正的創(chuàng)新還是尊重的，不會(huì)直接復(fù)制完全一模一樣的產(chǎn)品?？赡軙?huì)借鑒交互或呈現(xiàn)思路，比如 AI 在干活的表現(xiàn)形式，但不會(huì)直接像素級(jí)復(fù)制。在全球化競(jìng)爭(zhēng)里，先發(fā)優(yōu)勢(shì)會(huì)帶來很多口碑和傳播優(yōu)勢(shì)，這也是對(duì)創(chuàng)新者的獎(jiǎng)勵(lì)。

每月 1000 美金的 AI 產(chǎn)品訂閱

Q：你算過現(xiàn)在一個(gè)月在 AI 產(chǎn)品訂閱上花多少錢嗎？

戴雨森：大概接近 1000 美金。Manus 是 200 美金，Genspark 是 200 美金，ChatGPT、Gemini、Grok 這些也都差不多各 200 美金。我買的基本上都是高級(jí)方案。

我一直有個(gè)理念，新產(chǎn)品就要多試試，很多時(shí)候花點(diǎn)錢試一試并不過分。很多 AI 產(chǎn)品的革命之處不能只看報(bào)道，得親身去用。當(dāng)你能看到一個(gè)未來的時(shí)候，你會(huì)產(chǎn)生很多的靈感。

我們?nèi)路菥陀^察到，Manus 上線后推理用量暴漲，Agent 產(chǎn)品的 token 用量相比 Chatbot 是顯著增長。當(dāng)時(shí)二級(jí)市場(chǎng)很多人還在質(zhì)疑英偉達(dá)，覺得哪怕全世界所有人都用 chatbot，推理需求也根本沒那么大，用不了那么多算力。

但其實(shí)這就像撥號(hào)上網(wǎng)時(shí)代，一開始所有人都在聊 QQ，不需要那么多帶寬。但有了寬帶網(wǎng)之后，大家就要在線上看 4K 視頻了。模型能力越強(qiáng)，可以解鎖的場(chǎng)景越多，token 使用就越多。

Q：2023 年，黃仁勛在英偉達(dá)內(nèi)部講話中說，他們的市值目標(biāo)是 2 萬億美元。當(dāng)時(shí)英偉達(dá)剛剛突破 1 萬億。我們還在討論他這口氣是不是太大。結(jié)果今年已經(jīng)突破 4 萬億了。

戴雨森：他很快可能會(huì)到 5 萬億。因?yàn)?token 向生產(chǎn)力的轉(zhuǎn)化趨勢(shì)才剛剛開始。

這就像火車開動(dòng)了，就不會(huì)突然又停下來了。我們現(xiàn)在還在不斷發(fā)現(xiàn) AI 新的使用場(chǎng)景。比如說一個(gè)工程師原來一天可以寫 100 行代碼，現(xiàn)在有了 Cursor、Claude Code，可能寫的代碼是原來的 10x，能解決更多以前沒想過要解決的問題。又比如有了 ChatGPT 和 Manus，你會(huì)問的問題也會(huì)變多。

很多以前不知道該問誰的問題，現(xiàn)在可以用 AI 來解決。給用戶帶來的生產(chǎn)力提升，導(dǎo)致用戶更愿意付費(fèi)。

Q：目前生產(chǎn)力場(chǎng)景的 token 消耗是非常高的？

戴雨森：生產(chǎn)力可以以 10 倍，100 倍的速度增長。和 AI 閑聊再怎么聊，一天就那么多時(shí)間，這是我們以前講的 attention is all you need。如果你要的是用戶注意力，它是有限的，并且是和抖音，Tiktok、小紅書一起去爭(zhēng)奪的注意力。

但在生產(chǎn)力場(chǎng)景，用戶需求的上限很高，可以從問一個(gè)問題變成問 100 個(gè)問題，需要的算力可以漲 100 倍。

Q：而且單位時(shí)間內(nèi) token 消耗的復(fù)雜度也在迅速提升，比如我要消費(fèi)的內(nèi)容、視覺信息可能也變得更復(fù)雜。

戴雨森：在未來你可以問 AI 之前沒想到的非常復(fù)雜的問題，我給你舉個(gè)很簡(jiǎn)單的例子。比如美股二級(jí)市場(chǎng)的朋友，在財(cái)報(bào)季時(shí)一天可能要關(guān)注五六家公司發(fā)業(yè)績。凌晨四點(diǎn)起床看財(cái)報(bào)數(shù)據(jù)、代入模型做對(duì)比、聽電話會(huì)議、分析 CEO 的展望，都是他們的日常。

原來他們不可能同時(shí)聽多個(gè)財(cái)報(bào)會(huì)，只能靠招更多人或挑重點(diǎn)去選擇。但現(xiàn)在有了 AI，雖然目前還不能完全跑通全流程，但 6-12 個(gè)月內(nèi)就有可能讓一個(gè)分析師同時(shí)覆蓋 50 家股票的財(cái)報(bào)。

AI 可以幫他們看財(cái)報(bào)、聽電話會(huì)議記筆記、回答事前準(zhǔn)備好的問題、總結(jié) CEO 回答、寫報(bào)告。這些原來因?yàn)椤缸霾坏健共艣]放到你的工作時(shí)間表里的事情現(xiàn)在 AI 能完成了，需求就自然增長了。

就像飛機(jī)出現(xiàn)之前，沒有人會(huì)說「我今天要飛美國出差」。但飛機(jī)一旦存在，新的需求就出現(xiàn)了。AI 也一樣，它讓你開始做那些你原本不會(huì)想做的事。

Q：時(shí)間是有限的。但單位時(shí)間內(nèi)娛樂內(nèi)容的復(fù)雜度、感官刺激可能會(huì)大幅提升，這也是以前難以想象的。

戴雨森：對(duì)，確實(shí)難以想象。但我想說的是，生產(chǎn)力的價(jià)值是直接可衡量的。比如 AI 幫我賺 100 塊錢，我為它付 1 塊或者10 塊。

而且我們觀察到一個(gè)很有意思的現(xiàn)象：當(dāng) AI 按 token 用量計(jì)費(fèi)后，很多人是希望用得更多的。因?yàn)樗_實(shí)在幫你完成工作，比如幫你寫了更多代碼。

這本來就是你自己要做、要花時(shí)間花錢雇人做的事，現(xiàn)在 AI 幫你完成了，它就有價(jià)值。

硅谷 Acqui-hire 搶人大戰(zhàn)

Q：關(guān)于最近這場(chǎng)「搶人大戰(zhàn)」你有沒有什么看法？

戴雨森：確實(shí)最近有很多人被挖走，也有人接到電話但沒去。大量優(yōu)秀人才被 disruptive（顛覆性）級(jí)別的薪資挖走。

這種挖角不管是對(duì)被挖團(tuán)隊(duì)，還是 Meta 自己原有的團(tuán)隊(duì)，都是非常大的沖擊。在硅谷幾乎所有頂尖公司都在發(fā)生類似動(dòng)蕩。被挖的人所在團(tuán)隊(duì)軍心難免動(dòng)搖，留下的人也開始質(zhì)疑：是不是自己也該漲薪？

這種高薪挖人當(dāng)然是人才價(jià)值的體現(xiàn)，但越是頂級(jí)人才，也越需要時(shí)間和環(huán)境來磨合，才能真正形成合力。歷史上失敗的例子也很多，所以對(duì)于這些組織來說，這既是機(jī)會(huì)，也是一場(chǎng)挑戰(zhàn)。

Q：你覺得搶人競(jìng)爭(zhēng)算良心嗎？

戴雨森：我覺得這也是體現(xiàn)了創(chuàng)始人的精神，就是他愿意不惜代價(jià)去爭(zhēng)取人才。如果花錢能解決的事，我就花錢辦。這反映了人才確實(shí)很重要。

Q：壓力主要是在硅谷嗎？不過從另一面看，這也給創(chuàng)業(yè)公司提供了不錯(cuò)的退出機(jī)會(huì)。

戴雨森：但是這種退出可能不夠大。有的人覺得公司賣個(gè)幾億美元就挺好，有人則想做千億美元公司。創(chuàng)業(yè)公司也需要更多彈藥去和 Meta 這樣的大廠競(jìng)爭(zhēng)。比如說 Cursor 之前融了很多錢，我們一度還覺得融這么多錢做什么，現(xiàn)在看到他們要面對(duì)的是更多錢補(bǔ)貼用戶用 token，招人也要更高成本，所以融資更多很合理?，F(xiàn)在競(jìng)爭(zhēng)無論是補(bǔ)貼還是人才都升級(jí)了。頂級(jí)人才也有很多選擇，對(duì)很多創(chuàng)業(yè)公司來說，加入戰(zhàn)局的門檻和水位都在提升。

Q：硅谷這種人才收購（Acqui-hire）很流行，主要是為了繞過反壟斷限制，也反映了競(jìng)爭(zhēng)多激烈。

戴雨森：大家都想加快節(jié)奏，因?yàn)殄X太多了。幾家巨頭賬上都有大量現(xiàn)金，這些錢投下去，如果能用錢換時(shí)間和競(jìng)爭(zhēng)優(yōu)勢(shì)，對(duì)他們來說就是簡(jiǎn)單的事情。

Benchmark 鈍化，突破智能的邊界

Q：最后這一部分，我想問一些你的感受。從 GPT-3 到現(xiàn)在，已經(jīng)有兩年半時(shí)間了。你目前對(duì)什么事情還是特別好奇？

戴雨森：我好奇始終還有很多。首先是如何衡量智能的邊界。

你想，ChatGPT 剛出來的時(shí)候，人類還能指出它的回答問題所在。但現(xiàn)在無論是它研究的內(nèi)容還是文筆本身，普通人類越來越難發(fā)現(xiàn)它的缺陷了。當(dāng)人類智能被逐漸接近的時(shí)候，你怎么衡量一個(gè)或許比你更聰明、更深度思考、記憶力更強(qiáng)的存在？

關(guān)于如何衡量智能，我的好朋友姚順雨在他寫的文章《下半場(chǎng)》中提到，未來 AI 的 benchmark 會(huì)越來越重要。現(xiàn)在的 benchmark 已經(jīng)鈍化，不能準(zhǔn)確區(qū)分模型差異。比如說一個(gè) benchmark 得 85 分或 90 分真的能反映模型的區(qū)別嗎？Kimi 的經(jīng)驗(yàn)也說明，內(nèi)部制定好的 benchmark 很重要。模型訓(xùn)練關(guān)鍵是如何衡量結(jié)果，而內(nèi)部 benchmark 的水平質(zhì)量往往決定了模型的質(zhì)量。

所以我覺得如何衡量智能、如何探索智能邊界依然非常重要?，F(xiàn)在我們還能勉強(qiáng)說用一用模型，能「Vibe Testing」感受到模型的能力好壞，但再過幾年，前五名的模型可能都比你聰明的時(shí)候，你怎么去評(píng)估誰更好？

Q：所以怎么去衡量智能的邊界？

戴雨森：第二個(gè)我想說的是，我一直反復(fù)思考生產(chǎn)力這個(gè)邏輯。每個(gè)人擁有大量生產(chǎn)力之后，對(duì)于個(gè)人、組織、乃至世界的影響是什么？

對(duì)個(gè)人來說，超級(jí)個(gè)體一個(gè)人能做的事情越來越多：從做小貓補(bǔ)光燈這樣的小 app，到開發(fā)游戲，甚至到實(shí)現(xiàn) Sam Altman 預(yù)言的「一人獨(dú)角獸公司」。當(dāng)年 Instagram 被收購時(shí)只有 13 個(gè)人，在 AI 時(shí)代，13 個(gè)人到 3 個(gè)人是完全有可能的。

這意味著人和人之間差距會(huì)變得很大。當(dāng)每個(gè)人都擁有無限聰明的助手，以及像 Manus 這種可以日夜無休幫你打工的「賽博牛馬」時(shí)，有人能很好地利用它創(chuàng)造巨大價(jià)值，有人可能沒有產(chǎn)生那么大價(jià)值，所以成長速度差異會(huì)進(jìn)一步拉大。

對(duì)組織來說，小組織可以變得很強(qiáng)大，而大組織則能通過先進(jìn)技術(shù)管理更大、更復(fù)雜的業(yè)務(wù)。比如美團(tuán)管理幾百萬騎手，業(yè)務(wù)非常復(fù)雜，如果沒有先進(jìn)互聯(lián)網(wǎng)通信和管理技術(shù)，根本無法實(shí)現(xiàn)。加入 AI 后，大公司的管理人數(shù)、業(yè)務(wù)復(fù)雜度和深度都會(huì)再升一個(gè)臺(tái)階。

世界是由各種組織驅(qū)動(dòng)的，組織能力邊界的提升對(duì)世界影響巨大。進(jìn)一步來說，當(dāng)整體生產(chǎn)力大幅提升，而人與人、組織與組織之間差距變大時(shí)，如何在效率和公平間尋求平衡？AI 最初是最聰明的人制作工具給頭部用戶用，但這些精英產(chǎn)生的價(jià)值如何反哺普通大眾？即便一個(gè)普通人不是特別努力學(xué) AI，我們?nèi)绾巫?AI 產(chǎn)品越來越易用，讓普通人也能從中獲益？

Q：AI 還會(huì)帶來隱私暴露和虛假信息泛濫，讓真實(shí)界限變得模糊。

戴雨森：對(duì)，你很難區(qū)分什么是真實(shí)的文章。我現(xiàn)在還能讀出 DeepSeek 的味道，但一年后可能分辨不出，或者說，可能有很多 AI 寫的文章我已經(jīng)分辨不出來了，我能分辨出來的只是那些還偽裝得不夠好的。大家都知道 AI 會(huì)引用虛假內(nèi)容，但關(guān)鍵什么是虛假呢？真假的界限也越來越模糊了。

我一直在想，人類最大的限制是什么？我這邊覺得是大腦的功率，大腦功率大約 20 瓦，人類智能的上限就是這么多。而 AI 可以很快接近甚至突破這個(gè)上限。智能越多，我們用它做什么，人與 AI 的角色分工如何，這些都是我們很快要面對(duì)和調(diào)整的問題。

有時(shí)候我覺得有點(diǎn)可怕，因?yàn)榇蟮淖兓呀?jīng)到來，只是大家還在逐漸感受到它。比如對(duì)程序員影響特別直接，普通初級(jí)程序員如果不用 AI，未來兩年后找到工作會(huì)非常困難。但一年的時(shí)間人是很難做出改變的。而更多的職業(yè)可能也會(huì)在很短的時(shí)間內(nèi)受到極大的沖擊。

Talk is cheap, Show me the product

Q：你會(huì)對(duì)什么事感到疲倦？

戴雨森：我覺得第一個(gè)疲倦的是過度營銷。過去幾年有一個(gè)趨勢(shì)，就是很多產(chǎn)品在過度營銷，各種「震驚體」，但好的產(chǎn)品比如說 Manus，幾乎沒花錢營銷，但大家誤以為它花了很多錢。

之前 AI 的進(jìn)步主要是模型的進(jìn)步，普通用戶還無法在產(chǎn)品中體驗(yàn)，因此研究員和媒體擁有很大的解釋權(quán)。但現(xiàn)在模型已經(jīng)開始轉(zhuǎn)化成應(yīng)用了。那時(shí)候我在即刻發(fā)了一條說：「Talk is cheap, show me your product.」

現(xiàn)在很多 AI 模型的核心能力最終都要轉(zhuǎn)化成產(chǎn)品，用戶能真正用得起來，AI 才有生命力。很多講故事、炒作的公司，不如專注做好產(chǎn)品。我們看到現(xiàn)在發(fā)展好的 AI 公司大多做到了這一點(diǎn)，拿出真正對(duì)客戶有價(jià)值的產(chǎn)品。

Q：你今年內(nèi)想驗(yàn)證的是什么問題？

戴雨森：一個(gè)是 AI L3 級(jí)別的 Agent 應(yīng)用能不能快速達(dá)到完成實(shí)際工作的程度。比如 Manus 我們都在用，用戶也在付費(fèi)，但有時(shí)一個(gè)任務(wù)只能完成七八十分，還需人補(bǔ)充到 100 分。Claude Code 相比之前的 coding agent，逐漸能做到一次完成，不用修改就能上線。

未來幾個(gè)月到年底，我相信 Agent 的能力還會(huì)有很大提升。到那時(shí)，可能你給 AI 一條指令，它就能埋頭干完，甚至一次就干好了。

Q：我現(xiàn)在用 AI 感覺是得刻意多用它。因?yàn)榻o它比較復(fù)雜的任務(wù)時(shí)，它完成得不完美。

戴雨森：這是普遍現(xiàn)象。好的 AI 產(chǎn)品一定是為未來的模型設(shè)計(jì)的。Cursor 上線兩三年了，但直到 Sonnet 3.5 出來的時(shí)候才開始火，等 3.7 出來后才爆發(fā)增長。

Manus 也是一樣，剛上線時(shí)很多任務(wù)其實(shí)也做得不好，但 6 個(gè)月、12 個(gè)月后，新一代模型會(huì)讓它表現(xiàn)更好。所以你要為未來設(shè)計(jì)，而不是為當(dāng)下就能獲得的模型設(shè)計(jì)。

Q：這對(duì)普通用戶可能反直覺，但我理解，這是快速發(fā)展階段。普及到主流用戶時(shí)，大家仍追求開箱即用。

戴雨森：其實(shí)也不一定，比如我們之前發(fā)的《》，Youtube 的聯(lián)合創(chuàng)始人 Steve 說，YouTube 出來時(shí)是為未來寬帶設(shè)計(jì)的。2005 年，那時(shí)候美國剛開始普及寬帶，因此一開始的體驗(yàn)并不是那么好。同樣短視頻平臺(tái)如抖音快手上線時(shí)，也是為一兩年后的智能手機(jī)和 4G 普及設(shè)計(jì)的。AI 也是這樣，你要永遠(yuǎn)提前走一步，喬布斯曾經(jīng)說過「要去冰球?qū)?huì)前往的地方」。

Q：所以你想驗(yàn)證的是，到年底看產(chǎn)品能否高度自動(dòng)化完成任務(wù)，不再需要人參與？

戴雨森：比如現(xiàn)在 Agent 完成任務(wù)的成功率可能是 20%，能不能到 70-80%？這會(huì)讓前沿用戶對(duì)工作的定義和 AI 使用方式發(fā)生巨大變化。

另外我好奇的是，隨著用戶使用 AI 產(chǎn)品的變多，記憶會(huì)帶來多大變化。AI 應(yīng)用長期壁壘是什么？我覺得很重要的是記憶和個(gè)性化。現(xiàn)在記憶個(gè)性化對(duì)結(jié)果影響有限，但長期來看，我們希望它像員工或助手，隨著使用時(shí)長增加，越來越了解你，變得不可替代。這是我們想看到的進(jìn)步。

Q：這個(gè)進(jìn)步不能光靠模型是嗎？記憶需要不斷互動(dòng)，給 AI 個(gè)人層面上下文。

戴雨森：一方面是在線學(xué)習(xí)（online learning），模型在使用中學(xué)習(xí)。另一方面需要你給它更多數(shù)據(jù)、文件、上下文，應(yīng)用設(shè)計(jì)非常重要。模型和應(yīng)用要協(xié)同合作。

我覺得我們對(duì)未來創(chuàng)新要有更多期待和包容，對(duì)中國團(tuán)隊(duì)的創(chuàng)新和發(fā)展能力要更有信心和支持。

創(chuàng)業(yè)新浪潮的新觀察

Q：你們現(xiàn)在特別關(guān)注的團(tuán)隊(duì)是什么類型的人？還有哪些地方有新創(chuàng)始人在出現(xiàn)？

戴雨森：今年我們看到，想出來創(chuàng)業(yè)的人多了很多。一兩年前大家還在相信未來應(yīng)用會(huì)落地，而現(xiàn)在已經(jīng)看到有 Manus 這個(gè)例子。金玉在前，所以大家肯定會(huì)想，「那我也許也可以」，這一定是一個(gè)更多的過程。我們看到很多不管是研究員，還是大廠里的年輕人，都蠢蠢欲動(dòng)。

Q：你最近在看什么比較好玩的書，或者有沒有作品想分享？

戴雨森：我想推薦《33 號(hào)遠(yuǎn)征隊(duì)》，一家法國創(chuàng)業(yè)公司開發(fā)的游戲。故事設(shè)定在一個(gè)虛擬世界，有一個(gè)神「繪母」，每年在天邊的一個(gè)石頭上寫下一個(gè)數(shù)字。這塊石頭叫 Monolith。

她從一百開始倒計(jì)時(shí)，每寫一個(gè)數(shù)字，對(duì)應(yīng)年齡達(dá)到那個(gè)數(shù)字的人就會(huì)死去，全部消失。第一年是 100，第二年是 99，如此類推，一波一波的人死去。于是人類開始反抗，每年組織剩余年齡差一歲的人組成遠(yuǎn)征隊(duì)，想挑戰(zhàn)并打破這個(gè)魔咒，但一直沒有成功。今年繪母寫下了 33，33 歲的人將在明年此刻死去，于是第 33 號(hào)遠(yuǎn)征隊(duì)出發(fā)了。

前幾天是 Manus 創(chuàng)始人肖弘的 33 歲生日，我就推薦他玩這個(gè)游戲。這個(gè)游戲講述了一個(gè)滿 33 歲的人如何出海挑戰(zhàn)天命的故事。游戲團(tuán)隊(duì)也是 33 個(gè)人，是一個(gè)創(chuàng)業(yè)公司開發(fā)的。創(chuàng)始人曾在育碧（Ubisoft）工作，他在那里覺得無聊，于是出來做了這款游戲。

《黑神話·悟空》是中國的大 IP，結(jié)合中國的文化積淀和先進(jìn)技術(shù)制作的精品之作?！?3 號(hào)遠(yuǎn)征隊(duì)》也是一個(gè)法國浪漫主義設(shè)定，藝術(shù)與先進(jìn)技術(shù)結(jié)合帶來的優(yōu)秀作品。它的情節(jié)、畫面、音樂等都非常非常出色，是我今年非常喜歡玩的游戲之一，有望沖擊年度游戲。

本期音頻內(nèi)容同步上線真格基金播客「此話當(dāng)真」，歡迎收聽～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.