国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

模型與「殼」的價(jià)值同時(shí)被低估?真格基金戴雨森 2025 AI 中場(chǎng)萬字復(fù)盤

0
分享至

這一期的主題是 2025 年中的 AI 復(fù)盤與展望。

節(jié)目分成了兩次錄制。第一次是在 7 月 18 日,真格基金管理合伙人戴雨森與晚點(diǎn)科技報(bào)道負(fù)責(zé)人程曼祺,圍繞月之暗面剛發(fā)布的 Kimi K2、AI 應(yīng)用普及的新動(dòng)向,以及近幾個(gè)月持續(xù)升溫的搶人大戰(zhàn),做了一次中場(chǎng)回顧。

第二次是在 7 月 21 日,我們補(bǔ)充聊了剛剛發(fā)生的新進(jìn)展:7 月 18 日,OpenAI 發(fā)布了 ChatGPT Agent;7 月 19 日,OpenAI 又宣布,一個(gè)尚未公開的通用大語言模型,首次達(dá)到了 IMO 國際數(shù)學(xué)奧林匹克金牌水準(zhǔn);7 月 22 日,Google DeepMind 也宣布,他們的 Gemini DeepThink 模型取得了同樣成績。這之前,只有 Google DeepMind 曾用為數(shù)學(xué)調(diào)優(yōu)的模型達(dá)到銀牌。

兩年半前,曾寫下《通用人工智能的火花》的現(xiàn) OpenAI 研究員 Sébastien Bubeck 形容,通用大語言模型拿下 IMO 金牌,或許會(huì)成為 AI 的一個(gè)「登月時(shí)刻」。

這場(chǎng)已持續(xù)兩年多的 AI 競(jìng)速從未放緩,模型能力與應(yīng)用創(chuàng)新交替上升,而兩者的進(jìn)化速度,可能都在被低估。

全球的 AI 社區(qū)仍處于 Early Adopter(早期采用者)階段。他們?cè)敢庠囧e(cuò)、愿意反饋。當(dāng)你拿出一個(gè)好產(chǎn)品,并以開放的態(tài)度對(duì)待用戶時(shí),無論是 DeepSeek、Kimi、Manus 還是 Genspark,都已經(jīng)證明:來自各地的用戶不僅會(huì)欣賞、支持你,甚至?xí)鲃?dòng)幫你改進(jìn)產(chǎn)品。

回看 Kimi K2 的故事,也能看到「投人」這件事在 AI 時(shí)代被重新認(rèn)識(shí)的過程。Kimi 從一開始就是一個(gè)以技術(shù)視野和技術(shù)能力為底的團(tuán)隊(duì)。2023 年,AI 風(fēng)向幾乎月月在變,但楊植麟的團(tuán)隊(duì)押中了長文本這個(gè)方向,并基于此做出了第一個(gè)具備搜索能力的版本。這是一場(chǎng)面向未來的下注。

AI 正在讓人們?nèi)L試那些原本不會(huì)做的事。這次 IMO 金牌事件更讓我們看清 AGI 即將到來的信號(hào)。如果說過去我們只是遠(yuǎn)遠(yuǎn)望見一輛冒煙的火車,如今,已經(jīng)能清楚地聽見它的轟鳴聲了。

2025 年,屬于各行各業(yè)的「李世石時(shí)刻」,可能才剛剛開始。

OpenAI 拿下 IMO 金牌,又一個(gè)李世石時(shí)刻

Q:最近有哪幾件重要的事值得展開聊聊?

戴雨森:確實(shí)過去這個(gè)周末發(fā)生了很多事情。我覺得最重要的一件是 OpenAI 的一個(gè)新模型,在 IMO(國際數(shù)學(xué)奧林匹克)2025 年的題目上獲得了金牌級(jí)別的成績。具體來說是六道題做對(duì)了五道。

這個(gè)為什么重要呢?因?yàn)榘凑?OpenAI 的描述,這是一個(gè)沒有聯(lián)網(wǎng)的通用大語言模型,并且沒有針對(duì)數(shù)學(xué)做特別優(yōu)化,也沒有用任何 Code Interpreter 一類的工具。它完成的是 IMO 的證明題,而且 OpenAI 找了三位 IMO 的金牌得主來交叉驗(yàn)證,確認(rèn)這些解答是對(duì)的。

當(dāng)然,這個(gè)結(jié)果也引發(fā)了一些爭(zhēng)議。比如有些人指出它還沒有經(jīng)過官方認(rèn)證,因此不一定有效。陶哲軒也說,IMO 題目的解法路徑會(huì)有很多不同,最終得分也會(huì)不一樣。

注:7 月 22 日當(dāng)晚,Google DeepMind CEO Demis Hassabis 在 X 上發(fā)帖強(qiáng)調(diào),這一結(jié)果已經(jīng)獲得了奧賽組委會(huì)官方認(rèn)定。

但不管怎樣,這個(gè)結(jié)果是一個(gè)劃時(shí)代的進(jìn)展。語言模型沒有經(jīng)過特別的數(shù)學(xué)優(yōu)化,只在離線環(huán)境中就能解出 IMO 級(jí)別的證明題。像之前 Google 用 AlphaGeometry 是為數(shù)學(xué)專門設(shè)計(jì)的模型,還借助了形式化驗(yàn)證方法,并不具備泛化能力。

Q:這剛好是一年前的事,2024 年 7 月 Google 的 AlphaGeometry 達(dá)到了 IMO 銀牌的水準(zhǔn),當(dāng)時(shí)差一點(diǎn)到金牌。但那不是通用大語言模型,而這次 OpenAI 說是通用大模型。

戴雨森:對(duì),而且今年這個(gè)時(shí)間點(diǎn)正好是 IMO 出題的時(shí)間,OpenAI 是題目一出就做了,所以也不存在模型訓(xùn)練時(shí)提前見過這些題的情況。

雖然過去一年語言模型已經(jīng)有很多進(jìn)展,但像數(shù)學(xué)證明這樣的任務(wù),尤其是 IMO 這類題,屬于 hard to verify 的問題類型。驗(yàn)證一個(gè)答案是否正確本身就非常難。

這類問題一直以來都被認(rèn)為是當(dāng)前語言模型難以勝任的任務(wù)。并且現(xiàn)實(shí)中世界上大部分真正的問題,事先都是沒有標(biāo)準(zhǔn)答案和解法的。所以當(dāng)一個(gè)語言模型可以在沒有任何特別調(diào)教的前提下,解出這類高難度的題,達(dá)到人類頂尖水平時(shí),這意味著它的思考能力確實(shí)上了一個(gè)臺(tái)階。

OpenAI 也提到,這種能力可以通過延長思考時(shí)間進(jìn)一步提升,這也驗(yàn)證了 inference scaling law(推理擴(kuò)展定律)。

我們以前聊過,除了 pre-training,還有 post-training 和 inference scaling law。這次的結(jié)果說明:

1.LLM 的泛化能力很強(qiáng),能解決我們?cè)瓉碚J(rèn)為解決不了的問題;

2.模型能力越強(qiáng),可應(yīng)用的場(chǎng)景越多,所創(chuàng)造的價(jià)值也越大;

3.IMO 的證明題和現(xiàn)實(shí)中的某些理科的問題在形式邏輯上很相似,都是證明題。LLM 既然能做前者,也許說明它離發(fā)現(xiàn)新知識(shí)的能力也不遠(yuǎn)了。

目前它肯定還不能解決像哥德爾猜想這種超難問題,但發(fā)現(xiàn)理科新知識(shí)這件事,可能已經(jīng)是一步之遙了。

還有一個(gè)八卦:據(jù)說這次 OpenAI 使用的模型和 GPT-4o 是同一個(gè)底層模型。也就是說,取得這個(gè)成績并不是因?yàn)榈讓幽P陀泻艽筇嵘?,而是?post-training 和 inference 階段做出了優(yōu)化。后續(xù)的優(yōu)化空間給整個(gè) AI 發(fā)展帶來了很多想象。

Q:你是從一些技術(shù)人員那聽來的描述是嗎?

戴雨森:對(duì),簡(jiǎn)單打聽了一下。這事情也就 24 小時(shí)之內(nèi)發(fā)生的,但我感受非常強(qiáng)烈。

這讓我想到 2023 年 3 月微軟那篇論文《Sparks of AGI》,當(dāng)時(shí)他們測(cè)試 GPT-4 的預(yù)發(fā)布版本,感嘆從中看到了 AGI 的火花。那篇文章也就兩年半前,而現(xiàn)在我們已經(jīng)走到了能解 IMO 的地步。兩年半在科技進(jìn)步史中是很短的時(shí)間,甚至比很多創(chuàng)業(yè)公司從種子輪到產(chǎn)品發(fā)布還短。

那篇文章的作者后來加入了 OpenAI,他在看到這次OpenAI 模型獲得 IMO 金牌成績后說:這是「AI 的登月時(shí)刻」。

一個(gè)「只是預(yù)測(cè)下一個(gè)詞」的語言模型,在沒有任何工具輔助的情況下,能夠完成一個(gè)只有極少數(shù)天才人類才能做出的有創(chuàng)造性的數(shù)學(xué)證明。這確實(shí)說明 AI 的能力已經(jīng)到了一個(gè)新的高度。

我們年初錄節(jié)目《》時(shí)也說過:2024 年會(huì)是很多行業(yè)迎來「李世石時(shí)刻」的一年。所謂「李世石時(shí)刻」,就是 AI 在某個(gè)領(lǐng)域超越了人類最強(qiáng)水平。

我們已經(jīng)在圍棋、編程、數(shù)學(xué)推理等領(lǐng)域看到這種情況不斷出現(xiàn)。接下來還會(huì)有更多這樣的時(shí)刻等待著我們,解決我們?cè)疽詾檫€很難、很遠(yuǎn)的問題。

Q:而且我還看到一個(gè)信息:似乎不止 OpenAI 做到了。因?yàn)?OpenAI 發(fā)這個(gè)消息之后,一個(gè) Google 的研究員也在 X(原 Twitter)上發(fā)帖,說 OpenAI 搶先發(fā)布了。

戴雨森:我們也在拭目以待。好像 Google DeepMind 也做到了金牌,但我們不知道是不是用通用模型實(shí)現(xiàn)的。如果真是通用模型,那就說明這個(gè)能力已經(jīng)不只是一家掌握的。這種技術(shù)一旦擴(kuò)散開來,會(huì)帶來推理能力的大幅提升,不管是哪個(gè)模型廠商都會(huì)從中受益。

注:7 月 22 日,Google DeepMind 宣布,Gemini Deep Think 模型獲得官方認(rèn)證的 IMO 金牌,并公開了具體解題過程。這一通用模型僅用純自然語言(英語)完成了解題。

Q:你和國內(nèi)一些從業(yè)者交流過,他們對(duì)這個(gè)成果是感到吃驚,還是覺得其實(shí)也在預(yù)期之中?

戴雨森:我覺得方向大家早就知道,是朝著更強(qiáng) reasoning 能力去的。誰都知道 reasoning 能力提升了,模型就能解更難的題。但現(xiàn)在就能做到確實(shí)還是讓人很震驚。我聊到一些中國最頂尖的研究者,他們也表示非常驚訝。但就像原子彈一樣:爆炸那一刻起,大家知道這件事情可以做到,就已經(jīng)離做出來不遠(yuǎn)了。

Q:從技術(shù)進(jìn)展的角度看,圍棋、編程、數(shù)學(xué)是三個(gè)典型的「李世石時(shí)刻」。你怎么看這三個(gè)的不同影響?

戴雨森:數(shù)學(xué)推理其實(shí)比編程更難。

編程屬于好驗(yàn)證的問題。強(qiáng)化學(xué)習(xí)在編程上容易成功,一大原因是因?yàn)樗?reward 清晰。代碼能運(yùn)行、能通過 test case 就說明結(jié)果是對(duì)的。

但數(shù)學(xué)證明題的判卷是非常復(fù)雜的。IMO 就是典型的「hard to produce, hard to verify」的問題。

圍棋是一個(gè)雙方信息公開且完備、勝負(fù)明確的任務(wù),非常適合強(qiáng)化學(xué)習(xí);編程也是結(jié)構(gòu)化任務(wù),而且很多代碼是已有人寫過的,拼裝比全新創(chuàng)造多。

但數(shù)學(xué)是理工科的基礎(chǔ),它的推理是很多學(xué)科的根基。而且不依賴自然世界實(shí)驗(yàn),只靠邏輯思維。所以 AI 能解 IMO 級(jí)別的證明題,意味著理工科很多知識(shí)生成方式可能都要改變,帶來的科學(xué)進(jìn)步可能比編程還大。

Q:你覺得這個(gè)應(yīng)用影響會(huì)更大?

戴雨森:有可能更大。因?yàn)榫幊态F(xiàn)在替代的是一些重復(fù)性較高的初級(jí)工作,比如 Vibe Coding 大部分還是復(fù)制粘貼一些前端代碼。但數(shù)學(xué)推理帶來的是非常強(qiáng)的思考和潛在的新知識(shí)發(fā)現(xiàn)能力。顯然,這是更值錢的部分。

AI 會(huì)不斷替代簡(jiǎn)單任務(wù),而人類往更有價(jià)值、更難的方向走。但現(xiàn)在 AI 正在追著人類解決那些最有價(jià)值的難題。

這就是為什么我說這次 IMO 金牌事件讓我更清晰地看到了 AGI 即將到來的信號(hào)。如果以前是遠(yuǎn)處看到一輛冒煙的火車,現(xiàn)在已經(jīng)能聽到它的轟鳴聲了。

Q:有人在 X(原 Twitter)上說強(qiáng)化學(xué)習(xí)現(xiàn)在也能處理那些獎(jiǎng)勵(lì)反饋不是很直接的領(lǐng)域。這可能是這次進(jìn)展背后更大的突破之一。還有人提到「驗(yàn)證的非對(duì)稱性」,說有些任務(wù)你做出來的時(shí)間可能比驗(yàn)證時(shí)間還短。IMO 數(shù)學(xué)題就屬于這種類型。

戴雨森:對(duì),以前很多任務(wù)是「hard to produce, easy to verify」,比如寫代碼。但現(xiàn)在變成了「hard to produce, hard to verify」。

Q:不過有人認(rèn)為,在這些驗(yàn)證成本高的任務(wù)上,AI 還很難完全替代人,因?yàn)樽罱K還得靠人來判斷。

戴雨森:有可能。但光是給出證明這一點(diǎn),其實(shí)就已經(jīng)是質(zhì)的飛躍?,F(xiàn)在我們還不知道所有細(xì)節(jié),但我們期待更多公開信息,或其他模型公司復(fù)刻類似成果。按照目前 AI 的發(fā)展速度,只要一件事被做到,那它就已經(jīng)不是遙不可及的難題了。

ChatGPT Agent 發(fā)布,「殼」的價(jià)值在于 context

Q:7 月 18 日凌晨,OpenAI 發(fā)布了 ChatGPT Agent。不過和 Manus 不同,這個(gè) Agent 讓很多人其實(shí)覺得有點(diǎn)失望,沒有那么驚艷。

戴雨森:我覺得這反映了 OpenAI 作為 AI 的領(lǐng)頭羊、最大的 AI 應(yīng)用公司,他們也把 Agent 作為重要的方向。就像我們年初就開始討論的:理解目標(biāo)、拆解規(guī)劃、編程使用工具、對(duì)結(jié)果進(jìn)行復(fù)盤和反思。從一開始的構(gòu)想,到 Devin、Manus 等第一波產(chǎn)品的出現(xiàn),再到 ChatGPT Agent 的發(fā)布,Agent 確實(shí)逐漸成為了AI 應(yīng)用的共識(shí),變成了大家聚焦的方向。

Q:有人說「OpenAI 發(fā)了一個(gè) Manus」,你怎么看?

戴雨森:我們不會(huì)這么想。我覺得不能低估 OpenAI。他們有最多的人、最多的卡、最多的用戶,在安全性上也做了很多考量,加了很多額外約束。其實(shí) ChatGPT Agent 的能力是被限制得很死的,這是負(fù)責(zé)任的表現(xiàn)。

這個(gè)產(chǎn)品也是他們第一個(gè)在 AI 安全性評(píng)估中被列為「高危險(xiǎn)級(jí)別」的,說明他們確實(shí)擔(dān)心這類 Agent 會(huì)遇到比如釣魚網(wǎng)站、或者生物武器信息等風(fēng)險(xiǎn)(詳見 OpenAI 發(fā)布的 ChatGPT agent System Card)。當(dāng)公司變大,就會(huì)變得更謹(jǐn)慎;這也反過來說明了創(chuàng)業(yè)公司的行動(dòng)力快、敢于突破的機(jī)會(huì)所在。

Q:我覺得「發(fā)了個(gè) Manus」的說法也不一定是說效果不好,更多是說產(chǎn)品形態(tài)。它其實(shí)把 Operator 和 Deep Research 結(jié)合起來了,形態(tài)上有點(diǎn)像 Manus 或 Genspark。

戴雨森:是的,Manus 確實(shí)探索出了一個(gè)方向:讓 AI 在做什么可以被直觀看到,讓人理解背景,否則如果只看到最后的結(jié)果,會(huì)很困擾。所以我們看到 Manus、Genspark、Kimi,還有 MiniMax 等中國團(tuán)隊(duì)也在針對(duì) OpenAI 的 Task,用自己已經(jīng)發(fā)布的線上 Agent 做對(duì)比。不得不說,這些公司的產(chǎn)品在很多維度上的表現(xiàn),比如做 PPT 的任務(wù),確實(shí)比 ChatGPT Agent 要好。

Q:ChatGPT Agent 做出來的 PPT 真的有點(diǎn)丑。

戴雨森:但這讓我有幾個(gè)啟發(fā):

第一,中國團(tuán)隊(duì)在產(chǎn)品力上確實(shí)不錯(cuò)。移動(dòng)互聯(lián)網(wǎng)時(shí)代就有很多例子,比如 TikTok、Shein、剪映,中國團(tuán)隊(duì)確實(shí)做出了很多好產(chǎn)品。

第二,所謂的「套殼」產(chǎn)品,也就是調(diào)用 API 的應(yīng)用,并不會(huì)就一定被 model native 產(chǎn)品吊打。之前大家以為 OpenAI 下場(chǎng),訓(xùn)練的模型能端到端處理,就能完全替代第三方。但其實(shí)不然,尤其 Agent 需要更多 context 和工具,很多都依賴殼和應(yīng)用本身提供的環(huán)境。

Manus 分享的那篇關(guān)于 Context Engineering 的文章《》就收到很多好評(píng)。因?yàn)檫@就是一個(gè)大家現(xiàn)在都在解決的問題,里面有很多實(shí)踐是需要時(shí)間和經(jīng)驗(yàn)的。

我理解,Context Engineering 最早是來自于 Prompt Engineering。Prompt Engineering 就是給 AI 一個(gè)命令、一個(gè)任務(wù),然后 AI 自己去做事。這很像傳統(tǒng)管理方式:老板布置任務(wù),員工去執(zhí)行。而像 Netflix、字節(jié)等先進(jìn)公司強(qiáng)調(diào)的「Context, not control」,意味著要給員工更多上下文和授權(quán),才能更好完成任務(wù)。Context Engineering 也是類似的道理:我們要給模型提供的是能夠幫助它更好完成任務(wù)的上下文。

第一個(gè)層面,就是單個(gè) session,看我們?cè)趺刺峁└玫纳舷挛摹⒏玫臄?shù)據(jù)、以更適合模型操作的格式去處理它。

第二個(gè)層面,是多 session 或跨 session 的個(gè)性化記憶:比如說今天做了什么,明天再做對(duì)應(yīng)的事,用戶的偏好、習(xí)慣、工作經(jīng)驗(yàn),能不能累積?這個(gè)長期可能成為護(hù)城河。因?yàn)橥瑯拥哪P?,誰有更好的上下文,它就更懂我。

第三個(gè)層面,是產(chǎn)品設(shè)計(jì)本身可以提供模型原本獲取不到的上下文。比如大家設(shè)想的一個(gè)還沒做出來的產(chǎn)品:戴個(gè)眼鏡可以實(shí)時(shí)看到周圍世界。這樣的 context 是模型自己無法產(chǎn)生的,必須通過好的硬件與軟件設(shè)計(jì)來實(shí)現(xiàn),也說明了產(chǎn)品層的價(jià)值。

Q:你說的眼鏡能看到的數(shù)據(jù),是現(xiàn)在所有互聯(lián)網(wǎng)巨頭都沒有的。

戴雨森:對(duì)。所以從 ChatGPT Agent 的發(fā)布,我覺得可以看到三點(diǎn):

第一,Agent 方向逐漸達(dá)成共識(shí);

第二,創(chuàng)業(yè)公司在模型核心巨頭面前,依然有靈活性、先發(fā)優(yōu)勢(shì)和競(jìng)爭(zhēng)力;

第三,進(jìn)一步印證了我們之前說的兩個(gè)被低估:模型進(jìn)步速度被低估了,產(chǎn)品「殼」的價(jià)值也被低估了。

模型這條線,OpenAI 這周剛拿下了 IMO 金牌,說明它的進(jìn)步速度還是很快。而 OpenAI 自己做的 ChatGPT Agent 還有很大提升空間,說明「殼」的價(jià)值也非常重要。所以我覺得模型和應(yīng)用都被低估了。

Q:你剛說的 context 的價(jià)值特別好。它其實(shí)和管理學(xué)也打通了,比如 Netflix 的那本書《No Rules Rules》最開始就講了這個(gè)邏輯。AI 確實(shí)很像一個(gè)人,你要教它、要給上下文,比起給它具體指令,這可能是更好的方式。

戴雨森:第一階段大家都在寫更好的 prompt,就像老板寫 brief。后來發(fā)現(xiàn)要加更多示例、更好的上下文、更適合模型工作的環(huán)境。這其中有很多具體技巧。Manus 的文章就分享了很多。我想說的是,更多的 context 帶來模型能力的提升,也反映出我們對(duì) AI 的使用越來越深入,產(chǎn)品本身也越來越完善。以前一句 prompt 就能跑,現(xiàn)在產(chǎn)品本身要承擔(dān)更多事情,產(chǎn)品公司的價(jià)值也在這里體現(xiàn)。

Q:你覺得這一層的應(yīng)用價(jià)值,什么時(shí)候會(huì)被模型本身做掉?是不是等到模型具備在線學(xué)習(xí)能力、能不斷吸收新的上下文的時(shí)候?

戴雨森:也得看你的產(chǎn)品有沒有用戶 input。如果沒有用戶輸入,那模型再怎么學(xué)習(xí)也沒法學(xué)到用戶自己獨(dú)特的東西。

Q:所以是不是又回到一個(gè)曾經(jīng)被否認(rèn)的邏輯?以前移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶越多,數(shù)據(jù)反饋越多,推薦越準(zhǔn),有一個(gè)數(shù)據(jù)飛輪。但后來大家覺得大模型里用戶輸入對(duì)模型智能提升沒啥幫助。但你剛剛的意思是:用戶輸入對(duì)上下文是有幫助的。

戴雨森:這是兩個(gè)不同的問題。大家說的數(shù)據(jù)飛輪失效,指的是用戶的聊天記錄不能提升模型智能。這我同意。因?yàn)楝F(xiàn)在模型的智能已經(jīng)超過普通人。你跟它聊些日常話題,沒法提升它的能力。

最開始模型通過 RLHF(人類反饋強(qiáng)化學(xué)習(xí)) 來學(xué)習(xí)人類偏好,現(xiàn)在來看普通人反饋意義不大。比如 AI 都能解 IMO 的題了,為什么還要在意普通人覺得哪個(gè)答案更好?所以對(duì)于有標(biāo)準(zhǔn)答案的任務(wù),用戶輸入越來越?jīng)]什么價(jià)值。

但如果是完成一個(gè)具體工作,比如 Agent 在完成人類工作時(shí)怎么更好達(dá)成目標(biāo),這時(shí)用戶的輸入和喜好當(dāng)然有用。

Q:所以用戶數(shù)據(jù)其實(shí)對(duì)產(chǎn)品體驗(yàn)是有幫助的,但不一定能直接提升模型能力?

戴雨森:是的,尤其是在智能能力或者那種有標(biāo)準(zhǔn)答案的任務(wù)上。最開始大模型可以看作是對(duì)大量人類平均智能的一種壓縮。當(dāng)時(shí)特德·姜(Ted Chiang)不是就說過,語言模型本質(zhì)上是對(duì)互聯(lián)網(wǎng)的模糊壓縮嗎?但現(xiàn)在,它顯然已經(jīng)超越了普通人的水平,達(dá)到了某種超人水平。在這個(gè)階段,簡(jiǎn)單的數(shù)據(jù)可能就沒那么有用了。

Q:現(xiàn)在這個(gè)時(shí)間點(diǎn),是越早做 Agent 越好嗎?因?yàn)槟惴e累的用戶上下文越多,價(jià)值也越大。之前大家可能擔(dān)心新的強(qiáng)模型會(huì)把已有產(chǎn)品淹沒掉。

戴雨森:如果你沒有上下文、沒有環(huán)境,最后只是調(diào)模型,那確實(shí)可能被新模型取代。

AI 應(yīng)用普及:最重要的、被高估的、被低估的

Q:上次我們聊是二月份,轉(zhuǎn)眼到現(xiàn)在差不多五個(gè)月了。今年已經(jīng)過去一半,回頭看,你覺得 2025 年上半年 AI 領(lǐng)域發(fā)生的幾件最重要的事是什么?

戴雨森:整體來說,AI 已經(jīng)從一個(gè)偏研究性質(zhì)、看起來很新穎但實(shí)用性有限的技術(shù),進(jìn)入到了主流市場(chǎng)。上半年我認(rèn)為有幾個(gè)重大進(jìn)展。

第一,是 AI 在編程領(lǐng)域的突破。Coding 已經(jīng)成為 AI 應(yīng)用的重中之重。我今天還聽說 OpenAI 現(xiàn)在已經(jīng)有三個(gè)業(yè)務(wù)線:GPT、API 和 Coding。用戶也發(fā)現(xiàn) AI coding 產(chǎn)品非常有用,也愿意為此付費(fèi)。Cursor 等 AI 編程工具的成長速度就是一個(gè)代表。Claude Code 也有人稱是 L3 或 Agent 級(jí)別的產(chǎn)品,能比人類寫得更快更好,代碼更優(yōu)雅,還能處理更大的代碼庫。所以 AI 在編程領(lǐng)域已經(jīng)正式跨越鴻溝,進(jìn)入了主流市場(chǎng)。

第二,是 o3 在四月的正式發(fā)布,伴隨著 ChatGPT 用戶的高速增長,這是推理模型的持續(xù)演進(jìn)。從去年下半年開始我們就看到 OpenAI 推出 o1、R1,到今年的 o3,它標(biāo)志著推理問答、題解這些能力從科研層面進(jìn)入到了普通用戶可以使用的產(chǎn)品,是真正的落地了。

ChatGPT 的用戶增長還在持續(xù),這一波也受益于 o3 推理能力的提升。我們也看到年初中國這邊的突破,比如 R1 是國內(nèi)在 reasoning 上邁出的重要一步,Kimi Researcher 也是第一個(gè)廣泛可用的 deep research 類產(chǎn)品,用戶反饋很好。AI 在這個(gè)領(lǐng)域已經(jīng)比絕大多數(shù)人做得更好了,也是跨越鴻溝。

第三,是 Agent 應(yīng)用開始普及。比如 Devin 是第一個(gè)讓人看到 L3 Agent prototype 的產(chǎn)品。Manus 和 Genspark 都是在三月發(fā)布,Claude Code 也在不斷完善。我們看到隨著模型在推理、編程、工具使用這三大能力的增強(qiáng),出現(xiàn)了第一批具備完整 Agent 形態(tài)的產(chǎn)品:它們能接收模糊目標(biāo),自主調(diào)用工具,尋找解決方案,評(píng)估任務(wù)進(jìn)度,并最終完成任務(wù)。雖然它們還不算主流,但已經(jīng)進(jìn)入 Early Adopter 階段,部分場(chǎng)景下用戶非常愿意用。盡管還有不少問題,但 Agent 已經(jīng)變得有用了,這是上半年 AI 應(yīng)用領(lǐng)域最重要的進(jìn)展之一。

第四,是多模態(tài)能力的快速進(jìn)步,尤其是圖像生成。從早期像玩具一樣的工具,變成了實(shí)實(shí)在在的生產(chǎn)力工具。比如 ChatGPT 的圖像生成對(duì)語義的跟隨非常好,能準(zhǔn)確理解用戶意圖?,F(xiàn)在很多人用 AI 來畫漫畫、畫流程圖、做視覺內(nèi)容。這種生成能力的提升已經(jīng)變得非常實(shí)用。

Q:它也能支持 Agent 做出更豐富的輸出,對(duì)吧?

戴雨森:對(duì),因?yàn)樗闹噶罡S能力越來越強(qiáng),能更好滿足用戶需求。原來是像抽卡那樣的不確定性,現(xiàn)在已經(jīng)越來越好了。直播頭像好多都變成了 AI 生成的。

Veo3 也是一個(gè)很厲害的模型。它加入語音配音后,我發(fā)了個(gè)朋友圈感嘆,它生成的世界已經(jīng)接近真相難辨的虛擬世界了。Veo3 第一次讓我有一種跨越恐怖谷的感覺,真假難辨。

第五,是搶人大戰(zhàn)。無論是 Meta 的大規(guī)模挖人,還是創(chuàng)業(yè)公司瘋狂融資,再到 Windsurf 最近收購的 drama,都說明硅谷對(duì)人才的爭(zhēng)奪和資本競(jìng)爭(zhēng)進(jìn)入了一個(gè)新的階段。我們?cè)趪鴥?nèi)也感受到類似熱度:融資額上升、項(xiàng)目搶手、一個(gè)月融資幾輪的情況又出現(xiàn)了。這背后是因?yàn)榇蠹艺娴目吹搅?AI 正在落地,不再只是概念,很多已經(jīng)實(shí)實(shí)在在地產(chǎn)生收入了。

Q:你關(guān)注的主線還是圍繞 AI 的應(yīng)用普及,技術(shù)的變化是原動(dòng)力,對(duì)嗎?

戴雨森:我們認(rèn)為模型基礎(chǔ)能力的提升是解鎖應(yīng)用場(chǎng)景的關(guān)鍵。模型能力配合好的產(chǎn)品設(shè)計(jì),才能真正釋放價(jià)值。一個(gè)真正有價(jià)值的 AI 應(yīng)用,一定能通過某種方式讓用戶付費(fèi),比如訂閱或按工作交付。所以我們特別關(guān)注 AI 在提升生產(chǎn)力方面的價(jià)值,尤其是在數(shù)字世界里的應(yīng)用??梢钥吹轿覀兺兜暮芏嗍?AI Agent 或者 AI 生產(chǎn)力方向的項(xiàng)目,因?yàn)檫@是當(dāng)下最能真正幫用戶解決問題的場(chǎng)景。

Q:除了你說的應(yīng)用這條主線,其實(shí) AI 硬件也很熱,比如機(jī)器人,具身智能其實(shí)也在 AI 產(chǎn)業(yè)鏈上。

戴雨森:是的,但我認(rèn)為上半年有一個(gè)被高估的方向,就是人形機(jī)器人。特斯拉最近下調(diào)了對(duì) Optimus 的生產(chǎn)預(yù)期,我覺得很有代表性。

去年我就說過,大家對(duì) Optimus 進(jìn)工廠打螺絲的期待值太高了。當(dāng)時(shí)有人說 2025 年特斯拉就能有一萬個(gè)機(jī)器人進(jìn)廠干活,這完全低估了 manipulation(操作控制)的難度?,F(xiàn)在我們看到的一些 demo 確實(shí)越來越好,比如疊衣服,但真的要機(jī)器人做出一杯咖啡,還是非常難的。

當(dāng)然,我認(rèn)為這個(gè)領(lǐng)域還在快速發(fā)展,在未來幾年可能會(huì)看到 manipulation 的「ChatGPT 時(shí)刻」突破,但如果期待 2025 年就能大規(guī)模落地,我覺得是大大高估了。

技術(shù)的發(fā)展不能拔苗助長,必須經(jīng)歷:方向確定、逐漸放大、形成產(chǎn)品、再到大規(guī)模落地,這幾個(gè)階段,沒法跳過。機(jī)器人目前顯然還處在早期探索階段。

Q:另一方面,你覺得這半年有沒有一些被低估的事情、公司或者現(xiàn)象?

戴雨森:我覺得首先,應(yīng)用的價(jià)值還是在被低估的。一年前,大家還在講模型公司會(huì)顛覆應(yīng)用公司,說「應(yīng)用只是套殼」,這個(gè)業(yè)務(wù)模式不成立。當(dāng)時(shí)不管是 Manus、Genspark,還是很多其他公司,都經(jīng)歷了不少質(zhì)疑,說:「你是一個(gè)殼公司,有沒有長期價(jià)值?是不是模型一升級(jí)你就完了?」

現(xiàn)在這個(gè)爭(zhēng)論雖然還在繼續(xù),但顯然不是模型升級(jí)了應(yīng)用公司就會(huì)完蛋。相反,好的應(yīng)用公司是期待模型升級(jí)的,這樣可以讓用戶享受更強(qiáng)大的體驗(yàn)?!笟ぁ沟膬r(jià)值仍被低估了。

第二,優(yōu)秀團(tuán)隊(duì)的價(jià)值也在被低估。不管是 Kimi、Manus,還是 Genspark,我們歸根結(jié)底是投人。

大家之前可能不會(huì)料到,肖弘能做出一個(gè)世界級(jí)的 AI 應(yīng)用。而幾天前發(fā)布的 Kimi K2,在 7 月 15 日這個(gè)時(shí)間點(diǎn),可以說是全球最強(qiáng)的開源大模型,沒有之一。它在 coding、Agent 工作流和中文寫作等方面的表現(xiàn),確實(shí)優(yōu)于 Claude。當(dāng)然,Claude 是在年初發(fā)布的,但在 AI 這個(gè)領(lǐng)域,六個(gè)月就相當(dāng)于很久了。

OpenRouter 上的調(diào)用數(shù)據(jù)顯示,K2 剛上線沒幾天,昨天還在編程類目里排第 13,今天就升到了第 10,前面是 Claude、Gemini、GPT。這種上升速度是非??斓?,說明用戶反饋非常好,但現(xiàn)在大家其實(shí)已經(jīng)對(duì) benchmark 麻木了。我們更看重實(shí)際用戶的使用反饋。

比如 Perplexity 的創(chuàng)始人就在推特上說,他們團(tuán)隊(duì)已經(jīng)開始調(diào)研在 Perplexity 上引入 K2,也明確表示:Kimi 做得非常好。

Kimi 是最典型的例子,但不是唯一的。我們也討論過 DeepSeek 后他們團(tuán)隊(duì)的轉(zhuǎn)型問題,Kimi 背后的 Moonshot 也經(jīng)歷了很多復(fù)盤,并集中精力攻堅(jiān)下一代模型。我覺得外界太容易在很早期就下結(jié)論,比如說 DeepSeek 出來的六小龍公司是不是都不行了。但實(shí)際上,如果一個(gè)團(tuán)隊(duì)足夠穩(wěn)定,有優(yōu)秀人才、有資源、有意志,那他們的主觀能動(dòng)性和突破空間遠(yuǎn)遠(yuǎn)被低估了。

第三,我覺得模型能力進(jìn)化的速度也被低估了。比如現(xiàn)在已經(jīng)有傳言說 GPT-5 很快就要發(fā),它可能是一個(gè)原生多模態(tài)、推理能力非常強(qiáng)、具備高級(jí) Agent 能力的模型。

現(xiàn)在新產(chǎn)品發(fā)布的時(shí)候往往會(huì)被噴,說畫了大餅但實(shí)際上產(chǎn)品體驗(yàn)沒有那么好。但好的應(yīng)用公司需要為 6 到 12 個(gè)月后的模型設(shè)計(jì)。比如 Cursor 一開始發(fā)布的時(shí)候,當(dāng)時(shí)的模型還無法實(shí)現(xiàn)它的完整愿景,直到 Claude 3.5 Sonnet 出來,Cursor 才真正成為一個(gè)好用的產(chǎn)品。

Manus 在設(shè)計(jì)時(shí)能用的最好模型是 Sonnet 3.5,發(fā)布時(shí) Sonnet 3.7 剛上線,Manus 因此能夠完成一些更復(fù)雜的任務(wù),之后Claude 4,Gemini 2.5 Pro 等新模型的發(fā)布也進(jìn)一步提升了 Manus 的表現(xiàn)。也許再需要 1-2 個(gè)模型的大版本迭代,才能夠充分讓主流用戶感受到 Agent 帶來的生產(chǎn)力提升。

所以我們認(rèn)為,未來模型的能力提升仍然非???,也許很快就會(huì)有讓大家震驚的發(fā)布出現(xiàn)。那時(shí),模型增長和應(yīng)用價(jià)值可能都將超出市場(chǎng)預(yù)期,整個(gè) AI 發(fā)展節(jié)奏也會(huì)再度加快。

Q:這半年還有一個(gè)我之前沒有想到的新變化,就是最近非常激烈的外賣大戰(zhàn)。因?yàn)橥赓u大戰(zhàn)這件事情牽扯了好幾個(gè)巨頭的精力和資源,包括阿里、美團(tuán)和京東。你覺得這個(gè)會(huì)怎么影響中國的 AI 的格局,或者說對(duì)創(chuàng)業(yè)公司來說,它可能會(huì)有什么影響?

戴雨森:現(xiàn)在看其實(shí)還是兩個(gè)戰(zhàn)場(chǎng)。從長期看,可能會(huì)對(duì)資源投入產(chǎn)生一些影響。

但我看阿里云的增速預(yù)期還是挺高的。今天 Jensen 還宣布可以重新向中國銷售 H100。我們看到,今年美國的 IDC 和云服務(wù)增長得非??欤?yàn)閼?yīng)用落地之后推理的用量會(huì)大幅增長。

我認(rèn)為中國市場(chǎng)的發(fā)展路徑也會(huì)是類似的。當(dāng) Kimi、字節(jié)、DeepSeek 等公司推出更好的模型后,更多場(chǎng)景被解鎖,推理的算力需求也會(huì)很快爆發(fā)。知識(shí)工作者在中美其實(shí)都很像,大家都用 Office、都要搜索、都用 deep research 工具,在美國市場(chǎng)已經(jīng)驗(yàn)證的這些需求場(chǎng)景在中國遲早也會(huì)爆發(fā)。

當(dāng)然這跟外賣大戰(zhàn)沒什么直接關(guān)系。但比如說阿里云、火山云這些中國云服務(wù)商,可能也會(huì)經(jīng)歷一次美國那樣的增長過程。

從 DeepSeek 出發(fā),不同公司各有演進(jìn)之路

Q:我們接下來圍繞一些具體的方向聊聊,你覺得為什么 DeepSeek 還沒發(fā)布 R2?

戴雨森:這個(gè)現(xiàn)在還是挺神秘的,我們也只能通過一些外圍信息去了解。我聽說現(xiàn)在 V4 還在訓(xùn)練階段。因?yàn)樗麄儺?dāng)時(shí)是先發(fā)了一個(gè) V3,然后再發(fā) R1,那現(xiàn)在 V4 都還沒補(bǔ)發(fā),聽說還在訓(xùn)練中,那 R2 的發(fā)布時(shí)間可能就要等到 V4 之后了。但我相信 DeepSeek 肯定在做很多有意思的創(chuàng)新。我們也和里面的一些同學(xué)聊過,知道他們的創(chuàng)新能力是非常強(qiáng)的。不過我覺得他們也確實(shí)會(huì)受到算力資源的限制。畢竟卡的總量是有限的,而且他們發(fā)布模型之后,還有大量的算力要用來做推理(inference)。

Q:對(duì),我覺得他們現(xiàn)在可能也在思考模型或者智能未來的演進(jìn)方向,基本上還是不做多模態(tài)。

戴雨森:對(duì),這其實(shí)反映了一個(gè)很現(xiàn)實(shí)的情況:DeepSeek 的資源沒有多到可以在所有領(lǐng)域?qū)?biāo) SOTA。所以就像 Claude 背后的 Anthropic 一樣,他們要做一些判斷:哪些方向在當(dāng)前階段最重要、最能出結(jié)果,然后集中資源突破;而對(duì)于一些尚不明朗的方向,他們可以等等,等到思路更清晰之后,再利用自己的工程能力和團(tuán)隊(duì)的努力趕上。

而字節(jié) Seed 現(xiàn)在可能是在試圖做到全面領(lǐng)先:他們有 Edge 組去做最前沿的研究,有 Focus 組去沖擊 SOTA,還有 Base 組去做服務(wù)產(chǎn)品應(yīng)用。這種是全棧型的布局。

相比之下,DeepSeek 更有選擇性,比如重點(diǎn)突破模型智能。當(dāng)資源不那么充足時(shí),確實(shí)需要做一些取舍。像 Seed 這樣的組織結(jié)構(gòu),把 Edge、Focus、Base 三個(gè)方向明確分開,我覺得是更明確的。

Q:對(duì),他們現(xiàn)在就是這種比較明確的分工結(jié)構(gòu)。Edge 一開始列了五個(gè)方向,現(xiàn)在可能已經(jīng)擴(kuò)展到了十幾個(gè)項(xiàng)目,確實(shí)挺厲害的。

戴雨森:我覺得把應(yīng)用和研究分開,再把研究中的 SOTA 和 Frontier 部分繼續(xù)細(xì)分,是比較對(duì)的做法。之前大家可能就是分成 Frontier 和 Applied Research,但那時(shí)候資源不夠,組織的職責(zé)也不夠明確。普遍的問題是:如果你讓一個(gè)模型團(tuán)隊(duì)既要做前沿研究追趕 SOTA,甚至超越 SOTA,同時(shí)又要滿足 App 的落地需求,這兩個(gè)目標(biāo)是很容易沖突的。

Kimi 在過去半年其實(shí)也總結(jié)了很多這方面的經(jīng)驗(yàn)。如果有個(gè)大用戶量的應(yīng)用在線上,需要花大量精力去維護(hù),處理各種 corner case,修 bug。但這些工作其實(shí)對(duì)推動(dòng)下一代模型、挑戰(zhàn) SOTA 的幫助是有限的。今年就沒有投入太多精力在 K1 的迭代和應(yīng)用功能上,而是專注于做下一代模型,來拓展模型智能的邊界。

Q:這也是我們以前反復(fù)會(huì)問大模型創(chuàng)業(yè)公司創(chuàng)始人的一個(gè)問題:你一邊做模型,一邊做產(chǎn)品,中間的精力怎么分配?

戴雨森:目前來看,我覺得還是要先把一個(gè)方向做到極致。比如你如果是做應(yīng)用的,那就假設(shè)自己能用上最好的模型,誰最強(qiáng)、最合適就用誰。但如果你是做模型的,那目標(biāo)就是讓自己的模型保持在 SOTA 水準(zhǔn),在某個(gè)具體領(lǐng)域做到最強(qiáng)。

投人的價(jià)值,K2 如何逆風(fēng)翻盤

Q:我想聊一下 Kimi K2。今年年初 DeepSeek 引發(fā)熱潮后,Kimi 內(nèi)部也有了一個(gè)比較明確的目標(biāo),就是要追求 SOTA。在這個(gè)目標(biāo)下,K2 應(yīng)該是他們做出方向調(diào)整后第一個(gè)比較重磅的成果。你對(duì)這個(gè)過程是怎么理解的?

戴雨森:我想先講個(gè)小故事。前幾天,暗涌在良渚組織了一個(gè)圓桌,把投資了 Kimi 和 MiniMax 的投資人都請(qǐng)到一塊。我還開玩笑說,這像是一個(gè)「同情局」,仿佛我們投了大模型公司,很慘該被同情。但我覺得,其實(shí)真正體現(xiàn)一個(gè)團(tuán)隊(duì)能力的,是他們面對(duì)挑戰(zhàn)時(shí)的應(yīng)對(duì)方式,以及是否堅(jiān)持自己的路線去做有價(jià)值的創(chuàng)新。

順風(fēng)的時(shí)候有順風(fēng)的打法,逆風(fēng)的時(shí)候也有逆風(fēng)的打法。像 MiniMax,他們專注自己的方向,現(xiàn)在也在推進(jìn)上市流程。這就是他們面對(duì)挑戰(zhàn)的方式。當(dāng)然,也有一些公司在逆風(fēng)中內(nèi)部團(tuán)隊(duì)發(fā)生較大變化,甚至業(yè)務(wù)方向都有調(diào)整。但我覺得 Kimi 特別的一點(diǎn),是他們的團(tuán)隊(duì)非常穩(wěn)定。如果你看他們的創(chuàng)始團(tuán)隊(duì)或核心成員,幾乎沒有大的變動(dòng)。

Q:這其實(shí)就是我第一個(gè)好奇的點(diǎn)。現(xiàn)在很多公司到了聯(lián)合創(chuàng)始人或核心業(yè)務(wù)負(fù)責(zé)人層面,都會(huì)有一些變化,但 Kimi 基本沒怎么變。

戴雨森:這可能跟他們的團(tuán)隊(duì)組成有關(guān)。Kimi 的創(chuàng)始團(tuán)隊(duì)一直是以植麟為核心,而且成員是清華的老同學(xué),之間合作很多,甚至是室友還一起玩過樂隊(duì)。并不是因?yàn)橐龃竽P凸静排R時(shí)組起來的。

Q:我查閱資料時(shí)發(fā)現(xiàn),當(dāng)年楊植麟去評(píng)特獎(jiǎng)的時(shí)候,有一張照片是他們系的一些同學(xué)舉著橫幅去支持他。幾位他們系的師弟師妹都會(huì)說,楊植麟在當(dāng)時(shí)就是一個(gè)讓大家覺得非常有號(hào)召力的人。

戴雨森:沒錯(cuò),這也是我們從一開始就決定投資他們的重要原因之一。這個(gè)團(tuán)隊(duì)不僅有技術(shù),而是有很長的共同信任。創(chuàng)業(yè)會(huì)經(jīng)歷很多挑戰(zhàn),如同壓力測(cè)試,在面對(duì)挑戰(zhàn)的時(shí)候,團(tuán)隊(duì)穩(wěn)定和方向聚焦會(huì)很重要。

Kimi 這個(gè)團(tuán)隊(duì)從一開始就是以技術(shù)基因和技術(shù)視野作為核心能力的。很多人可能已經(jīng)忘了,在 2023 年的時(shí)候,AI 的變化太快,幾乎每個(gè)月都有新風(fēng)向。當(dāng)時(shí),Kimi 就對(duì)長文本這個(gè)方向做出了很重要的判斷,選擇做了一個(gè)具備長文本能力的模型,并基于這個(gè)推出了帶搜索能力的 Kimi 第一個(gè)版本。

那時(shí)大量的 AI chatbot 其實(shí)是沒有搜索功能的。沒有搜索,模型的用途就會(huì)受到很大限制,比如你隨便問一個(gè)「現(xiàn)在的美國總統(tǒng)是誰」,它都可能答不上來。

Kimi 團(tuán)隊(duì)當(dāng)時(shí)對(duì)長文本技術(shù)方向的判斷就展現(xiàn)了他們非常強(qiáng)的技術(shù) vision。到了 2025 年,AI 更強(qiáng)調(diào) Agent 能力、復(fù)雜任務(wù)執(zhí)行、以及處理更大的代碼庫,大家才真正意識(shí)到長文本的重要性。如果你真的要讓 AI 做一個(gè) Agent,完成一個(gè)復(fù)雜任務(wù),它不能只是執(zhí)行 100 步就歇了?;仡^看,其實(shí)這也驗(yàn)證了植麟判斷上的準(zhǔn)確。

所以我覺得他們團(tuán)隊(duì)身上,有三個(gè)特別重要的品質(zhì):

第一是團(tuán)隊(duì)的穩(wěn)定性。這來自于成員之間長期的淵源和信任。

第二是對(duì)技術(shù)方向的堅(jiān)持。他們不是看到哪個(gè)火就往哪兒跟風(fēng),比如陪伴火了去做陪伴,多模態(tài)火了又去做多模態(tài)。很多方向都可以做,但真正有積累的是那些持續(xù)做一件事的團(tuán)隊(duì)。

第三是他們一直保持的技術(shù)敏感度和洞察力。這個(gè)在技術(shù)變化的關(guān)鍵節(jié)點(diǎn)上尤其重要。

當(dāng)然 R1 的成功也確實(shí)給了行業(yè)很多啟發(fā),這一點(diǎn)毫無疑問。當(dāng)時(shí)很多人看到 R1,有個(gè)流行說法是:「pre-training 不重要,post-training 才重要?!沟艺J(rèn)為 R1 的基礎(chǔ)是 V3,這恰好說明好的基礎(chǔ)模型很重要,pre-training 和整體架構(gòu)優(yōu)化可以帶來模型能力的提升。K2 現(xiàn)在還是個(gè) non-reasoning 的模型,已經(jīng)呈現(xiàn)出很好的能力,這也說明 pre-training 依然很重要。

開源也很重要?,F(xiàn)在全球 AI 社區(qū)正處于 Early Adopter(早期采用者)階段,通過開源優(yōu)秀的模型和產(chǎn)品給社區(qū)提供價(jià)值的團(tuán)隊(duì),很容易得到熱心的回應(yīng)。我們?cè)?DeepSeek、K2,以及我們 sponsor 的 vLLM、ControlNET 等開源項(xiàng)目中看到,只要不斷拿出好的產(chǎn)品,保持對(duì)用戶開放交流的態(tài)度,世界各地的用戶都會(huì)欣賞、支持你,甚至主動(dòng)幫你改進(jìn)問題。但只開源不是本質(zhì),本質(zhì)是開源好的東西,不是開源就一定好,社區(qū)覺得好才是核心。

Q:說到開源,因?yàn)?K2 是 1 萬億參數(shù),開源社區(qū)里能真正部署的人很少。

戴雨森:K2 主要的場(chǎng)景不是在本地機(jī)器部署,事實(shí)上要在本地滿血跑 Deepseek R1 也不簡(jiǎn)單。開源的核心不在于本地部署,而是讓大家對(duì)模型有更多自主把控。

Q:你能總結(jié)下他們?yōu)槭裁茨茏龀?K2 這種級(jí)別模型?現(xiàn)實(shí)過程中遇到了哪些挑戰(zhàn)?外部輿論把他們放在低谷,是否帶來很大壓力,比如人才流失?我指的不光是核心層,還有一線工程師。

戴雨森:這里肯定有人流失,但 Kimi 有兩點(diǎn)優(yōu)勢(shì):第一,核心層很穩(wěn)定;第二,很多年輕同事愿意留在 Kimi。

我覺得大家留下不只是因?yàn)殄X,更因?yàn)槟軐W(xué)到東西,能干成自己覺得厲害的事。這符合 Kimi 核心團(tuán)隊(duì)的基因。

之前做投放時(shí)討論過,他們做投放不是強(qiáng)項(xiàng),要做團(tuán)隊(duì)能力最強(qiáng)的方向。我覺得這很重要。面對(duì)外部市場(chǎng)壓力,首先不要亂,要聚焦自己最擅長、最能做好、最有意義的事情。知乎上也有好幾位 Kimi 的研究員寫了參與 K2 的很多感想。

技術(shù)變化:推理、編程、工具使用

Q:在技術(shù)領(lǐng)域,你會(huì)比較關(guān)注哪些變化?

戴雨森:我們之前聊到過,我認(rèn)為解鎖 AI 生產(chǎn)力的三大主線是 reasoning、coding 和 tool use。

在 reasoning 方面,我們看到了 o3、o4 mini 的發(fā)布,還有后來的 o3 pro。雖然這些模型在一些榜單上表現(xiàn)進(jìn)展不大,但我們自己的使用體驗(yàn)是,o3 相比 o1 是一個(gè)明顯的大臺(tái)階,o3 pro 在推理長度和邏輯連貫性上也越來越好?,F(xiàn)在很多模型在 reasoning 的細(xì)節(jié)上都有進(jìn)步,比如細(xì)節(jié)的幻覺減少,推理結(jié)果更嚴(yán)謹(jǐn)。

同時(shí)我們還看到,一些小一點(diǎn)的模型也開始具備很強(qiáng)的 reasoning 能力。像 GPQA 或 AIME 這些反應(yīng)模型 reasoning 能力的指標(biāo)都非常高。K2 在這方面也表現(xiàn)不錯(cuò)。

Q:我們之前和一些人交流,比如阿里云 CTO 周靖人,他并不覺得像 o 系列的更新是特別大的范式變化。他認(rèn)為這還是在大模型原有方法框架內(nèi)的自然延展。

戴雨森:這個(gè)我同意。如果這些模型還是 Transformer 架構(gòu),那它們就還是在現(xiàn)有范式內(nèi)演進(jìn)。大家現(xiàn)在都在期待下一個(gè) Transformer 是什么。

不過有時(shí)候,一個(gè)技術(shù)范式就可以走得很遠(yuǎn)。就像高速公路可以用幾十年,不一定非要每年都有顛覆式的架構(gòu)變化才叫創(chuàng)新,實(shí)際上,如果每年都有顛覆式的技術(shù)發(fā)生,那說明這個(gè)行業(yè)還很不穩(wěn)定,反而不一定適合產(chǎn)業(yè)落地。今年我們?cè)诋a(chǎn)業(yè)上真正能用到的技術(shù),并不是從 0 到 1 的變化,更像是從 1 到 10,甚至從 5 到 8 的進(jìn)化。像 reasoning 的進(jìn)步,就是從很好變成非常好。

在 coding 上,Sonnet 3.5 已經(jīng)很不錯(cuò)了,但 context 長度還不夠,自我糾錯(cuò)能力也一般。Sonnet 3.7 和 4 跑在 Claude Code 上效果非常好。對(duì)復(fù)雜代碼、長代碼段,它們常常一步就能做對(duì)。這不是從 0 到 1,而是從 7 到 10 的質(zhì)量提升。

Q:在基礎(chǔ)模型的競(jìng)爭(zhēng)上,Google 最近的勢(shì)頭也很強(qiáng)。過去兩年 OpenAI 橫空出世時(shí),Google 給人感覺有點(diǎn)被打懵。但現(xiàn)在 Gemini 2.5 的口碑和實(shí)際使用反饋都很好。

戴雨森:確實(shí),Google 技術(shù)積累深厚,人才密度高,又非常有錢,算力也很充沛。所以我們今年明顯感覺到 Google 的邊際變化是很大的。

模型層面,Google 的 Gemini 2.5 表現(xiàn)非常好。云服務(wù)層面,提供同樣的 Claude API 推理服務(wù)上,GCP 的表現(xiàn)其實(shí)更好,這背后也離不開 TPU 的支持。Google 的實(shí)力很強(qiáng),是現(xiàn)在模型領(lǐng)域前三名中非常有競(jìng)爭(zhēng)力的一家。

但他們現(xiàn)在也有一個(gè)現(xiàn)實(shí)問題,就是 Google 的搜索主業(yè)正在承壓。因?yàn)閾?dān)心 AI 對(duì)搜索廣告帶來沖擊,所以它的股價(jià)一直在震蕩。我覺得這就是一個(gè)典型例子:老業(yè)務(wù)在受損,而新業(yè)務(wù)增長又很快。這最終會(huì)怎么演化,我覺得可能還需要一兩年才能看清。

應(yīng)用的生長,讓 AI 不止于問答

Q:這也回到了你之前提到的一個(gè)主題:模型和上層應(yīng)用之間的關(guān)系,現(xiàn)在這個(gè)關(guān)系還在演變。

戴雨森:應(yīng)用的價(jià)值首先取決于模型本身,也就是模型廠商固化在權(quán)重里的那些基礎(chǔ)能力。模型的推理能力、編程能力越強(qiáng),應(yīng)用所能釋放的價(jià)值就越大。但權(quán)重一旦固定,內(nèi)容就是死的,而問題是動(dòng)態(tài)的,所以需要引入 context,現(xiàn)在流行的 Context Engineering vs Prompt Engineering 也說明了 prompt 模型并不夠,還需要更多更好的 context。

我認(rèn)為 context 可以分為三層:

第一層是通用信息,比如「今天的天氣怎么樣?」這類模型本身是沒有的,需要通過搜索等方式動(dòng)態(tài)獲取。雖然現(xiàn)在也有模型能做簡(jiǎn)單的搜索工作,但這需要給模型配備合適的工具。

第二層是組織層面,比如公司內(nèi)部有哪些流程、文檔、已有的知識(shí)積累。這些信息模型本身也不知道,需要通過應(yīng)用層與模型協(xié)作,讓模型指導(dǎo)人去調(diào)用這些信息。比如一個(gè)人和 AI 的對(duì)話歷史、個(gè)人偏好、背景信息等,這些模型也不具備,必須由應(yīng)用層來提供。

所以 context 這一層是由應(yīng)用來提供的,它的質(zhì)量會(huì)對(duì) AI 應(yīng)用的表現(xiàn)帶來巨大差別。

AI 的目標(biāo)不只是成為一個(gè)問答機(jī)器,最終它是要真正幫用戶完成事情。那在做事情的時(shí)候,它能調(diào)用哪些工具、影響什么結(jié)果,這些也是由應(yīng)用層公司提供的。比如產(chǎn)品提供了哪些公有或私有的 MCP 工具,或者最終 AI 能把它的輸出結(jié)果部署在什么環(huán)境上。

模型其實(shí)只是最底層的那一塊。但因?yàn)?ChatGPT 剛出來的時(shí)候,我們的大多數(shù)使用場(chǎng)景都是在「問」模型,所以只能提取它通過壓縮已有知識(shí)所獲得的回答。比如問一個(gè)事實(shí)類的問題,這種情況下確實(shí)主要靠模型本身。但當(dāng)任務(wù)更復(fù)雜、模型的智力需要與 context、甚至 environment 配合才能發(fā)揮作用時(shí),那就是「殼」的價(jià)值了。

Q:所以你覺得這是一個(gè)很自然的演化路徑?也沒必要非得強(qiáng)化「我們就是做模型」這件事?

戴雨森:對(duì),模型肯定很重要,但只靠模型本身可能不足以真正釋放出全部的價(jià)值。

Q:一年前大家怎么看 Google?一個(gè)失意者?

戴雨森:大家那時(shí)候肯定覺得 Google 有點(diǎn)落后,被 OpenAI 搶了風(fēng)頭,很多人才也選擇出走。但后來 Google 的聯(lián)合創(chuàng)始人 Sergey Brin 回歸公司之后,很多事情發(fā)生了變化。比如有傳聞?wù)f Google 收購的 Character.ai 創(chuàng)始人 Noam Shazeer 回去后親自改了一個(gè) bug,直接讓模型性能大幅提升。真假不確定,但關(guān)鍵人才確實(shí)能解決問題。

Q:所以 Google 能快速追趕,可能不僅是技術(shù),也有組織方式、投入強(qiáng)度的變化?

戴雨森:對(duì),他們對(duì)這件事是非常重視。我聽說 Gemini 團(tuán)隊(duì)加班也很厲害,原本大家覺得 Google 是養(yǎng)老公司,但現(xiàn)在他們也很拼。

Q:模型競(jìng)爭(zhēng)其實(shí)激活了很多聰明人,追求的成就感也回來了。

戴雨森:我覺得是的。這幾家公司的創(chuàng)始人都非常重視 AI,現(xiàn)在已經(jīng)不是「AI 會(huì)不會(huì)落地」的問題了,而是必須贏。

不管是 Zuckerberg、Sergey Brin,還是 OpenAI 和 Anthropic 的團(tuán)隊(duì),他們都看到 AGI 已經(jīng)迫在眉睫,意識(shí)到這件事的重要性,愿意花錢、愿意投入資源。

最近 Y Combinator 的創(chuàng)業(yè)營也提到,現(xiàn)在做任何公司,都應(yīng)該以「AGI 兩年內(nèi)實(shí)現(xiàn)」為前提假設(shè)。你要思考:假設(shè) AGI 兩年內(nèi)實(shí)現(xiàn),那你的公司該怎么做?

當(dāng)然 AGI 到底是什么還有很多爭(zhēng)議,但毫無疑問巨大的變化正在發(fā)生,而且是快速發(fā)生?,F(xiàn)在硅谷學(xué)計(jì)算機(jī)的學(xué)生找工作都變難了,因?yàn)槌跫?jí)程序員的工作已經(jīng)被 AI 替代了很多,很多變化是實(shí)實(shí)在在發(fā)生的。

Q:我們回到你說的三條主線。我們講了推理和編程,現(xiàn)在講工具使用。最近像 Kimi K2 和 Grok 都在訓(xùn)練階段就加入了使用工具的能力。這是新趨勢(shì)嗎?

戴雨森:現(xiàn)在 AI 使用工具主要有兩條路線:

1. 像 MCP 這樣,走 API 接口方式;

2.通過視覺模擬 AI 操作已有軟件。

這兩種方式都有人在做,現(xiàn)在像 MCP 這樣的生態(tài)已經(jīng)建立起來了,越來越多為 AI 搭建的工具變得可用。又比如 Manus 和 OpenAI 的 Operator 用的是沙盒虛擬機(jī)里面的瀏覽器、通過視覺操作瀏覽器等已有的軟件,模擬人類的使用過程,目的是讓 AI 更好地調(diào)用已有軟件的功能。

能夠使用人類的工具完成任務(wù),我覺得這是讓 AI 真正變有用非常重要的一件事。

Agent 讓每個(gè)人學(xué)會(huì)當(dāng)好老板

Q:其實(shí)在 OpenAI 最開始規(guī)劃的五個(gè)階段里面,第三個(gè)階段就是推理之后的 Agent。

戴雨森:對(duì),之前張祥雨有個(gè)播客講得特別好,我很認(rèn)同他的分析。第一個(gè)階段是 chatbot,對(duì)應(yīng) ChatGPT;第二個(gè)階段是 reasoning,對(duì)應(yīng) o 系列模型;第三階段的 Agent 對(duì)應(yīng)的是 Agent-native 模型,但目前好像還沒有真正出現(xiàn)。

在 Agent 的定義中,目標(biāo)是 AI 自己去尋找的,但目前目標(biāo)仍由人給定。Agent 是說,我給你一個(gè)目標(biāo)后,它去預(yù)測(cè)使用工具的序列,選擇什么工具完成任務(wù)。它可能還沒做到像給員工完成任務(wù)那樣,自己拆分任務(wù)和定義目標(biāo)。

現(xiàn)在 AI Agent 這一類產(chǎn)品還處于非常早期階段。比如 Manus 才剛推出幾個(gè)月,但我覺得一年甚至半年后,隨著模型能力提升,這類產(chǎn)品的能力會(huì)大幅增強(qiáng)。

我想說的是,不同公司因?yàn)橘Y源稟賦不同,解決 Agent 這個(gè)問題的方式也會(huì)有差異。我們盡量不做預(yù)判,不認(rèn)為我們能夠預(yù)先知曉未來。比如 Kimi 的看法是 Model as Agent,通過模型訓(xùn)練中加入大量端到端的工具使用數(shù)據(jù),讓模型本身具備強(qiáng)大的工具調(diào)用能力。而同樣是調(diào)用閉源模型 API 的產(chǎn)品。Manus 提出了「less structure, more intelligence」,但有時(shí)結(jié)構(gòu)化也能提升工作效率。Genspark 就專門做了針對(duì) PPT 場(chǎng)景的 slide 生成功能,引入了一系列優(yōu)化工作效果的方法。

Q:這兩種角度都對(duì)。對(duì)用戶來說,有些場(chǎng)景有大致流程,結(jié)果更可控,成本也會(huì)更低。

戴雨森:因?yàn)橛脩粢氖亲詈蟮慕Y(jié)果,而不同的公司想實(shí)現(xiàn)這個(gè)結(jié)果,可能有各種不同的路徑。有的靈活但成本高,有的固定但成本低。所以大家解同一道題,用不同方法都合理。

Q:你說的最大趨勢(shì)無疑還是 Agent?

戴雨森:是 AI 對(duì)生產(chǎn)力的提升,想讓 AI 把生產(chǎn)力真的提高,就得讓 AI 承擔(dān)更多工作。像 Claude Code、Manus 等 Agent 產(chǎn)品,核心理念是人不做事,AI 做事。

有人說這是類似自動(dòng)駕駛 L3級(jí)別的產(chǎn)品,人不動(dòng)方向盤,車自動(dòng)駕駛。我們發(fā)現(xiàn)寫代碼的工程師一開始喜歡 Cursor,因?yàn)樗€是讓你在熟悉的 IDE 里面寫代碼,但Manus 發(fā)現(xiàn)產(chǎn)品經(jīng)理用 Cursor 去完成任務(wù)不怎么看代碼,只是看右邊的對(duì)話框,所以他們把對(duì)話框放到主要的位置,做出了一個(gè)更加適合非程序員人群使用的 Agent。

隨著模型能力的進(jìn)步,Claude Code 更極致,用戶不能寫代碼,只能告訴 AI 你要做什么,其他的 AI 去完成。所以 L3 或 Agent 意味著 AI 去作為執(zhí)行主角,而用戶要學(xué)會(huì)當(dāng) AI 的好老板。

Q:這對(duì)很多人來說挺難,是門檻。AI 做事不滿意,你讓它做幾次都不行。

戴雨森:以前我創(chuàng)業(yè)時(shí)也這么想,所有事我都親自做。后來發(fā)現(xiàn)這不是好管理方式,我應(yīng)該賦能下屬,讓他們知道我要什么,讓他們有主觀能動(dòng)性。

以后人類指揮 AI 可能也是這樣,這可能是人類歷史上第一次要培養(yǎng)一個(gè)工具。以前培養(yǎng)人很難,大部分人是被培養(yǎng)的,很少有人有能力或機(jī)會(huì)去培養(yǎng)一個(gè)下屬。但現(xiàn)在每個(gè)人可能都要學(xué)會(huì)如何給 AI 下命令,如何培養(yǎng) AI 去更好完成工作。

Q:你提到 Manus、Genspark 這類通用 Agent 的用戶群都比較廣泛。你們?cè)趺从^察垂直場(chǎng)景里的 Agent?

戴雨森:通用是因?yàn)楫?dāng)前模型能力偏通用,但肯定會(huì)逐漸涌現(xiàn)某些垂直場(chǎng)景。

我覺得一個(gè)好的產(chǎn)品,最后肯定還是要有清晰的定位,要在某些領(lǐng)域做到絕對(duì)的第一名,才能擁有長期價(jià)值。或者說我們目標(biāo)不是追求通用,而是從通用開始,逐漸發(fā)展收斂到一些核心場(chǎng)景。

技術(shù)革命的早期發(fā)展階段,往往大家都在嘗試,也不知道新技術(shù)適合做什么,最后看什么效果最好。例如蒸汽機(jī)剛被發(fā)明時(shí),最開始是用于抽煤礦的水,后來發(fā)現(xiàn)用來驅(qū)動(dòng)火車和紡織機(jī)更好。蒸汽機(jī)也是一個(gè)「通用技術(shù)」,但最后最大的價(jià)值可能來自幾個(gè)具體場(chǎng)景。

我覺得現(xiàn)在 coding、做 PPT 這類的 office work、deep research 三者毋庸置疑是已經(jīng)涌現(xiàn)出來的重要方向。

Q:有個(gè)話題挺有意思。國內(nèi)大家討論通用產(chǎn)品,覺得這是大公司的必爭(zhēng)之地。但跟國外投資人聊,他們反而對(duì) Super App 的可能性更感興趣,關(guān)心怎么打敗 OpenAI 和 Google。

戴雨森:如果你有機(jī)會(huì)挑戰(zhàn)大公司,那是好事,至少有資格參與奧運(yùn)會(huì),比不參與強(qiáng)。

很有意思的一件事是,Manus 出現(xiàn)后,有很多人說它沒壁壘,用開源框架一個(gè)周末就能搞出來。但現(xiàn)在過了這么多個(gè)周末,還沒看到任何一個(gè)類似的應(yīng)用能真正做好的。

我覺得在全球市場(chǎng),大家對(duì)真正的創(chuàng)新還是尊重的,不會(huì)直接復(fù)制完全一模一樣的產(chǎn)品??赡軙?huì)借鑒交互或呈現(xiàn)思路,比如 AI 在干活的表現(xiàn)形式,但不會(huì)直接像素級(jí)復(fù)制。在全球化競(jìng)爭(zhēng)里,先發(fā)優(yōu)勢(shì)會(huì)帶來很多口碑和傳播優(yōu)勢(shì),這也是對(duì)創(chuàng)新者的獎(jiǎng)勵(lì)。

每月 1000 美金的 AI 產(chǎn)品訂閱

Q:你算過現(xiàn)在一個(gè)月在 AI 產(chǎn)品訂閱上花多少錢嗎?

戴雨森:大概接近 1000 美金。Manus 是 200 美金,Genspark 是 200 美金,ChatGPT、Gemini、Grok 這些也都差不多各 200 美金。我買的基本上都是高級(jí)方案。

我一直有個(gè)理念,新產(chǎn)品就要多試試,很多時(shí)候花點(diǎn)錢試一試并不過分。很多 AI 產(chǎn)品的革命之處不能只看報(bào)道,得親身去用。當(dāng)你能看到一個(gè)未來的時(shí)候,你會(huì)產(chǎn)生很多的靈感。

我們?nèi)路菥陀^察到,Manus 上線后推理用量暴漲,Agent 產(chǎn)品的 token 用量相比 Chatbot 是顯著增長。當(dāng)時(shí)二級(jí)市場(chǎng)很多人還在質(zhì)疑英偉達(dá),覺得哪怕全世界所有人都用 chatbot,推理需求也根本沒那么大,用不了那么多算力。

但其實(shí)這就像撥號(hào)上網(wǎng)時(shí)代,一開始所有人都在聊 QQ,不需要那么多帶寬。但有了寬帶網(wǎng)之后,大家就要在線上看 4K 視頻了。模型能力越強(qiáng),可以解鎖的場(chǎng)景越多,token 使用就越多。

Q:2023 年,黃仁勛在英偉達(dá)內(nèi)部講話中說,他們的市值目標(biāo)是 2 萬億美元。當(dāng)時(shí)英偉達(dá)剛剛突破 1 萬億。我們還在討論他這口氣是不是太大。結(jié)果今年已經(jīng)突破 4 萬億了。

戴雨森:他很快可能會(huì)到 5 萬億。因?yàn)?token 向生產(chǎn)力的轉(zhuǎn)化趨勢(shì)才剛剛開始。

這就像火車開動(dòng)了,就不會(huì)突然又停下來了。我們現(xiàn)在還在不斷發(fā)現(xiàn) AI 新的使用場(chǎng)景。比如說一個(gè)工程師原來一天可以寫 100 行代碼,現(xiàn)在有了 Cursor、Claude Code,可能寫的代碼是原來的 10x,能解決更多以前沒想過要解決的問題。又比如有了 ChatGPT 和 Manus,你會(huì)問的問題也會(huì)變多。

很多以前不知道該問誰的問題,現(xiàn)在可以用 AI 來解決。給用戶帶來的生產(chǎn)力提升,導(dǎo)致用戶更愿意付費(fèi)。

Q:目前生產(chǎn)力場(chǎng)景的 token 消耗是非常高的?

戴雨森:生產(chǎn)力可以以 10 倍,100 倍的速度增長。和 AI 閑聊再怎么聊,一天就那么多時(shí)間,這是我們以前講的 attention is all you need。如果你要的是用戶注意力,它是有限的,并且是和抖音,Tiktok、小紅書一起去爭(zhēng)奪的注意力。

但在生產(chǎn)力場(chǎng)景,用戶需求的上限很高,可以從問一個(gè)問題變成問 100 個(gè)問題,需要的算力可以漲 100 倍。

Q:而且單位時(shí)間內(nèi) token 消耗的復(fù)雜度也在迅速提升,比如我要消費(fèi)的內(nèi)容、視覺信息可能也變得更復(fù)雜。

戴雨森:在未來你可以問 AI 之前沒想到的非常復(fù)雜的問題,我給你舉個(gè)很簡(jiǎn)單的例子。比如美股二級(jí)市場(chǎng)的朋友,在財(cái)報(bào)季時(shí)一天可能要關(guān)注五六家公司發(fā)業(yè)績。凌晨四點(diǎn)起床看財(cái)報(bào)數(shù)據(jù)、代入模型做對(duì)比、聽電話會(huì)議、分析 CEO 的展望,都是他們的日常。

原來他們不可能同時(shí)聽多個(gè)財(cái)報(bào)會(huì),只能靠招更多人或挑重點(diǎn)去選擇。但現(xiàn)在有了 AI,雖然目前還不能完全跑通全流程,但 6-12 個(gè)月內(nèi)就有可能讓一個(gè)分析師同時(shí)覆蓋 50 家股票的財(cái)報(bào)。

AI 可以幫他們看財(cái)報(bào)、聽電話會(huì)議記筆記、回答事前準(zhǔn)備好的問題、總結(jié) CEO 回答、寫報(bào)告。這些原來因?yàn)椤缸霾坏健共艣]放到你的工作時(shí)間表里的事情現(xiàn)在 AI 能完成了,需求就自然增長了。

就像飛機(jī)出現(xiàn)之前,沒有人會(huì)說「我今天要飛美國出差」。但飛機(jī)一旦存在,新的需求就出現(xiàn)了。AI 也一樣,它讓你開始做那些你原本不會(huì)想做的事。

Q:時(shí)間是有限的。但單位時(shí)間內(nèi)娛樂內(nèi)容的復(fù)雜度、感官刺激可能會(huì)大幅提升,這也是以前難以想象的。

戴雨森:對(duì),確實(shí)難以想象。但我想說的是,生產(chǎn)力的價(jià)值是直接可衡量的。比如 AI 幫我賺 100 塊錢,我為它付 1 塊或者10 塊。

而且我們觀察到一個(gè)很有意思的現(xiàn)象:當(dāng) AI 按 token 用量計(jì)費(fèi)后,很多人是希望用得更多的。因?yàn)樗_實(shí)在幫你完成工作,比如幫你寫了更多代碼。

這本來就是你自己要做、要花時(shí)間花錢雇人做的事,現(xiàn)在 AI 幫你完成了,它就有價(jià)值。

硅谷 Acqui-hire 搶人大戰(zhàn)

Q:關(guān)于最近這場(chǎng)「搶人大戰(zhàn)」你有沒有什么看法?

戴雨森:確實(shí)最近有很多人被挖走,也有人接到電話但沒去。大量優(yōu)秀人才被 disruptive(顛覆性)級(jí)別的薪資挖走。

這種挖角不管是對(duì)被挖團(tuán)隊(duì),還是 Meta 自己原有的團(tuán)隊(duì),都是非常大的沖擊。在硅谷幾乎所有頂尖公司都在發(fā)生類似動(dòng)蕩。被挖的人所在團(tuán)隊(duì)軍心難免動(dòng)搖,留下的人也開始質(zhì)疑:是不是自己也該漲薪?

這種高薪挖人當(dāng)然是人才價(jià)值的體現(xiàn),但越是頂級(jí)人才,也越需要時(shí)間和環(huán)境來磨合,才能真正形成合力。歷史上失敗的例子也很多,所以對(duì)于這些組織來說,這既是機(jī)會(huì),也是一場(chǎng)挑戰(zhàn)。

Q:你覺得搶人競(jìng)爭(zhēng)算良心嗎?

戴雨森:我覺得這也是體現(xiàn)了創(chuàng)始人的精神,就是他愿意不惜代價(jià)去爭(zhēng)取人才。如果花錢能解決的事,我就花錢辦。這反映了人才確實(shí)很重要。

Q:壓力主要是在硅谷嗎?不過從另一面看,這也給創(chuàng)業(yè)公司提供了不錯(cuò)的退出機(jī)會(huì)。

戴雨森:但是這種退出可能不夠大。有的人覺得公司賣個(gè)幾億美元就挺好,有人則想做千億美元公司。創(chuàng)業(yè)公司也需要更多彈藥去和 Meta 這樣的大廠競(jìng)爭(zhēng)。比如說 Cursor 之前融了很多錢,我們一度還覺得融這么多錢做什么,現(xiàn)在看到他們要面對(duì)的是更多錢補(bǔ)貼用戶用 token,招人也要更高成本,所以融資更多很合理?,F(xiàn)在競(jìng)爭(zhēng)無論是補(bǔ)貼還是人才都升級(jí)了。頂級(jí)人才也有很多選擇,對(duì)很多創(chuàng)業(yè)公司來說,加入戰(zhàn)局的門檻和水位都在提升。

Q:硅谷這種人才收購(Acqui-hire)很流行,主要是為了繞過反壟斷限制,也反映了競(jìng)爭(zhēng)多激烈。

戴雨森:大家都想加快節(jié)奏,因?yàn)殄X太多了。幾家巨頭賬上都有大量現(xiàn)金,這些錢投下去,如果能用錢換時(shí)間和競(jìng)爭(zhēng)優(yōu)勢(shì),對(duì)他們來說就是簡(jiǎn)單的事情。

Benchmark 鈍化,突破智能的邊界

Q:最后這一部分,我想問一些你的感受。從 GPT-3 到現(xiàn)在,已經(jīng)有兩年半時(shí)間了。你目前對(duì)什么事情還是特別好奇?

戴雨森:我好奇始終還有很多。首先是如何衡量智能的邊界。

你想,ChatGPT 剛出來的時(shí)候,人類還能指出它的回答問題所在。但現(xiàn)在無論是它研究的內(nèi)容還是文筆本身,普通人類越來越難發(fā)現(xiàn)它的缺陷了。當(dāng)人類智能被逐漸接近的時(shí)候,你怎么衡量一個(gè)或許比你更聰明、更深度思考、記憶力更強(qiáng)的存在?

關(guān)于如何衡量智能,我的好朋友姚順雨在他寫的文章《下半場(chǎng)》中提到,未來 AI 的 benchmark 會(huì)越來越重要。現(xiàn)在的 benchmark 已經(jīng)鈍化,不能準(zhǔn)確區(qū)分模型差異。比如說一個(gè) benchmark 得 85 分或 90 分真的能反映模型的區(qū)別嗎?Kimi 的經(jīng)驗(yàn)也說明,內(nèi)部制定好的 benchmark 很重要。模型訓(xùn)練關(guān)鍵是如何衡量結(jié)果,而內(nèi)部 benchmark 的水平質(zhì)量往往決定了模型的質(zhì)量。

所以我覺得如何衡量智能、如何探索智能邊界依然非常重要?,F(xiàn)在我們還能勉強(qiáng)說用一用模型,能「Vibe Testing」感受到模型的能力好壞,但再過幾年,前五名的模型可能都比你聰明的時(shí)候,你怎么去評(píng)估誰更好?

Q:所以怎么去衡量智能的邊界?

戴雨森:第二個(gè)我想說的是,我一直反復(fù)思考生產(chǎn)力這個(gè)邏輯。每個(gè)人擁有大量生產(chǎn)力之后,對(duì)于個(gè)人、組織、乃至世界的影響是什么?

對(duì)個(gè)人來說,超級(jí)個(gè)體一個(gè)人能做的事情越來越多:從做小貓補(bǔ)光燈這樣的小 app,到開發(fā)游戲,甚至到實(shí)現(xiàn) Sam Altman 預(yù)言的「一人獨(dú)角獸公司」。當(dāng)年 Instagram 被收購時(shí)只有 13 個(gè)人,在 AI 時(shí)代,13 個(gè)人到 3 個(gè)人是完全有可能的。

這意味著人和人之間差距會(huì)變得很大。當(dāng)每個(gè)人都擁有無限聰明的助手,以及像 Manus 這種可以日夜無休幫你打工的「賽博牛馬」時(shí),有人能很好地利用它創(chuàng)造巨大價(jià)值,有人可能沒有產(chǎn)生那么大價(jià)值,所以成長速度差異會(huì)進(jìn)一步拉大。

對(duì)組織來說,小組織可以變得很強(qiáng)大,而大組織則能通過先進(jìn)技術(shù)管理更大、更復(fù)雜的業(yè)務(wù)。比如美團(tuán)管理幾百萬騎手,業(yè)務(wù)非常復(fù)雜,如果沒有先進(jìn)互聯(lián)網(wǎng)通信和管理技術(shù),根本無法實(shí)現(xiàn)。加入 AI 后,大公司的管理人數(shù)、業(yè)務(wù)復(fù)雜度和深度都會(huì)再升一個(gè)臺(tái)階。

世界是由各種組織驅(qū)動(dòng)的,組織能力邊界的提升對(duì)世界影響巨大。進(jìn)一步來說,當(dāng)整體生產(chǎn)力大幅提升,而人與人、組織與組織之間差距變大時(shí),如何在效率和公平間尋求平衡?AI 最初是最聰明的人制作工具給頭部用戶用,但這些精英產(chǎn)生的價(jià)值如何反哺普通大眾?即便一個(gè)普通人不是特別努力學(xué) AI,我們?nèi)绾巫?AI 產(chǎn)品越來越易用,讓普通人也能從中獲益?

Q:AI 還會(huì)帶來隱私暴露和虛假信息泛濫,讓真實(shí)界限變得模糊。

戴雨森:對(duì),你很難區(qū)分什么是真實(shí)的文章。我現(xiàn)在還能讀出 DeepSeek 的味道,但一年后可能分辨不出,或者說,可能有很多 AI 寫的文章我已經(jīng)分辨不出來了,我能分辨出來的只是那些還偽裝得不夠好的。大家都知道 AI 會(huì)引用虛假內(nèi)容,但關(guān)鍵什么是虛假呢?真假的界限也越來越模糊了。

我一直在想,人類最大的限制是什么?我這邊覺得是大腦的功率,大腦功率大約 20 瓦,人類智能的上限就是這么多。而 AI 可以很快接近甚至突破這個(gè)上限。智能越多,我們用它做什么,人與 AI 的角色分工如何,這些都是我們很快要面對(duì)和調(diào)整的問題。

有時(shí)候我覺得有點(diǎn)可怕,因?yàn)榇蟮淖兓呀?jīng)到來,只是大家還在逐漸感受到它。比如對(duì)程序員影響特別直接,普通初級(jí)程序員如果不用 AI,未來兩年后找到工作會(huì)非常困難。但一年的時(shí)間人是很難做出改變的。而更多的職業(yè)可能也會(huì)在很短的時(shí)間內(nèi)受到極大的沖擊。

Talk is cheap, Show me the product

Q:你會(huì)對(duì)什么事感到疲倦?

戴雨森:我覺得第一個(gè)疲倦的是過度營銷。過去幾年有一個(gè)趨勢(shì),就是很多產(chǎn)品在過度營銷,各種「震驚體」,但好的產(chǎn)品比如說 Manus,幾乎沒花錢營銷,但大家誤以為它花了很多錢。

之前 AI 的進(jìn)步主要是模型的進(jìn)步,普通用戶還無法在產(chǎn)品中體驗(yàn),因此研究員和媒體擁有很大的解釋權(quán)。但現(xiàn)在模型已經(jīng)開始轉(zhuǎn)化成應(yīng)用了。那時(shí)候我在即刻發(fā)了一條說:「Talk is cheap, show me your product.」

現(xiàn)在很多 AI 模型的核心能力最終都要轉(zhuǎn)化成產(chǎn)品,用戶能真正用得起來,AI 才有生命力。很多講故事、炒作的公司,不如專注做好產(chǎn)品。我們看到現(xiàn)在發(fā)展好的 AI 公司大多做到了這一點(diǎn),拿出真正對(duì)客戶有價(jià)值的產(chǎn)品。

Q:你今年內(nèi)想驗(yàn)證的是什么問題?

戴雨森:一個(gè)是 AI L3 級(jí)別的 Agent 應(yīng)用能不能快速達(dá)到完成實(shí)際工作的程度。比如 Manus 我們都在用,用戶也在付費(fèi),但有時(shí)一個(gè)任務(wù)只能完成七八十分,還需人補(bǔ)充到 100 分。Claude Code 相比之前的 coding agent,逐漸能做到一次完成,不用修改就能上線。

未來幾個(gè)月到年底,我相信 Agent 的能力還會(huì)有很大提升。到那時(shí),可能你給 AI 一條指令,它就能埋頭干完,甚至一次就干好了。

Q:我現(xiàn)在用 AI 感覺是得刻意多用它。因?yàn)榻o它比較復(fù)雜的任務(wù)時(shí),它完成得不完美。

戴雨森:這是普遍現(xiàn)象。好的 AI 產(chǎn)品一定是為未來的模型設(shè)計(jì)的。Cursor 上線兩三年了,但直到 Sonnet 3.5 出來的時(shí)候才開始火,等 3.7 出來后才爆發(fā)增長。

Manus 也是一樣,剛上線時(shí)很多任務(wù)其實(shí)也做得不好,但 6 個(gè)月、12 個(gè)月后,新一代模型會(huì)讓它表現(xiàn)更好。所以你要為未來設(shè)計(jì),而不是為當(dāng)下就能獲得的模型設(shè)計(jì)。

Q:這對(duì)普通用戶可能反直覺,但我理解,這是快速發(fā)展階段。普及到主流用戶時(shí),大家仍追求開箱即用。

戴雨森:其實(shí)也不一定,比如我們之前發(fā)的《》,Youtube 的聯(lián)合創(chuàng)始人 Steve 說,YouTube 出來時(shí)是為未來寬帶設(shè)計(jì)的。2005 年,那時(shí)候美國剛開始普及寬帶,因此一開始的體驗(yàn)并不是那么好。同樣短視頻平臺(tái)如抖音快手上線時(shí),也是為一兩年后的智能手機(jī)和 4G 普及設(shè)計(jì)的。AI 也是這樣,你要永遠(yuǎn)提前走一步,喬布斯曾經(jīng)說過「要去冰球?qū)?huì)前往的地方」。

Q:所以你想驗(yàn)證的是,到年底看產(chǎn)品能否高度自動(dòng)化完成任務(wù),不再需要人參與?

戴雨森:比如現(xiàn)在 Agent 完成任務(wù)的成功率可能是 20%,能不能到 70-80%?這會(huì)讓前沿用戶對(duì)工作的定義和 AI 使用方式發(fā)生巨大變化。

另外我好奇的是,隨著用戶使用 AI 產(chǎn)品的變多,記憶會(huì)帶來多大變化。AI 應(yīng)用長期壁壘是什么?我覺得很重要的是記憶和個(gè)性化。現(xiàn)在記憶個(gè)性化對(duì)結(jié)果影響有限,但長期來看,我們希望它像員工或助手,隨著使用時(shí)長增加,越來越了解你,變得不可替代。這是我們想看到的進(jìn)步。

Q:這個(gè)進(jìn)步不能光靠模型是嗎?記憶需要不斷互動(dòng),給 AI 個(gè)人層面上下文。

戴雨森:一方面是在線學(xué)習(xí)(online learning),模型在使用中學(xué)習(xí)。另一方面需要你給它更多數(shù)據(jù)、文件、上下文,應(yīng)用設(shè)計(jì)非常重要。模型和應(yīng)用要協(xié)同合作。

我覺得我們對(duì)未來創(chuàng)新要有更多期待和包容,對(duì)中國團(tuán)隊(duì)的創(chuàng)新和發(fā)展能力要更有信心和支持。

創(chuàng)業(yè)新浪潮的新觀察

Q:你們現(xiàn)在特別關(guān)注的團(tuán)隊(duì)是什么類型的人?還有哪些地方有新創(chuàng)始人在出現(xiàn)?

戴雨森:今年我們看到,想出來創(chuàng)業(yè)的人多了很多。一兩年前大家還在相信未來應(yīng)用會(huì)落地,而現(xiàn)在已經(jīng)看到有 Manus 這個(gè)例子。金玉在前,所以大家肯定會(huì)想,「那我也許也可以」,這一定是一個(gè)更多的過程。我們看到很多不管是研究員,還是大廠里的年輕人,都蠢蠢欲動(dòng)。

Q:你最近在看什么比較好玩的書,或者有沒有作品想分享?

戴雨森:我想推薦《33 號(hào)遠(yuǎn)征隊(duì)》,一家法國創(chuàng)業(yè)公司開發(fā)的游戲。故事設(shè)定在一個(gè)虛擬世界,有一個(gè)神「繪母」,每年在天邊的一個(gè)石頭上寫下一個(gè)數(shù)字。這塊石頭叫 Monolith。

她從一百開始倒計(jì)時(shí),每寫一個(gè)數(shù)字,對(duì)應(yīng)年齡達(dá)到那個(gè)數(shù)字的人就會(huì)死去,全部消失。第一年是 100,第二年是 99,如此類推,一波一波的人死去。于是人類開始反抗,每年組織剩余年齡差一歲的人組成遠(yuǎn)征隊(duì),想挑戰(zhàn)并打破這個(gè)魔咒,但一直沒有成功。今年繪母寫下了 33,33 歲的人將在明年此刻死去,于是第 33 號(hào)遠(yuǎn)征隊(duì)出發(fā)了。

前幾天是 Manus 創(chuàng)始人肖弘的 33 歲生日,我就推薦他玩這個(gè)游戲。這個(gè)游戲講述了一個(gè)滿 33 歲的人如何出海挑戰(zhàn)天命的故事。游戲團(tuán)隊(duì)也是 33 個(gè)人,是一個(gè)創(chuàng)業(yè)公司開發(fā)的。創(chuàng)始人曾在育碧(Ubisoft)工作,他在那里覺得無聊,于是出來做了這款游戲。

《黑神話·悟空》是中國的大 IP,結(jié)合中國的文化積淀和先進(jìn)技術(shù)制作的精品之作?!?3 號(hào)遠(yuǎn)征隊(duì)》也是一個(gè)法國浪漫主義設(shè)定,藝術(shù)與先進(jìn)技術(shù)結(jié)合帶來的優(yōu)秀作品。它的情節(jié)、畫面、音樂等都非常非常出色,是我今年非常喜歡玩的游戲之一,有望沖擊年度游戲。

本期音頻內(nèi)容同步上線真格基金播客「此話當(dāng)真」,歡迎收聽~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你做過最尷尬的事是什么?網(wǎng)友:無聊穿姐姐衣服,姐夫喝醉了!

你做過最尷尬的事是什么?網(wǎng)友:無聊穿姐姐衣服,姐夫喝醉了!

夜深愛雜談
2026-03-11 20:51:11
推斷又正在被證實(shí):美以的全面轟炸已逐漸開始

推斷又正在被證實(shí):美以的全面轟炸已逐漸開始

邵旭峰域
2026-03-10 10:20:32
抖音盛典成“祛魅現(xiàn)場(chǎng)”!網(wǎng)紅集體見光死,網(wǎng)友:名字和臉對(duì)不上

抖音盛典成“祛魅現(xiàn)場(chǎng)”!網(wǎng)紅集體見光死,網(wǎng)友:名字和臉對(duì)不上

子芫伴你成長
2026-03-11 22:52:28
特朗普三種方式訪華:最終以哪種方式來華?第3種方式可能性最大

特朗普三種方式訪華:最終以哪種方式來華?第3種方式可能性最大

愛下廚的阿釃
2026-03-12 09:10:25
美國和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

美國和伊朗聯(lián)手演戲,騙了全世界,最大輸家出現(xiàn),并非以色列

瀲滟晴方DAY
2026-01-28 18:36:19
“七十不添衣,八十不祝壽”,這句話指的是啥?看完后漲知識(shí)了

“七十不添衣,八十不祝壽”,這句話指的是啥?看完后漲知識(shí)了

阿龍美食記
2026-02-26 14:30:14
廣州海關(guān)查獲1名旅客違規(guī)超量攜帶貨幣進(jìn)境,查獲美元164.5萬,折合人民幣超1100萬元

廣州海關(guān)查獲1名旅客違規(guī)超量攜帶貨幣進(jìn)境,查獲美元164.5萬,折合人民幣超1100萬元

環(huán)球網(wǎng)資訊
2026-03-12 10:12:49
最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒開完就溜了

最大內(nèi)鬼被挖出!俄媒:卡尼確認(rèn)完哈梅內(nèi)伊位置,會(huì)沒開完就溜了

浪子阿邴聊體育
2026-03-09 17:10:36
一男子撿到金鐲子賣了三十萬,幾天后,發(fā)現(xiàn)竟藏在妻子的枕頭

一男子撿到金鐲子賣了三十萬,幾天后,發(fā)現(xiàn)竟藏在妻子的枕頭

阿天愛旅行
2026-03-12 15:17:21
美官員承認(rèn):還沒碰上中國,僅僅打伊朗,高端武器庫存已經(jīng)見底了

美官員承認(rèn):還沒碰上中國,僅僅打伊朗,高端武器庫存已經(jīng)見底了

泠泠說史
2026-03-11 19:22:25
全國高速統(tǒng)一限速!這4種超速不再罰款,車主:終于不用踩急剎了

全國高速統(tǒng)一限速!這4種超速不再罰款,車主:終于不用踩急剎了

劉哥談體育
2026-03-10 19:15:54
蘋果因“缺乏創(chuàng)新價(jià)值”否決翻蓋式iPhone Fold方案,最終鎖定書本式折疊設(shè)計(jì)

蘋果因“缺乏創(chuàng)新價(jià)值”否決翻蓋式iPhone Fold方案,最終鎖定書本式折疊設(shè)計(jì)

環(huán)球網(wǎng)資訊
2026-03-11 12:22:06
石墨炸彈失效!美軍懵了:保變電氣、中國西電打破西方壟斷立奇功

石墨炸彈失效!美軍懵了:保變電氣、中國西電打破西方壟斷立奇功

林子說事
2026-03-11 13:21:58
新華社消息|十四屆全國人大四次會(huì)議表決通過了生態(tài)環(huán)境法典

新華社消息|十四屆全國人大四次會(huì)議表決通過了生態(tài)環(huán)境法典

新華社
2026-03-12 15:19:36
72歲潘虹:在上海住復(fù)式樓,至今不會(huì)做飯,每年都參加同學(xué)聚會(huì)

72歲潘虹:在上海住復(fù)式樓,至今不會(huì)做飯,每年都參加同學(xué)聚會(huì)

林輕吟
2026-03-12 12:53:21
特朗普人還沒到,先改訪華規(guī)格,中方已接到通知,美國要彎道超車

特朗普人還沒到,先改訪華規(guī)格,中方已接到通知,美國要彎道超車

愛下廚的阿釃
2026-03-12 15:29:04
蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

蘿莉島,是進(jìn)入核心圈層的投名狀,你猜他們?yōu)槭裁炊即┘t皮鞋

百曉生談歷史
2026-03-05 22:00:08
2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

2026年清明將至,這5類人切記別上墳,老祖宗的忠告別當(dāng)耳旁風(fēng)

老特有話說
2026-03-08 15:30:41
京東員工:全年收入,38.64個(gè)月

京東員工:全年收入,38.64個(gè)月

螞蟻大喇叭
2026-03-11 16:06:40
德國人日常三餐曝光!6個(gè)習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

德國人日常三餐曝光!6個(gè)習(xí)慣讓人不去醫(yī)院,國人看完沉默了?

路醫(yī)生健康科普
2026-03-04 12:30:03
2026-03-12 17:04:49
真格基金 incentive-icons
真格基金
創(chuàng)業(yè),來真格的。
1517文章數(shù) 3635關(guān)注度
往期回顧 全部

科技要聞

當(dāng)養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭(zhēng)才真正開始

頭條要聞

美國渲染“伊朗威脅”:奧斯卡典禮恐遭報(bào)復(fù)襲擊

頭條要聞

美國渲染“伊朗威脅”:奧斯卡典禮恐遭報(bào)復(fù)襲擊

體育要聞

要臉,還是要83分紀(jì)錄?

娛樂要聞

李湘瘦身驚艷亮相肖邦之夜 攜女兒出席

財(cái)經(jīng)要聞

盧鋒:從特朗普?qǐng)F(tuán)隊(duì)群演看時(shí)代變局

汽車要聞

大眾2025財(cái)報(bào):轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

時(shí)尚
本地
健康
藝術(shù)
公開課

風(fēng)衣+大包,春季最氣質(zhì)搭配!

本地新聞

坐標(biāo)北京,過敏季反向遷徒

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

朱屺瞻『凌波仙子』

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版