網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

2024 到 2025，與閆俊杰的兩次訪談，記錄一條純草根 AI 創(chuàng)業(yè)之路

2026-01-09 11:12:19　來源: 晚點(diǎn)LatePost

北京舉報(bào)

分享至

來找找相同和不同吧。

本文首發(fā)于 2024 年 04 月 17 日，2025 年 01 月 17 日。

文丨程曼祺

編輯丨宋瑋

在今天（1 月 9 日）早上前往港交所敲鐘前，MiniMax 創(chuàng)始人閆俊杰對(duì)《晚點(diǎn) LatePost》分享了他此刻的想法：

希望我們后續(xù)能有機(jī)會(huì)對(duì)整個(gè)行業(yè)智能水平的提升做出更大的貢獻(xiàn)。我們初步探索了一條純草根 AI 創(chuàng)業(yè)的路徑，盡管后面還是非常挑戰(zhàn)，如果能對(duì) AI 創(chuàng)新創(chuàng)業(yè)生態(tài)的發(fā)展有啟發(fā)我們會(huì)感到很光榮。

2024 年和 2025 年，《晚點(diǎn) LatePost》發(fā)表了兩篇對(duì) MiniMax 創(chuàng)始人兼 CEO 閆俊杰的訪談。第一篇訪談發(fā)生在 2023 年年底和 2024 年 3 月，第二次訪談發(fā)生在 2025 年 1 月。

兩次訪談間隔不到 1 年，行業(yè)和 MiniMax 自身都有很大變化。2024 年初，閆俊杰給團(tuán)隊(duì)定下的目標(biāo)是 “技術(shù)上如何達(dá)到 GPT-4，產(chǎn)品上如何把用戶規(guī)模翻十倍，單個(gè)產(chǎn)品能突破千萬 DAU（日活）。”2025 年春節(jié) DeepSeek-R1 震撼全球后， DAU 在 MiniMax 內(nèi)部被視為 “虛榮指標(biāo)”。

這在那個(gè)春節(jié)前的訪談中已有信號(hào)。當(dāng)時(shí)閆俊杰告訴我們，做大模型的一大誤區(qū)是套用移動(dòng)互聯(lián)網(wǎng)的邏輯。更多的用戶和他們帶來的反饋能直接反哺移動(dòng)互聯(lián)網(wǎng)推薦算法，讓它更懂用戶、更精準(zhǔn)，但這些數(shù)據(jù)并不能直接讓模型變得更聰明，現(xiàn)階段提升大模型性能的核心方法是訓(xùn)練和迭代新模型。

不變的是，MiniMax 一直想做服務(wù)普通人的 AI，“Intelligence with everyone”。閆俊杰提及的一些計(jì)劃被陸續(xù)執(zhí)行：比如第一次訪談中他講的 MoE（混合專家系統(tǒng)）和線性注意力機(jī)制——2025 年 1 月發(fā)布的 M1 是第一個(gè)使用線性注意力的千億參數(shù)大模型。也有一些計(jì)劃則暫時(shí)未有后續(xù)，閆俊杰認(rèn)為 “信息獲取” 有做 Agent 的機(jī)會(huì)，但 MiniMax 目前沒有推出公開的產(chǎn)品。

兩次訪談的不同和相同，記錄了這家公司和行業(yè)議題的變化。

2024 年的訪談：AGI 不是大殺器，是普通人每天用的產(chǎn)品

“每件事都是做到極致才會(huì)好”

晚點(diǎn)：一位 OpenAI 的工程師告訴我們，他判斷一位人工智能創(chuàng)業(yè)者到底有沒有真正的 AGI 信仰，就看這個(gè)人是在 ChatGPT 發(fā)布之前創(chuàng)業(yè)還是在這之后。

閆俊杰：MiniMax 是 2021 底創(chuàng)立的，我們剛創(chuàng)業(yè)的那個(gè)時(shí)間點(diǎn)，AGI 在中國還是一個(gè)巨大的非共識(shí)。

我們當(dāng)時(shí)計(jì)算過，把 GPT-3 擴(kuò)大 100 倍需要非常多一筆錢，可能是幾十億美元。但在那個(gè)時(shí)間點(diǎn)，我們顯然不認(rèn)為中國會(huì)有那么多錢愿意支持一家創(chuàng)業(yè)公司。

晚點(diǎn)：有人認(rèn)為你們最開始是做元宇宙的，大模型火了后才說做 AGI。你們?cè)诔霭l(fā)時(shí)到底有多相信 AGI？

閆俊杰：我們是在 ChatGPT 出來之前成立的，大部分公司是在那之后，這是核心的區(qū)別。

ChatGPT 之前，很多事情沒有參考，你不得不做更多嘗試，但最內(nèi)核的還是技術(shù)進(jìn)步，不確定的是產(chǎn)品方向。

我們最開始對(duì) AI 產(chǎn)品的想象是一個(gè)同時(shí)有聲音、形象、文字能力的智能體，我們做過一版有 3D 形象的東西，有點(diǎn)像元宇宙里的數(shù)字人，但它的語言、語音等能力還是用大模型驅(qū)動(dòng)的。

晚點(diǎn)：你認(rèn)為 AGI 到底是什么，假設(shè)有一天 AGI 真的實(shí)現(xiàn)，我們?nèi)绾沃浪呀?jīng)到來？

閆俊杰：那時(shí)候我們有個(gè)模糊的定義，現(xiàn)在也幾乎沒變，就是什么時(shí)候大家認(rèn)為 AI 不是 AI，那一天大概就到來了。

就像我們今天談到抖音，你不會(huì)覺得它是一個(gè)基于推薦系統(tǒng)的內(nèi)容分發(fā)軟件，你只會(huì)覺得抖音就是抖音。

晚點(diǎn)：MiniMax 是國內(nèi)第一個(gè)說 AI 2C 的公司，為什么？

閆俊杰：決定創(chuàng)業(yè)前，我一直在思考什么樣的技術(shù)進(jìn)步可以給社會(huì)帶來足夠高的反饋，想到的有電動(dòng)車、移動(dòng)互聯(lián)網(wǎng)。這些行業(yè)的最大特點(diǎn)都是服務(wù)普通人，而服務(wù)普通人的前提是它能商品化，它是一個(gè)產(chǎn)品，不是一個(gè)項(xiàng)目。

當(dāng)時(shí)整個(gè)人工智能行業(yè)遇到困境，而取得真正成功的行業(yè)又是另一種做法，結(jié)論幾乎只有一個(gè)——要做出足夠產(chǎn)品化、能服務(wù)大眾的人工智能技術(shù)和產(chǎn)品，而不是服務(wù)少數(shù)大客戶的項(xiàng)目。

所以我一直不認(rèn)為 AGI 會(huì)像一個(gè)原子彈、一個(gè)大殺器，它就是普通人每天會(huì)用的一個(gè)產(chǎn)品、一個(gè)服務(wù)——這也是我們最堅(jiān)持的。

而且 AGI 也不應(yīng)該是一家公司自己做出來，它要靠這家公司和它的用戶一起做出來。

晚點(diǎn)：今年 1 月你們是國內(nèi)第一個(gè)推出 MoE 大模型的，其它公司去年主要在迭代 dense（稠密）模型，因?yàn)檫M(jìn)展更快、更確定。做 MoE 是一場豪賭嗎？

閆俊杰：一開始我也認(rèn)為我們?cè)谫€，那幾個(gè)月別人都在快速進(jìn)步，走在更穩(wěn)的路上，而我們?cè)谫€一個(gè)更難的東西。

我們當(dāng)時(shí)放了 80 % 以上的算力和研發(fā)資源做 MoE，而且沒有 Plan B。

晚點(diǎn)：MoE 是 2023 年夏天開始研發(fā)的，為什么當(dāng)時(shí)一定要做這個(gè)？

閆俊杰：第一，我們知道自己有多少基本資源和數(shù)據(jù)，基于這些計(jì)算資源和數(shù)據(jù)，當(dāng)時(shí)只有 MoE 能訓(xùn)完，相當(dāng)于從你能訓(xùn)練的上限來說，必須得是 MoE。

第二，我們當(dāng)時(shí)已經(jīng)有很多用戶，有 2B、2C 的產(chǎn)品，很多模型每天在處理大量 token，我們發(fā)現(xiàn)如果繼續(xù)做 dense 模型，生成 token 的成本和延時(shí)是接受不了的，很快會(huì)崩潰，所以只能做 MoE。

當(dāng)然現(xiàn)在這可能是行業(yè)共識(shí)了，就是如果要做萬億模型，你不可能做一個(gè) dense。

晚點(diǎn)：最后是怎么搞定的？

閆俊杰：過程很痛苦，失敗了兩次。因?yàn)槲覀儽緛砭陀泻芏嗖淮_定性，做新東西又增加了不確定性，它就應(yīng)該遇到挑戰(zhàn)。

比如模型訓(xùn)了半個(gè)月，發(fā)現(xiàn)一些指標(biāo)離前期估測的越來越遠(yuǎn)。就像你發(fā)了一個(gè)火箭，本來以為它可以到三萬米，但它偏航了。你就開始想哪個(gè)地方錯(cuò)了，把問題解完之后，發(fā)現(xiàn)還沒有回到一個(gè)好的狀態(tài)，又失敗了。但你得到了很多經(jīng)驗(yàn)，把經(jīng)驗(yàn)匯聚起來，再來一次。

每一次都是很多錢，更重要的是時(shí)間。

我后來發(fā)現(xiàn)其實(shí)這也不是賭，因?yàn)楹芏嗵魬?zhàn)不是 MoE 本身帶來的，而是更多底層的東西：比如對(duì)實(shí)驗(yàn)方法、網(wǎng)絡(luò)和數(shù)據(jù)結(jié)構(gòu)的探索等等。

后面解決問題也不是因?yàn)榻鉀Q了 MoE，而是找到了過去的不足，讓整個(gè)研發(fā)團(tuán)隊(duì)變得效率更高、更科學(xué)了。

晚點(diǎn)：一個(gè)接觸過你的人評(píng)價(jià)你很有工程化思維，你追求在一個(gè)約束條件下達(dá)到最好的目標(biāo)。

閆俊杰：其實(shí)都是算出來的，我們公司大部分決策都是基于要優(yōu)化某些東西計(jì)算的，我們就是在解方程。

晚點(diǎn)：現(xiàn)在各公司的資源也就是約束條件都變得很快，你計(jì)算時(shí)會(huì)傾向保守還是冒險(xiǎn)？

閆俊杰：我們基本上都選最冒險(xiǎn)的那種，因?yàn)樽雒考露际亲龅綐O致才會(huì)好。

我選的技術(shù)路線也是上限最高的，幾乎沒有退路，選的算力方式也比較激進(jìn)。

晚點(diǎn)：我聽說你們不買 GPU，只租卡。

閆俊杰：我們沒有一塊 GPU ，雖然我們應(yīng)該是中國公司里實(shí)際用 GPU 數(shù)量最多的創(chuàng)業(yè)公司。

因?yàn)槌钟匈Y產(chǎn)會(huì)使動(dòng)作變形。如果我有很多 GPU，在商業(yè)上變得更好的方式就是對(duì)外租 GPU。我還是想讓公司更簡單。

晚點(diǎn)：去年 10 月你們遇到過算力緊缺，怎么避免類似的風(fēng)險(xiǎn)？

閆俊杰：成為市場上最大的客戶。

對(duì)中國創(chuàng)業(yè)公司來說，更好的方式是同時(shí)思考技術(shù)和產(chǎn)品

晚點(diǎn)：李彥宏說創(chuàng)業(yè)公司做 “雙輪驅(qū)動(dòng)” 不是好模式，但你們第一天就要做產(chǎn)品，是怎么決策的？

閆俊杰：一開始創(chuàng)業(yè)其實(shí)沒資格想這些事，因?yàn)槟慵葲]有技術(shù)又沒有產(chǎn)品也沒有用戶。前六七個(gè)月只是把最原始的模型做出來，才有了后面的產(chǎn)品。

假設(shè)你所有東西都是 free 的，假設(shè)你有一個(gè)無限強(qiáng)的組織，那對(duì)你來說，技術(shù)好是最重要的，因?yàn)槟愕挠脩?、流量、商業(yè)化能力都具備了，可以很快試很多產(chǎn)品。

但對(duì)創(chuàng)業(yè)公司不是這樣，如果沒有足夠好的產(chǎn)品能力來承接，即使你有了一些技術(shù)進(jìn)展，這些東西最終也不是你的。一個(gè)獨(dú)立發(fā)展的創(chuàng)業(yè)公司一定要考慮產(chǎn)品。

晚點(diǎn)：OpenAI 也是在做出 GPT-3.5 后才開始做 ChatGPT 這個(gè)殺手級(jí)應(yīng)用。之前 OpenAI 沒那么重視產(chǎn)品。

閆俊杰：那是因?yàn)?OpenAI 的技術(shù)、人才、數(shù)據(jù)積累都有數(shù)量級(jí)的領(lǐng)先，導(dǎo)致它有一個(gè)長達(dá)一年的創(chuàng)業(yè)窗口期。我不認(rèn)為世界上還有什么公司，能再有一個(gè)這么獨(dú)特的的窗口期。

沒有誰會(huì)是 10 倍的 OpenAI，沒人能短時(shí)間里拿出一個(gè)好于全世界十倍的東西。

這就推出來，對(duì)創(chuàng)業(yè)公司，至少對(duì)中國的創(chuàng)業(yè)公司來說，更好的方式是同時(shí)思考技術(shù)和產(chǎn)品。

晚點(diǎn)：有投資人認(rèn)為你們現(xiàn)在做產(chǎn)品有些太早，“在黑莓手機(jī)上做不出抖音”。

閆俊杰：按照這個(gè)觀點(diǎn)，現(xiàn)在也不需要做技術(shù)，現(xiàn)在的技術(shù)也不是五年后的技術(shù)。

但顯然大家都認(rèn)為現(xiàn)在需要做技術(shù)：只有通過做出現(xiàn)在的技術(shù)，才能更深刻理解它，才可能做出未來三年、五年的技術(shù)。

晚點(diǎn)：技術(shù)發(fā)展是漸進(jìn)式的，產(chǎn)品也是嗎？這個(gè)時(shí)代的產(chǎn)品跟上個(gè)時(shí)代的產(chǎn)品完全不同。

閆俊杰：產(chǎn)品也是。中國成功的很多公司，比如米哈游、美團(tuán)、字節(jié)、理想，都有一個(gè)共同特點(diǎn)——它們都不是靠第一個(gè)產(chǎn)品成功的，都是靠第二個(gè)或者更往后的產(chǎn)品才成功的。

這不是我說的，是我的一個(gè)朋友總結(jié)的。

晚點(diǎn)：那你們?yōu)槭裁床桓纱嘀粚Ｗ⒆霎a(chǎn)品？現(xiàn)在有很多開源大模型。

閆俊杰：核心原因在于，對(duì)模型的理解基本上等同于對(duì)產(chǎn)品的理解。產(chǎn)品越往下做，對(duì)模型理解肯定要越深。

另一個(gè)客觀原因是成本和響應(yīng)時(shí)間，如果沒有對(duì)模型的強(qiáng)掌控力，就很難掌握產(chǎn)品成本的變化，也無法調(diào)教對(duì)用戶的響應(yīng)時(shí)間。而且做產(chǎn)品你會(huì)遇到很多問題，什么問題可以解決？什么不能解決？怎么迭代？這些都需要你對(duì)技術(shù)的掌握。

一個(gè)現(xiàn)實(shí)是，去年很多產(chǎn)品是用 GPT-4 做的，為什么沒人做出一個(gè)媲美 ChatGPT 的體驗(yàn)？

晚點(diǎn)：同樣做產(chǎn)品，有人是主做一個(gè)，你們卻同時(shí)做很多，包括 Glow、星野、海螺 AI 等。為什么要做產(chǎn)品組，而不是專注做一兩款產(chǎn)品？

閆俊杰：OpenAI 在 ChatGPT 之后的產(chǎn)品也沒那么成功， OpenAI 做產(chǎn)品都會(huì)失敗，說明現(xiàn)在產(chǎn)品對(duì)技術(shù)的理解，和技術(shù)本身能實(shí)現(xiàn)的東西之間有 gap。

核心就是，即使用最好的技術(shù)，最好的產(chǎn)品，都會(huì)不匹配。

如果你承認(rèn)這個(gè) gap，客觀規(guī)律就是：你該多嘗試、多失敗，找到真正能成功的東西。

晚點(diǎn)：感覺有點(diǎn)像字節(jié)跳動(dòng)做產(chǎn)品的方式。

閆俊杰：我們還沒有資格按照字節(jié)跳動(dòng)的方法做事。

每個(gè)公司都會(huì)選擇最合適自己的形態(tài)。比如對(duì)字節(jié)來說，最重要的是技術(shù)資源，因?yàn)樗挟a(chǎn)品都是 ready 的，且產(chǎn)品資源無限多，所以嘗試越多對(duì)它越有利。而且每次投入，即使產(chǎn)品失敗，也會(huì)帶來更多經(jīng)驗(yàn)和認(rèn)知，這對(duì)他們的提升是巨大的。

我們也一樣。而且相比模型研發(fā)的投入，產(chǎn)品投入的資源占比沒那么大?；谖覀児灸壳暗默F(xiàn)狀，可以算出來這樣成功率最高。

晚點(diǎn)：技術(shù)重要，產(chǎn)品也重要，你們糾結(jié)過到底哪個(gè)更重要嗎？

閆俊杰：之前糾結(jié)過，但現(xiàn)在不糾結(jié)了。

2022 年下半年我們做 Glow ，有一個(gè)經(jīng)歷非常慘痛。當(dāng)時(shí)團(tuán)隊(duì)都感染了新冠，導(dǎo)致 2022 年底最后一次發(fā)版里出現(xiàn)了一個(gè) bug，它把用戶的對(duì)話體驗(yàn)拉低了 15% 左右，我們?cè)┤?DAU 直接掉了 40%。后來實(shí)在受不了，終于在放假最后一天找到了這個(gè) bug，其實(shí)就是非常小的一行算法，把它改了，用戶量很快就回來了。

這個(gè)事給我們的教訓(xùn)就是，現(xiàn)階段產(chǎn)品價(jià)值的來源，核心還是你的模型性能和算法能力。

這樣的事我們經(jīng)歷了好幾次，你可以做很多產(chǎn)品 feature，但你會(huì)發(fā)現(xiàn)，幾乎所有大的提升都來自模型本身的進(jìn)步。

晚點(diǎn)：同時(shí)做大模型和這么多產(chǎn)品，最大的挑戰(zhàn)是什么？

閆俊杰：技術(shù)不夠好，這是最本質(zhì)的。我們的技術(shù)迭代速度已經(jīng)很快了，但離全球頂尖的模型仍有差距。

十倍的 Scaling Laws

晚點(diǎn)：歐洲頭部人工智能公司 Mistral 已經(jīng)開源了 MoE 模型，行業(yè)普遍認(rèn)為 OpenAI 的 GPT-4 也是 MoE，MoE 會(huì)是今年大模型領(lǐng)域的一個(gè)賽點(diǎn)嗎？

閆俊杰：MoE 只是其中一個(gè)環(huán)節(jié)，還有很多其他環(huán)節(jié)。如果一個(gè)東西能寫在一篇論文里，你基本可以認(rèn)為它不是個(gè)絕對(duì)壁壘。

晚點(diǎn)：在這場技術(shù)競賽中，MiniMax 有什么非共識(shí)的判斷嗎？

閆俊杰：這個(gè)行業(yè)如果有什么非共識(shí)，6-9 個(gè)月內(nèi)，很快也會(huì)變成共識(shí)。

現(xiàn)在有三個(gè)大家都能看到的東西：一是 Scaling Laws；二是實(shí)現(xiàn)同樣精度的模型，需要的算力和資金投入可能每年降幾倍，因?yàn)樗惴ê蛯W(xué)術(shù)界公開的東西越來越多，很多人會(huì)做自由探索；三是把精力放在提高數(shù)據(jù)質(zhì)量上，現(xiàn)階段收益更大。

所以從這三點(diǎn)來看——Scaling Laws、同樣精度模型的成本下降、數(shù)據(jù)質(zhì)量提升的重要性——基本可以推出來我們和其他公司的一些決策，我覺得是比較簡單的。

晚點(diǎn)：你怎么理解 Scaling Laws（規(guī)模定律）？它讓你看到了什么可能性？

閆俊杰：Scaling Laws 就是一條曲線，你可以信仰原始的 Scaling Laws，也可以信仰十倍快，甚至百倍快的 Scaling Laws。

2020 年最初提出大模型 Scaling Laws 的論文 “ Scaling Laws for Neural Language Models ” 認(rèn)為影響模型性能的最重要變量是算力、數(shù)據(jù)量和參數(shù)，并給出了這些變量間的數(shù)字關(guān)系：C≈6ND，C 是計(jì)算量（Compute）、D 是數(shù)據(jù)量（Dataset）、N 是模型參數(shù)量（Parameters）；而模型結(jié)構(gòu)和層數(shù)等因素對(duì)性能影響沒那么大。

它更多是提供一個(gè)方法論：即你可以通過更小規(guī)模的實(shí)驗(yàn)來預(yù)測更大實(shí)驗(yàn)的結(jié)果。第二是它能讓行業(yè)對(duì)齊目標(biāo)，因?yàn)檫@件事需要數(shù)據(jù)、算力、芯片、算法和產(chǎn)品等多個(gè)環(huán)節(jié)的分工協(xié)作，Scaling Laws 可以讓大家有相對(duì)一致的預(yù)期。

至于那篇論文里的那個(gè)公式和一些結(jié)論，現(xiàn)在看也不一定對(duì)，比如它認(rèn)為層數(shù)、結(jié)構(gòu)等沒那么重要，至少有幾個(gè)變量現(xiàn)在看是重要的。

晚點(diǎn)：比如呢？什么變量讓你有可能實(shí)現(xiàn)十倍、百倍的 Scaling Laws？

閆俊杰：比如網(wǎng)絡(luò)結(jié)構(gòu)本身也重要。我們做 MoE ，最開始認(rèn)為好的 MoE 結(jié)構(gòu)和好的 dense 結(jié)構(gòu)類似，后面發(fā)現(xiàn)不是，MoE 本身也能加速 Scaling Laws。

還有提升數(shù)據(jù)質(zhì)量；還有算力的分配，你可以把算力分配到訓(xùn)練上，也可以分配到數(shù)據(jù)處理上。不同選擇都可能加速 Scaling Laws。

晚點(diǎn)：Scaling Laws 的力量來自它夠簡潔，當(dāng)你引入更多變量，就破壞了它。

閆俊杰：提升數(shù)據(jù)質(zhì)量、優(yōu)化算法和優(yōu)化訓(xùn)練方法都沒有盡頭，持續(xù)做就會(huì)持續(xù)好。

真正的取舍是，它們對(duì) Scaling Laws 的效率提升在不同周期不一樣快。但你可以通過小規(guī)模實(shí)驗(yàn)來預(yù)測哪些變量在什么階段更重要，這其實(shí)還是 Scaling Laws 的方法論。

為什么在中國一定要做幾倍的 Scaling Laws？當(dāng)算力充足，你可以優(yōu)化原始的 Scaling Laws；算力不充足時(shí)，你必須優(yōu)化一個(gè)幾倍的 Scaling Laws，去達(dá)到相似效果。

這不是不可能的。另一家硅谷 AI 公司 Anthropic 已經(jīng)用更短的時(shí)間做出了類似 GPT-4 的 Claude-3，這其實(shí)就是放大了原始的 Scaling Laws，有一個(gè)就會(huì)有第二個(gè)、第三個(gè)。

晚點(diǎn)：現(xiàn)在被討論很多的長文本（Long Context）會(huì)成為大模型競賽中的一個(gè)差異化路線嗎？

閆俊杰：好的大模型默認(rèn)就應(yīng)該支持長文本。我們一直都有長文本，我們沒在產(chǎn)品里強(qiáng)調(diào)這個(gè)功能，主要還是因?yàn)橛?jì)算成本。

晚點(diǎn)：實(shí)現(xiàn)更長文本處理能力的技術(shù)方法是什么？

閆俊杰：標(biāo)準(zhǔn) Transformer 里之前用的是非線性 attention；而過去一年多，很多人在研究線性的 attention，這就能幫助長文本。

線性 attention 的好處是，當(dāng)文本非常長時(shí)，它的計(jì)算復(fù)雜度會(huì)是線性增長，而不是平方增長。但實(shí)際上 token 在 20 萬、30 萬量級(jí)時(shí)，線性和非線性效果差不多，因?yàn)槎魏瘮?shù)在前期時(shí)近似線性函數(shù)。差別在 80 萬到 100 萬 token 時(shí)才特別明顯。

據(jù)我所知，Google 的 Gemini 1.5 是第一個(gè)接近線性 attention 的模型。你現(xiàn)在調(diào)其它 API，當(dāng)文本非常長時(shí)，響應(yīng)會(huì)很慢。但 Gemini 1.5 真正實(shí)現(xiàn)了一個(gè) 100 萬 token 量的文本，和 50 萬比，響應(yīng)只長 1 倍，而不是長 4 倍。

所以長文本解決的不是 20 萬或 30 萬量級(jí)的問題，而是 100 萬再往上的量級(jí)。

晚點(diǎn)：100 萬 token 近似于能處理 100 萬字，你覺得多少人有這個(gè)需求？

閆俊杰：用戶需求和你提供的能力是相互發(fā)生的，一個(gè)遠(yuǎn)超大家預(yù)期的模型放在這，慢慢會(huì)引起很多人的需求。

比如 ChatGPT 沒有語音通話前，沒人會(huì)說自己的需求是語音通話，但放上去之后，很多人會(huì)用語音通話。

我們做的語音對(duì)話產(chǎn)品——海螺 AI 的通話功能也很受歡迎。我阿公 80 歲，第一次用這個(gè)產(chǎn)品就和它討論了四五十分鐘的歷史人物，我之前想不到有人會(huì)這么來用它。

晚點(diǎn)：看起來你們是在產(chǎn)品里先強(qiáng)調(diào)了語音等多模態(tài)能力，而不是長文本。怎么判斷先優(yōu)化什么技術(shù)能力？

閆俊杰：我們有一句話，Intelligence with everyone，我們并不是這個(gè)技術(shù)的 owner，這是我們最核心的信仰。

去年人工智能非?；?，但全世界用過 AI 產(chǎn)品的人可能只有 1 到 2 億，重度用戶只有幾千萬。因?yàn)樘岢鲆粋€(gè)好的問題以及連續(xù)追問，門檻非常高，真正愿意打字的可能就是在座的這些人。更多人還是習(xí)慣用語音。

我們看重多模態(tài)，也是因?yàn)樗梢宰尭嗳藖硎褂?AI，包括老人和小孩。當(dāng)我們?cè)诋a(chǎn)品里加入圖片和語音時(shí)，可以明顯觀察到用戶的上手門檻，甚至滲透率的變化。從今日頭條到抖音，一模一樣的事在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域已經(jīng)發(fā)生過一次了。

越到后期，用戶的價(jià)值越高

晚點(diǎn)：你們推出的第一個(gè)產(chǎn)品 Glow，讓用戶和自己定制的 AI 角色交流，類似乙女游戲（戀愛角色扮演），在二次元圈子很流行，當(dāng)時(shí)怎么想到做這個(gè)方向的？

閆俊杰：我們?cè)缙谧霎a(chǎn)品冷啟動(dòng)時(shí)，針對(duì)性地找了不少年輕群體，比如 AI 愛好者、二次元人群，根據(jù)他們的體驗(yàn)和反饋?zhàn)隽饲皫装娴牡?/p>

起量后，我們每天都盯著社媒用戶咋用的。我們做產(chǎn)品早期沒做過 AB testing，都是觀察用戶看用戶反饋，再看數(shù)據(jù)驗(yàn)證和迭代。

晚點(diǎn)：做產(chǎn)品踩過什么坑？

閆俊杰：最早我們做智能體，當(dāng)時(shí)對(duì)它的想象是同時(shí)具有聲音、形象和文字的能力，這也是為什么公司剛成立就做了三個(gè)模型——語言、語音、視覺。

很快我們放棄了 3D 形象，因?yàn)樗荒芤?guī)?；坝?3D 的大行業(yè)只有游戲和電影，研發(fā)周期都是幾年；同時(shí)，我意識(shí)到用深度學(xué)習(xí)來做 3D 這件事不對(duì)。

在目前的載體——手機(jī)上，如果一個(gè) 3D 人一直看著你，這本身就很奇怪。大部分情況下，交互其實(shí)不需要有一個(gè)真的形象。

晚點(diǎn)：是上線后通過某些數(shù)據(jù)看出來的？

閆俊杰：不是數(shù)據(jù)。當(dāng)時(shí)做第一版形象，找了兩個(gè)模特去拍。當(dāng)把 3D 放進(jìn)手機(jī)的那個(gè)瞬間，我們就知道這件事是不對(duì)的。

晚點(diǎn)：你們第一個(gè)模型還沒做出來，就招了產(chǎn)品經(jīng)理，當(dāng)時(shí)你如何向他描述你想要一個(gè)怎樣的產(chǎn)品？

閆俊杰：不知道。

晚點(diǎn)：你說不知道？

閆俊杰：那個(gè)時(shí)候是不清晰的，因?yàn)闆]有任何參考。我們只是想象有一個(gè)智能體可以和你自由、長時(shí)間的對(duì)話，它的本質(zhì)是信息的交換和處理。

我們能確定的是，模型最重要是服務(wù)大眾，那它一定會(huì)是一個(gè)產(chǎn)品。所以我們最早就找了產(chǎn)品經(jīng)理。

晚點(diǎn)：用戶有很多需求，滿足什么不滿足什么？

閆俊杰：我們的取舍到后面變得簡單，看這個(gè)需求是否符合技術(shù)發(fā)展的趨勢，是否能對(duì)這類用戶的體驗(yàn)帶來 10 倍以上的變化。

晚點(diǎn)：產(chǎn)品審美上，你認(rèn)為怎樣的產(chǎn)品是好產(chǎn)品？你們現(xiàn)在的產(chǎn)品玩法很多，有點(diǎn)復(fù)雜。

閆俊杰：坦白說，我們現(xiàn)在還沒有做出來，所以沒有答案。

當(dāng)你問產(chǎn)品是復(fù)雜好還是簡單好，大部分人一定會(huì)說簡單好。但我自己比較懷疑這件事，尤其在一個(gè)行業(yè)發(fā)展前期。你想騰訊在做出微信之前，也是因?yàn)橄茸龀隽?QQ，而 QQ 是一個(gè)非常復(fù)雜的產(chǎn)品。

ChatGPT 大概 3000 萬 DAU ，似乎很難再增加。我的結(jié)論是，一個(gè)偏簡單的 AGI 產(chǎn)品，在目前的技術(shù)階段，上限可能也就是這樣，但最終我相信會(huì)有很簡單的交互形態(tài)滿足更廣泛的需求。

晚點(diǎn)：Sora （OpenAI 發(fā)布的文生視頻大模型）的出現(xiàn)對(duì)你有什么啟發(fā)？

閆俊杰：如果 Sora 的響應(yīng)速度未來能變得非?？?，生成一個(gè) 1 分鐘的視頻不是像現(xiàn)在這樣要花 20 分鐘，而是可以實(shí)時(shí)生成，這會(huì)是很大的變化。

那它到底會(huì)是一個(gè)更好的生成視頻工具，還是一個(gè)更好的生成視頻的社區(qū)呢？

晚點(diǎn)：生成視頻的社區(qū)，再往下一步不就是超級(jí)內(nèi)容平臺(tái)？

閆俊杰：都可以想，取決于你是不是相信這個(gè)東西空間足夠大，以及你是不是相信響應(yīng)時(shí)間能變得足夠低。

晚點(diǎn)：你認(rèn)為未來用戶量最大的 AI 產(chǎn)品可能會(huì)是什么？

閆俊杰：我們只做出了日活百萬的產(chǎn)品，還沒有做出千萬級(jí)或者十億級(jí)的產(chǎn)品，坦白說不知道。我覺得可能還是信息的交換和處理，它的價(jià)值是巨大的。

晚點(diǎn)：MiniMax 產(chǎn)品的日活已接近 Character.AI（美國 AI 獨(dú)角獸開發(fā)的一個(gè)可以和各種 AI 角色聊天、互動(dòng)的應(yīng)用），使用時(shí)長甚至更長。但有人質(zhì)疑你們數(shù)據(jù)好不是因?yàn)榧夹g(shù)好，而是因?yàn)檐浬椤?/strong>

閆俊杰：我們做過分析，真正讓用戶留下來的東西絕不是所謂軟色情。比如我們的產(chǎn)品星野，它的核心是給用戶提供一個(gè)能夠發(fā)揮創(chuàng)造力和想象力的平臺(tái)。

我們花了很多時(shí)間和精力來確保內(nèi)容是更加正向的，持續(xù)提升平臺(tái)的安全能力。

晚點(diǎn)：技術(shù)提升能對(duì)產(chǎn)品帶來多大提升？你們?cè)谛且吧嫌昧?MiniMax 自研的 MoE 模型，效果怎樣？

閆俊杰：上線當(dāng)天的消息量漲了 40%。響應(yīng)更快了，之前響應(yīng)要 4 秒，現(xiàn)在是 1 秒，這不光是因?yàn)?MoE，還有一些其它推理優(yōu)化。

晚點(diǎn)：技術(shù)提升速度越快，和用戶量越大，是因果關(guān)系嗎？

閆俊杰：這非常 tricky。如果你是行業(yè)第一名，是 OpenAI，那它大概率是因果關(guān)系；如果你不是第一名，那就不是因果關(guān)系。

過去一年中國很多大模型公司沒有很多用戶，技術(shù)也會(huì)提升，因?yàn)槟阒灰獙W(xué)第一名就可以進(jìn)步。但長期看，如果你認(rèn)為自己的模型可以接近最好的模型，那用戶的權(quán)重和價(jià)值會(huì)越來越高。

這個(gè)就像算力，擁有更多的算力就能做出更好的模型嗎？不一定，提升數(shù)據(jù)質(zhì)量可能是 ROI 更高的事。但長期看，你有更多的算力，一定可以做出更好的模型。所以要看周期。

晚點(diǎn)：AI 原生的超級(jí)產(chǎn)品和移動(dòng)互聯(lián)網(wǎng)時(shí)代的超級(jí)產(chǎn)品，你認(rèn)為會(huì)有什么不同？

閆俊杰：做移動(dòng)互聯(lián)網(wǎng)產(chǎn)品，大家特別在意有沒有挖到一個(gè)用戶痛點(diǎn)。但去年 DAU 超百萬的六七個(gè) AI 原生產(chǎn)品都不是針對(duì)痛點(diǎn)設(shè)計(jì)的，是把一個(gè)突破性技術(shù)釋放，慢慢變成了產(chǎn)品。反而是后面針對(duì)性設(shè)計(jì)功能時(shí)都不太成功，比如 ChatGPT Plugins 和 GPT-S。如果技術(shù)進(jìn)步速度慢下來，又會(huì)變成產(chǎn)品推動(dòng)的方式。

目前的產(chǎn)品方法還是技術(shù) driven，而非產(chǎn)品 driven。

晚點(diǎn)：你們的產(chǎn)品功能現(xiàn)在已經(jīng)比較細(xì)，比如海螺 AI 經(jīng)常有消息推送，吸引用戶點(diǎn)開，你們實(shí)際上做了比較多產(chǎn)品優(yōu)化？

閆俊杰：最近我們也在在反思，產(chǎn)品功能點(diǎn)太全面，也許是一個(gè)偏負(fù)向的事，說明你在最核心的功能上沒有花最多的精力。

晚點(diǎn)：今年給團(tuán)隊(duì)什么目標(biāo)？

閆俊杰：技術(shù)上如何達(dá)到 GPT-4，產(chǎn)品上如何把用戶規(guī)模翻十倍，單個(gè)產(chǎn)品能突破千萬 DAU。

晚點(diǎn)：10 倍增長，這么大。

閆俊杰：其實(shí)不大，移動(dòng)互聯(lián)網(wǎng)產(chǎn)品都是億級(jí) DAU。

靠融資打不死別人

晚點(diǎn)：你覺得以中國目前整個(gè)市場的錢和資源，能夠支撐幾家做 AGI 的創(chuàng)業(yè)公司？

閆俊杰：不會(huì)只有一家，總資源量是夠的。

晚點(diǎn)：今天很多投資人已經(jīng)不看大模型了，他們認(rèn)為做大模型，創(chuàng)業(yè)公司沒機(jī)會(huì)。

閆俊杰：我經(jīng)歷過靠融資堆起來的上一個(gè) AI 的發(fā)展階段。假設(shè)一家公司需要靠不停融資來發(fā)展，那這個(gè)公司真正的優(yōu)化，可能會(huì)變成怎樣說服投資人給它更多的錢。

我自己內(nèi)心的路徑是，通過慢慢服務(wù)用戶，產(chǎn)生一些合理的商業(yè)化。當(dāng)然因?yàn)橛芯薮蟮难邪l(fā)投入，這件事短期很難實(shí)現(xiàn)，但我認(rèn)為應(yīng)該探索這條路。

晚點(diǎn)：整個(gè)市場資源有限時(shí)，第一名難道不應(yīng)該努力融到市場上最多的錢，讓其他人拿不到錢？上一波移動(dòng)互聯(lián)網(wǎng)的競爭很多是這樣。

閆俊杰：你瘋狂的融錢，別人都會(huì)融不到錢——我認(rèn)為這是不對(duì)的，靠融資是打不死其他人的。

因?yàn)榕旁谇懊娴闹袊鴦?chuàng)業(yè)公司，沒有誰的資源能比別人多一個(gè)量級(jí)。拐點(diǎn)只可能來自于技術(shù)、產(chǎn)品或者是商業(yè)化效率的領(lǐng)先。

晚點(diǎn)：那算力怎么解決？算力資源也很稀缺。

閆俊杰：中國現(xiàn)在有算力，比之前多。另外還是回到 Scaling Laws，算力不充足時(shí)，要找一種方法優(yōu)化幾倍的 Scaling Laws，達(dá)到相似的效果。

晚點(diǎn)：怎么評(píng)判你們和 OpenAI 的差距？

閆俊杰：我們自己有一個(gè)指標(biāo)，可以叫 “開箱可用率”，就是看客戶或開發(fā)者接一個(gè)大模型 API，能不能較快完成一個(gè)復(fù)雜需求。

從我們自己的開放平臺(tái)看，幾乎所有需求 GPT-4 都可以跑通。比如去年遇到的一個(gè)需求是，用戶提供一本小說，讓模型生成分角色、帶語氣的有聲劇。

非常精細(xì)地使用 GPT-4 可以做到，而我們自己的模型當(dāng)時(shí)不行，但現(xiàn)在可以做到了。

晚點(diǎn)：那你們和中國同行的差距呢？

閆俊杰：沒有都測。因?yàn)闇y與不測，不會(huì)改變我們做的事。

晚點(diǎn)：2024 年，中國大模型行業(yè)會(huì)發(fā)生什么？

閆俊杰：中國公司會(huì)做出類似 GPT-4 的東西，并且不止一家。但更應(yīng)該思考的是，再往后該怎么辦？

把公司當(dāng)函數(shù)

晚點(diǎn)：你剛才說寫在論文里的東西都不是壁壘，那這個(gè)領(lǐng)域真正的壁壘是什么？

閆俊杰：你發(fā)現(xiàn)很神奇，拼多多前身是拼好貨，美團(tuán)是團(tuán)購，字節(jié)是今日頭條，都不是后來真正大成的產(chǎn)品。

大成與小成的區(qū)別是，大成的公司都做了組織創(chuàng)新，這讓它們能持續(xù)做出越來越強(qiáng)的東西。

晚點(diǎn)：壁壘難道不是寫出論文的人嗎？

閆俊杰：我說一個(gè)非常恐怖的觀點(diǎn)，對(duì)大模型這個(gè)領(lǐng)域貢獻(xiàn)前 20，甚至前 50 的人，可能沒有一個(gè)人在中國公司工作。

我們現(xiàn)在靠天才路徑不 work。目前唯一的方式就是聚攏一些基本素質(zhì)足夠優(yōu)秀的人，做一個(gè)比較好的成長型組織，不斷一起突破挑戰(zhàn)，讓大家高速成長起來。希望三年之后，對(duì)這個(gè)領(lǐng)域貢獻(xiàn)前 20、前 50 的人能來自中國公司。

晚點(diǎn)：想怎么打造這個(gè)組織？

閆俊杰：我覺得是在優(yōu)化一個(gè)函數(shù)，這個(gè)函數(shù)沒有解析解，本質(zhì)是尋找梯度下降最快的方向。

晚點(diǎn)：舉個(gè)例子？怎么找到梯度下降最快的方向？

閆俊杰：比如在提升技術(shù)進(jìn)步速度上，就是學(xué)習(xí) OpenAI，因?yàn)樗亲畲_定的。

不是指把模型參數(shù)搞成和它一樣，而是學(xué)習(xí)怎么讓實(shí)驗(yàn)方法更科學(xué)；怎么更快試錯(cuò)，更高效迭代；怎么把問題定義得更清晰、簡潔。

晚點(diǎn)：追求梯度下降可能陷入局部最優(yōu)，但脫靶長期目標(biāo)，怎么避免呢？

閆俊杰：我們自己的變化是，從非常含糊地看數(shù)據(jù)，到非常深入地看數(shù)據(jù)，再到意識(shí)到光看數(shù)據(jù)還不夠，需要加上更好的 insight。

很多 insight 其實(shí)來自面向長期的思考。舉例來說，如果只看產(chǎn)品短期數(shù)據(jù)，就不會(huì)意識(shí)到要做一個(gè)新的多模態(tài)模型。

晚點(diǎn)：可是優(yōu)化函數(shù)的方法能處理人性問題嗎？比如技術(shù)和產(chǎn)品團(tuán)隊(duì)間的拉扯。

閆俊杰：在做實(shí)驗(yàn)設(shè)計(jì)或產(chǎn)品時(shí)，數(shù)據(jù)埋點(diǎn)更細(xì)，盡可能用這些埋點(diǎn)推測出真正的問題，而不是靠我或任何人的主觀判斷。

我們相信數(shù)據(jù)科學(xué)，這些東西也不是我們發(fā)明的，中國互聯(lián)網(wǎng)公司已經(jīng)做得非常到位了。

晚點(diǎn)：你之前說希望組織更輕，但你們已經(jīng) 300 人了，其中大部分都是過去一年入職的。

閆俊杰：其實(shí)還是很簡單，組織結(jié)構(gòu)只有三層，我，我的-1 和我-1 的-1。

可以說我們只有三個(gè)部門：一個(gè)技術(shù)部門，我來負(fù)責(zé)；一個(gè)產(chǎn)品部門，分 C 端產(chǎn)品和開放平臺(tái)，各有一個(gè)負(fù)責(zé)人；一個(gè)運(yùn)營和增長部門，既做產(chǎn)品增長，也做公司增長，HR 也在這里，有一個(gè)整體負(fù)責(zé)人。

晚點(diǎn)：你們的同行，智譜有約 1000 人，月之暗面有約 200 人，你們是 300 人，人數(shù)的差別背后是什么？

閆俊杰：這個(gè)東西就看你信啥了，我們不需要向其他人證明什么，我們就信我們做的事。一些不必要的崗位，我們就不太需要。我們需要做啥事，我們就招做啥事的人。

但我們要做一定規(guī)模的前端產(chǎn)品，所以除了算法跟應(yīng)用數(shù)據(jù)人才外，我們還需要做推理系統(tǒng)、線上服務(wù)、開發(fā)和產(chǎn)品運(yùn)營的人才。

晚點(diǎn)：現(xiàn)階段最缺什么人才？

閆俊杰：更多算法的人才。我們現(xiàn)在知道怎么做實(shí)驗(yàn)，我們的資源也可以做很多實(shí)驗(yàn)，但做實(shí)驗(yàn)的人不夠。

今年視頻生成模型會(huì)變得很實(shí)用。按去年情況，第一個(gè)做出來的產(chǎn)品更容易取得大成功，現(xiàn)在很多公司都在追求成為第一個(gè)。

晚點(diǎn)：如何識(shí)別合適你們的人？

閆俊杰：他的加入能使團(tuán)隊(duì)整體輸出變高。但這需要一些后驗(yàn)，有些非常強(qiáng)的人其實(shí)沒法融入團(tuán)隊(duì)，而有些看起來沒那么強(qiáng)的人卻可以使整體輸出變強(qiáng)。

所以面試時(shí)，我會(huì)關(guān)注他在重要項(xiàng)目里和周圍人的合作，包括和 mentor，和上下游怎么合作。

晚點(diǎn)：你在商湯管過很大的技術(shù)團(tuán)隊(duì)，對(duì)于如何管理一群技術(shù)人才，有什么心得？

閆俊杰：當(dāng)你想來做管理的時(shí)候，可能就會(huì)開始走偏了。

最重要的還是怎么讓大家一起做出更強(qiáng)的東西，超出用戶期待，也超出團(tuán)隊(duì)自己的期待。AI 現(xiàn)在可能是一個(gè)風(fēng)口浪尖的行業(yè)，但也沒那么神奇，它至少是一個(gè)科學(xué)，那就按照科學(xué)的方法做事：一是整體人才的水平高；二是整個(gè)組織有一套類似數(shù)據(jù)科學(xué)的方法，可以把有效的東西快速識(shí)別出來。

這兩件事?lián)皆谝黄穑褪俏覀冋嬲龅氖隆?/p>

晚點(diǎn)：如何吸引更強(qiáng)的人加入你們？

閆俊杰：本質(zhì)上還是組織強(qiáng)，能持續(xù)做一些好的事。我們也只能找到這么一條路徑。

晚點(diǎn)：希望公司形成怎樣的文化？

閆俊杰：第一是不走捷徑，我們好多次走捷徑，結(jié)果都被打得很慘；第二個(gè)是 User-in-the-Loop；第三是技術(shù)驅(qū)動(dòng)。

這都是我們基于此前的經(jīng)驗(yàn)和教訓(xùn)總結(jié)出來的。

自己好像慢慢變成了一組基函數(shù)

晚點(diǎn)：商湯是你的第一份工作，它給你留下了什么烙??？

閆俊杰：我覺得主要是對(duì)集中力量干大事的技術(shù)路線的自信。

還有一些反饋是刻骨銘心的，這也是為什么我希望 MiniMax 的組織足夠簡單，因?yàn)樵谝粋€(gè)組織里，大家覺得一個(gè)事不對(duì)，但又不直接說，這對(duì)所有人都是一個(gè)很大的傷害。

晚點(diǎn)：當(dāng)時(shí) AGI 還是非共識(shí)，你怎么就意識(shí)到了它是個(gè)方向？

閆俊杰：其實(shí)來自我的一次偶然思考。2020 年我還在商湯帶技術(shù)團(tuán)隊(duì)，有一天我突然發(fā)現(xiàn)，每天 AI 領(lǐng)域的論文我已經(jīng)看不完了，這對(duì)我觸動(dòng)非常大。

我作為一個(gè)做技術(shù)的，那時(shí)每天的技術(shù)進(jìn)展已經(jīng)超出我的理解范圍了。人的進(jìn)化速度是很慢的，唯一的方式是有更好的人工智能來幫助技術(shù)發(fā)展，或者加快人的研究速度。

當(dāng)時(shí)我還有另一個(gè)觀察，就是 2020 年之前的人工智能，比如我在商湯做的很多事情，它給社會(huì)帶來的收益和價(jià)值沒那么大。

這就有非常大的矛盾：你相信人工智能長期對(duì)社會(huì)有價(jià)值，只有它才能讓人類的技術(shù)進(jìn)步速度變得更快；另一方面，你做的很多事并沒有直接促成它。

是因?yàn)椴粔蛑匾晢幔匡@然不是，當(dāng)時(shí)社會(huì)對(duì)人工智能的關(guān)注度、投入的資金量非常巨大?？紤]到這幾點(diǎn)，唯一的可能性就是我們的技術(shù)路線不對(duì)，或者我們關(guān)注的問題不是人工智能應(yīng)該真正去解決的問題。

晚點(diǎn)：上一代 AI 從業(yè)者其實(shí)很多都意識(shí)到了這個(gè)矛盾，但大家都找不到出路。

閆俊杰：2021 年初 OpenAI 發(fā)布的 CLIP 對(duì)我非常重要，那時(shí)我開始意識(shí)到自然語言和計(jì)算機(jī)視覺之間沒有本質(zhì)區(qū)別，就是一套統(tǒng)一的機(jī)器學(xué)習(xí)系統(tǒng)。我看到了技術(shù)上出現(xiàn)更通用人工智能的可能性。

當(dāng)這件事發(fā)生時(shí)，如果你真的相信人工智能，你就應(yīng)該去做點(diǎn)什么。

晚點(diǎn)：你是如何學(xué)習(xí)的？

閆俊杰：認(rèn)識(shí)比自己更強(qiáng)的人，這可能是創(chuàng)業(yè)能帶給我的為數(shù)不多的短期滿足，我很幸運(yùn)遇到了一些非常 top 的人，給了我一些視角。當(dāng)你從更高層面思考，很多東西反而沒那么難了。其次我會(huì)看很多論文。

晚點(diǎn)：你說要避免產(chǎn)品的全面優(yōu)秀，那你自己是全面優(yōu)秀嗎？你在商湯的晉升速度很快，從研發(fā)開始，做到了集團(tuán)副總裁，好像各種職能都能勝任。

閆俊杰：我不覺得我是全面優(yōu)秀。過去我能做很多工作，可能跟我的成長經(jīng)歷有關(guān)，我出生在河南一個(gè)小縣城，很多東西周圍沒有人教，只能靠自己，這就形成了自己領(lǐng)悟事情的能力。我也不想這樣，我是被迫變成這樣。

但今天看，這個(gè)能力還是非常有用的。當(dāng)我去做一個(gè)沒做過的事，能快速找到一些底層邏輯。

晚點(diǎn)：你覺得自己的短板是什么？

閆俊杰：雖然做過一些技術(shù)，但我不是最 top 的研究者，可能只是一個(gè)二流研究者。

晚點(diǎn)：還好吧，你的論文在 Google Scholar 上有接近 3 萬次引用。

閆俊杰：全世界最 top 的那個(gè)人可能是 30 萬。

晚點(diǎn)：你說要把公司當(dāng)函數(shù)，那你覺得自己是一個(gè)什么函數(shù)？

閆俊杰：（想了很久）之前上學(xué)的時(shí)候?qū)W泰勒展開，我看到一個(gè)復(fù)雜的東西是可以用一些簡單的函數(shù)組合來逼近的。

也就是說，你可以用一組基函數(shù)來逼近任意的函數(shù)。我感覺自己好像慢慢變成了一些基函數(shù)，通過一些不同權(quán)重的組合，在需要的時(shí)候變成不同的形態(tài)。

晚點(diǎn)：聊了這么久，發(fā)現(xiàn)還沒有談到改變世界、改變?nèi)祟悺?/strong>

閆俊杰：真正想做的事不應(yīng)該天天說。

晚點(diǎn)：那今天可以說說嗎？

閆俊杰：還是 “Intelligence with everyone”，這句話有兩個(gè)解釋，一是我們希望用最好的技術(shù)服務(wù)每一個(gè)人，二是我們實(shí)現(xiàn) AGI 的過程中需要和用戶一起迭代、成長。

以及我看到了比想象得更快的技術(shù)進(jìn)步速度。

2025 年的訪談：千萬別套用移動(dòng)互聯(lián)網(wǎng)的邏輯來做 AI

“如果可以重新選，應(yīng)該第一天就開源”

晚點(diǎn)：你們發(fā)布 MiniMax-01 系列新模型后，得到了什么有意思的反饋？

閆俊杰：技術(shù)人員比較關(guān)注的是，第一次有一個(gè)很大的模型沒有完全用傳統(tǒng)的 Transformer 架構(gòu)，架構(gòu)層也可以創(chuàng)新。

而一些非算法的合作伙伴和朋友說，覺得我們好像有點(diǎn)上道了，開始意識(shí)到要做技術(shù)品牌了，合作起來也少了不開源導(dǎo)致的各種限制。

晚點(diǎn)：那你們真的上道了嗎？

閆俊杰：這是我們第一個(gè)開源系列模型，本質(zhì)上兩個(gè)原因：第一是我們認(rèn)為真正有價(jià)值的事，不是當(dāng)前做得怎么樣，而是技術(shù)進(jìn)化速度。而開源會(huì)加速技術(shù)進(jìn)化，做得好的地方有鼓勵(lì)，不好的地方會(huì)有很多批評(píng)，外面的人也會(huì)有貢獻(xiàn)，這是我們開源的最大驅(qū)動(dòng)力。

第二是，過去兩三年，我們做得特別不好的一件事兒是，對(duì)技術(shù)品牌沒有很深的認(rèn)知。技術(shù)品牌之所以重要，本質(zhì)也是因?yàn)檫@個(gè)行業(yè)最大的驅(qū)動(dòng)力是技術(shù)進(jìn)化。這需要算力、數(shù)據(jù)、錢，也需要足夠好的人。

晚點(diǎn)：DeepSeek-V3 在全球技術(shù)社區(qū)爆火，是不是刺激你們了？此前在 Hacker News 上搜 DeepSeek，有 470 多個(gè)帖子，而搜 MiniMax 很少。

閆俊杰：我們意識(shí)到要做技術(shù)品牌時(shí)，DeepSeek-V3 還沒有發(fā)布。

我和梁文鋒 2023 年初認(rèn)識(shí)后，他有兩件事對(duì)我有啟發(fā)：一是他們的品牌做得非常好，它的信譽(yù)和口碑是量化行業(yè)最好的之一。另一個(gè)啟發(fā)是，DeepSeek 一開始沒有產(chǎn)品，所以更聚焦。

晚點(diǎn)：為什么沒有更早開源？

閆俊杰：第一次創(chuàng)業(yè)，很多經(jīng)驗(yàn)不具備。如果可以重新選，應(yīng)該第一天就開源。

如果我是 OpenAI，我今天都應(yīng)該開源，因?yàn)樗暮诵哪芰σ呀?jīng)不是模型比 Claude 或 Gemini 好多少，而是 ChatGPT 的品牌與心智。

我們這次開源，也不會(huì)自己藏一個(gè)更好的東西，這沒有意義，所有模型一年之后都會(huì)落后。我們的通用模型也會(huì)持續(xù)開源。

晚點(diǎn)：MiniMax 成立之初就是同時(shí)要做模型和產(chǎn)品。而 DeepSeek 梁文鋒曾說現(xiàn)階段不做產(chǎn)品，只做模型，你怎么看這個(gè)策略？

閆俊杰：首先，DeepSeek 最近也有 App 了。

但反過來說，我覺得中國人工智能產(chǎn)業(yè)過去一兩年一直有個(gè)巨大的誤區(qū)：就是認(rèn)為用戶越多，模型能力提升越快。這個(gè)邏輯非常錯(cuò)。

你看 ChatGPT 的 DAU 是 Claude 的 50 倍到 100 倍，但它的模型并沒有好 50 倍，二者其實(shí)差不多。這就反映，智能水平的提升，其實(shí)沒那么依賴要有很多用戶。

晚點(diǎn)：不是用戶越多，模型能力就提升越快——去年這個(gè)觀點(diǎn)幾乎沒人信。

閆俊杰：這個(gè)事要分兩層看：

一是模型是產(chǎn)品出現(xiàn)的驅(qū)動(dòng)力。比如去年有很多視頻產(chǎn)品，這是因?yàn)橛辛烁鼜?qiáng)的視頻模型。

但模型卻不是基于用戶反饋和數(shù)據(jù)迭代才變好的。Claude 3.5 Sonnet 的代碼能力很好或市面上的視頻模型很強(qiáng)，不是因?yàn)橹耙呀?jīng)有了很大的編程或視頻 AI 產(chǎn)品，而是先定了一個(gè)技術(shù) benchmark，才做到的。

所以，更好的模型可以導(dǎo)向更好的應(yīng)用，但更好的應(yīng)用和更多用戶并不會(huì)導(dǎo)向更好的模型。

這個(gè)現(xiàn)象的底層原理是，在日常使用中，模型比大部分用戶更聰明，大部分用戶的 query（查詢）其實(shí)沒有模型自己模擬得好。

晚點(diǎn)：這個(gè)誤區(qū)讓整個(gè)行業(yè)走了什么彎路？

閆俊杰：為了有更多用戶，就花大量的錢來買流量。更核心的是，中國大部分公司，不管創(chuàng)業(yè)公司還是大廠，都還在用做推薦系統(tǒng)的方法來做大模型產(chǎn)品。

比如一個(gè)內(nèi)容產(chǎn)品，你沒法明確知道什么會(huì)火，所以就要大量做 AB Test，這是高效的。但這個(gè)邏輯到了模型里，就變成不同研究員去嘗試不同算法，在不同 feature（功能）上做不同實(shí)驗(yàn)，不行的話再累加。這不是做 AGI 的方式。

晚點(diǎn)：什么才是才是更合適的方式？

閆俊杰：應(yīng)該非常清晰地定義模型能力分級(jí)，然后搞清楚每一代提升，需要什么樣的算法、數(shù)據(jù)和推理過程，通過技術(shù)手段來逼近定義好的指標(biāo)。

晚點(diǎn)：你什么時(shí)候有了這個(gè)認(rèn)知的？這和你們這次更新的關(guān)系是什么？

閆俊杰：去年 3、4 月。我們想清楚之后，就干了幾件事兒。

第一是，技術(shù)和產(chǎn)品要分開，技術(shù)就是要不斷提升上限，這需要定義好下一代能力。比如為什么這次用了全新架構(gòu)，本質(zhì)是因?yàn)槲覀冋J(rèn)為 long context（長上下文）很重要。

第二是，不要認(rèn)為有產(chǎn)品之后模型就會(huì)變好，產(chǎn)品的目的不是讓模型變好，它就是一個(gè)商業(yè)化產(chǎn)品。真正需要思考的是怎么更好滿足用戶。

晚點(diǎn)：那么對(duì)你們來說，到底是技術(shù)更重要還是產(chǎn)品更重要？MiniMax 是一家技術(shù)驅(qū)動(dòng)的公司，還是產(chǎn)品驅(qū)動(dòng)的公司？

閆俊杰：我們非常明確，自己是一家技術(shù)驅(qū)動(dòng)的公司。它不是一個(gè)口號(hào)，實(shí)質(zhì)是，當(dāng)遇到?jīng)_突時(shí)誰說了算？

晚點(diǎn)：可以舉一個(gè)技術(shù)說了算的例子嗎？

閆俊杰：比如海螺視頻，按月訪問量，現(xiàn)在是全球最大的視頻生成產(chǎn)品了，但它頁面還很粗糙，甚至我們剛上線時(shí)，有很多海外用戶，卻沒有英文界面。

一定會(huì)有用戶提，為什么 Runway 支持一個(gè)功能你沒有，為什么可靈出了 App 你沒有。但一旦你去解決這些簡單問題，模型進(jìn)步速度就會(huì)變慢，因?yàn)榫?huì)分散。當(dāng)時(shí)我們的選擇就是聽算法的，優(yōu)先做算法上限高的功能。

再比如，上線一個(gè)比較大的算法變化，可能會(huì)影響用戶數(shù)據(jù)時(shí)，怎么選？還是根據(jù)算法趨勢來決策。2023 年時(shí)還會(huì)糾結(jié)，2024 年基本不糾結(jié)了。

晚點(diǎn)：經(jīng)過去年，圍繞大模型創(chuàng)業(yè)的討論從 “誰又融資了” 變成 “誰會(huì)先倒下”。你覺得誰會(huì)先倒下？誰會(huì)活到最后？

閆俊杰：我覺得其實(shí)不應(yīng)該把創(chuàng)業(yè)公司分成一個(gè)單獨(dú)類別。創(chuàng)業(yè)公司之間比其實(shí)意義不大，應(yīng)該是整個(gè)行業(yè)一起。

以及我想說，我覺得 DeepSeek 和智譜是挺不錯(cuò)的。DeepSeek 很純粹。智譜，他們是最早有 AI 路線圖的，這點(diǎn)我很佩服。

“一年前最喜歡說信仰的那些人，信仰都兌現(xiàn)了嗎？”

晚點(diǎn)：你描述的技術(shù)邏輯一以貫之，但一位投資人對(duì) MiniMax 的觀察是：你們 21 年融資時(shí)講虛擬人，后面又做 Glow、星野這種類 Character.ai 產(chǎn)品；Kimi 火了之后，重啟了生產(chǎn)力工具海螺；Sora 之后，放了更多資源做視頻生成；接著是現(xiàn)在的開源。

你們好像一直在隨熱點(diǎn)而動(dòng)。

閆俊杰：這是一些誤解。我們從來就不是想做一個(gè)數(shù)字人，只是我們?nèi)昵皠?chuàng)業(yè)時(shí)，我們說要做無限接近圖靈測試的智能體，有投資人理解為數(shù)字人，當(dāng)時(shí)還沒有大模型投資概念；而我們開始做 Glow 時(shí)還沒有 Character.ai；海螺是兩年前就推出了，只是前一年沒有做起來，當(dāng)大家意識(shí)到這個(gè)方向火時(shí)，Kimi 產(chǎn)品體驗(yàn)?zāi)菚?huì)兒比我們好，所以可能認(rèn)為我們是重啟。

視頻，是最開始做星野和 Talkie 時(shí)，我們想讓角色動(dòng)起來，所以立項(xiàng)的，Sora 出現(xiàn)后，我意識(shí)到這個(gè)事兒比我想得更大，所以把它做得更通用了。

為什么要開源？剛才講了，最核心是為了加速技術(shù)進(jìn)化。

晚點(diǎn)：你對(duì) AI 的信仰到底是什么？看起來你們做過很多事。

閆俊杰：本質(zhì)上，現(xiàn)在沒人能定義出什么是 AGI。能定義的只是，智能水平會(huì)不停進(jìn)步。

它有點(diǎn)像長征，你不知道最終目的地具體在哪兒，但你知道更好的智能水平有意義。

晚點(diǎn)：所以很難基于一個(gè)明確的終點(diǎn)，步步為營地倒推？

閆俊杰：創(chuàng)業(yè)不是說有個(gè)機(jī)會(huì)，你最合適，你就是天選之子。

創(chuàng)業(yè)的前提是你有獨(dú)特的理解。第二是，你的資源很可能不是最多的，這也是好事，逼你一定要做出真正的創(chuàng)新。

這種情況下，路徑是什么？能不能走到那個(gè)點(diǎn)？其實(shí)不是一開始可以規(guī)劃的，是需要一步步去爭取的。

晚點(diǎn)：李開復(fù)上周告訴我們，整個(gè)行業(yè)從信仰 Scaling Law 到懷疑 Scaling Law 只用了一年時(shí)間。

閆俊杰：我覺得作為一個(gè)創(chuàng)業(yè)者，這時(shí)我想的事，不是 Scaling Law 撞墻了，我就放棄了，而是我要做什么事能讓它延續(xù)。

是算法、組織、業(yè)務(wù)層面的創(chuàng)新，還是方向上的取舍？至少在我們還有機(jī)會(huì)時(shí)，應(yīng)該努力找方法。

晚點(diǎn)：在討論對(duì) AI 技術(shù)的態(tài)度時(shí)，你覺得信仰是一個(gè)合適的詞嗎？

閆俊杰：一年前最喜歡說信仰的那些人，信仰都兌現(xiàn)了嗎？

晚點(diǎn)：你指誰？

閆俊杰：行業(yè)里所有最喜歡說信仰的人，不管中國的還是海外的。

晚點(diǎn)：信仰是一年就能兌現(xiàn)的嗎？

閆俊杰：但至少得朝那個(gè)方向做。

晚點(diǎn)：通向信仰的路是直線嗎？不能走彎路嗎？

閆俊杰：但有些動(dòng)作是相反的。比如前面提到的，花大量錢投放，但問題是，更多的用戶并不會(huì)帶來更快的模型能力提升。

晚點(diǎn)：如果不用信仰，你覺得更合適來描述對(duì)技術(shù)態(tài)度的詞是什么？

閆俊杰：（思考）我覺得是信念。

晚點(diǎn)：信念和信仰的區(qū)別是什么？

閆俊杰：信仰，有點(diǎn)像描述一個(gè)很遠(yuǎn)的未來；信念是，自己想怎么做，并能堅(jiān)持做下去。

“做一個(gè)看上去像 o1 的東西沒那么難，但我們不需要一個(gè)新聞稿”

晚點(diǎn)：這次 MiniMax-01 系列更新，技術(shù)博客的標(biāo)題用了 “新架構(gòu)開啟 Agent 時(shí)代”，為什么 Agent 是一個(gè)重要目標(biāo)？你怎么定義 Agent？

閆俊杰：有兩個(gè)思考路徑：一是，AI 該往哪個(gè)方向變得更強(qiáng)？二是，變強(qiáng)之后，對(duì)人類社會(huì)能產(chǎn)生哪些有益的變化？

那顯然很重要的一件事是能處理復(fù)雜任務(wù)，一個(gè)標(biāo)志可能是多步，它可以是 o1 這樣單次輸出多步，也可以是通過一個(gè)單 Agent 拆成多步，還可以像 Anthropic 定義的 workflow 那樣，是更復(fù)雜的多 Agent 之間的協(xié)同。

如果再定義一下復(fù)雜任務(wù)，我的理解就是在專業(yè)領(lǐng)域能到專業(yè)人士的水平。

晚點(diǎn)：去年你說，當(dāng)時(shí)沒人做出成功的 Agent 應(yīng)用，是因?yàn)榇竽Ｐ湍芰€不夠強(qiáng)?，F(xiàn)在 MiniMax-01 說 “開啟 Agent 時(shí)代”，是哪里變強(qiáng)了？

閆俊杰：這有兩層，一是架構(gòu)，二是能力。

架構(gòu)層面，我們現(xiàn)在其實(shí)已經(jīng)做到了，因?yàn)樗强梢愿咝?、快速地處理非常長的 context（上下文）。

Long context 重要，是因?yàn)?AI 很難像人那樣感受到時(shí)間的流逝，這需要處理越來越長的記憶。對(duì)單 Agent，提升互動(dòng)質(zhì)量的一個(gè)核心是記更多東西。多 Agent 則涉及相互通訊，比如 Anthropic 定義了一個(gè) Agent 間的通訊協(xié)議叫 MCP（Model Context Protocol，模型上下文協(xié)議），那個(gè)通訊量非常長，所以也需要處理長 context 的能力。

在能力層面，我們其實(shí)還有很多可以提升的地方，比如 AI 使用工具的能力、規(guī)劃能力，我們這個(gè)模型還沒打磨好。但這些能力都有很多標(biāo)準(zhǔn) benchmark（基準(zhǔn)），可以慢慢實(shí)現(xiàn)。

晚點(diǎn)：你最開始提到，這個(gè)架構(gòu)不完全是 Transformer，那它是什么？

閆俊杰：標(biāo)準(zhǔn) Transformer 里有幾個(gè)模塊，我們是把其中一個(gè)最重要的 attention（注意力機(jī)制），從原來的平方復(fù)雜度的注意力變成了線性的注意力。

（注：標(biāo)準(zhǔn) Transformer 里的注意力模塊是非線性的，即 “平方復(fù)雜度”，線性注意力機(jī)制通過簡化計(jì)算過程，提高處理長序列的效率，當(dāng)文本非常長時(shí)，計(jì)算復(fù)雜度是線性增長，而非平方增長，所需算力更小；但線性注意力機(jī)制可能在捕捉復(fù)雜依賴關(guān)系上不如非線性注意力機(jī)制。）

晚點(diǎn)：它其實(shí)是 Transformer 一個(gè)比較大的變體 ?

閆俊杰：可以這么理解。

晚點(diǎn)：Google 的 Gemini 之前就用到了線性注意力機(jī)制，MiniMax-01 和 Gemini 的線性注意力的異同是什么？

閆俊杰：我認(rèn)為 Google 今年會(huì)更強(qiáng)，因?yàn)樗瑫r(shí)掌握 TPU（Google 自研的 AI 芯片）、訓(xùn)練框架（TensorFlow）和算法，可以一起優(yōu)化。所以 Google 做這件事相對(duì)簡單一點(diǎn)。

而我們不能自己定制 GPU，只能在一個(gè)標(biāo)準(zhǔn)硬件上去做，這就會(huì)更復(fù)雜。

晚點(diǎn)：這是實(shí)現(xiàn)難度上，方法和效果呢？

閆俊杰：Google 是閉源的，所以我并不精細(xì)知道他是怎么做的，但應(yīng)該用了 sliding window attention，它是滑動(dòng)窗口，一開始記憶可能沒那么長，但可以分成很多段，然后一個(gè)滑窗滑過去。

我們不是滑窗，而是都計(jì)算，只是我們找了一些近似算法，讓它算得更快。

（注：sliding window attention 是一種基于局部上下文的技術(shù)，它通過在輸入序列上滑動(dòng)一個(gè)固定大小的窗口來計(jì)算注意力。這種方法可以有效地捕捉局部依賴關(guān)系，同時(shí)減少計(jì)算復(fù)雜度。）

晚點(diǎn)：除了線性注意力帶來的 long-context 和記憶能力，Agent 還需要提升什么能力？

閆俊杰：就是一些 benchmark，它們大部分是學(xué)術(shù)界定義的，比如驅(qū)動(dòng)代碼能力進(jìn)步的一個(gè)重要 benchmark 是 SWE-bench。

一年前，模型在這個(gè) benchmark 上的解決率只有百分之十幾，現(xiàn)在是 70% 多。多模態(tài)里也有一些 benchmark。

晚點(diǎn)：為什么你們這次沒測 SWE-bench？

閆俊杰：代碼能力是我們下一版本要提升的能力。

晚點(diǎn)：在技術(shù)上，達(dá)到 benchmark 和優(yōu)化計(jì)算架構(gòu)是分開的兩件事兒嗎？

閆俊杰：是一體的，你可以認(rèn)為，架構(gòu)指的是你的計(jì)算 pattern（形式）長什么樣，能力是按這個(gè) pattern 計(jì)算具體參數(shù)。

晚點(diǎn)：怎么判斷你們選的計(jì)算 pattern 能支持更高的能力上限？

閆俊杰：靠認(rèn)知，也要靠實(shí)驗(yàn)。

決定不同公司研發(fā)效率的，首先是你的認(rèn)知要對(duì)，但也有可能兩種認(rèn)知都對(duì)，這時(shí)實(shí)驗(yàn)設(shè)計(jì)和效率就很重要。

怎么評(píng)估我們的研發(fā)能力比 9 個(gè)月或一年前更強(qiáng)了？關(guān)鍵一點(diǎn)是，在框架和數(shù)據(jù)確定的情況下，我們的實(shí)驗(yàn)收益更高了。這是個(gè)核心能力，它很依賴于團(tuán)隊(duì)合作。

晚點(diǎn)：為什么 MiniMax-01 面向 Agent，卻不是一個(gè) o1 方向的模型？o 系列被認(rèn)為對(duì)提升 Agent 能力很有幫助。

閆俊杰：因?yàn)槲覀冃枰衙恳徊阶鲈鷮?shí)。其實(shí)做一個(gè)看上去像 o1 的東西沒那么難，蒸餾幾千條 o1 數(shù)據(jù)就可以了。我們做過這樣的實(shí)驗(yàn)，最近也有不少這樣的學(xué)術(shù)論文，這是一個(gè)業(yè)內(nèi)共識(shí)。

但我們不太需要說自己有個(gè) o1，然后發(fā)個(gè)新聞稿，我們現(xiàn)在的業(yè)務(wù)也不依賴于 o1 這類模型。

晚點(diǎn)：你們下一版模型的編程能力提升，是用 o1 的方式來做嗎？

閆俊杰：不光是 coding，還有 planning（規(guī)劃）。這件事也取決于，不同任務(wù)怎么用 benchmark 來衡量，找到衡量指標(biāo)，就能優(yōu)化。

即使是 o3，它在一些多模態(tài) benchmark 上的分?jǐn)?shù)也很低。

晚點(diǎn)：你怎么衡量優(yōu)先級(jí)？阿里通義、Kimi、DeepSeek、智譜都已經(jīng)發(fā)布了類似 o 系列的模型，而你們似乎認(rèn)為多模態(tài)能力的優(yōu)先級(jí)更高？

閆俊杰：第一，一個(gè)公司的能力是有限的。

第二，我們思考先優(yōu)化什么 benchmark，是基于這個(gè)領(lǐng)域是否足夠收斂了，以及我們能在里面創(chuàng)造多大的獨(dú)特價(jià)值。o 系列從模型進(jìn)展到能看到比較清楚的產(chǎn)品形態(tài)還需要時(shí)間。

過去幾年，最終在一個(gè)領(lǐng)域做得好的公司，不一定是第一個(gè)做這個(gè)方向的公司，而是最能充分發(fā)揮這個(gè)方向潛力的公司。不在于早一個(gè)月、晚一個(gè)月。

晚點(diǎn)：編程已經(jīng)是 Agent 正在落地的場景，而 o1 顯著提升了編程能力。你不認(rèn)為這是一個(gè)要搶時(shí)間窗口的方向嗎？

閆俊杰：Cursor（AI 編程助手）是基于 Claude 3.5 Sonnet 做的，但 Claude 3.5 并不是一個(gè) o 系列模型。

4 個(gè)月前，GitHub CoPilot（微軟旗下 AI 編程助手）開始集成 o1，它也沒有變成第一。

晚點(diǎn)：一個(gè)現(xiàn)象是，o1 之后，中國公司跟進(jìn)比 Google、Anthropic 等美國公司更快，你覺得這說明什么？

閆俊杰：因?yàn)橹袊究赡苷J(rèn)為蒸餾是可以做的事兒，而 Anthropic 或 Google 也許不會(huì)做。但我也不覺得蒸餾是錯(cuò)的。

晚點(diǎn)：蒸餾是一種捷徑嗎？

閆俊杰：它肯定是一種路徑。是不是捷徑，見仁見智。

其實(shí)在文本模型里一直有 “對(duì)齊稅”——就是如果一定要把模型去對(duì)齊一個(gè)別的模型，比如 GPT 的結(jié)果，會(huì)有一些能力受限。

晚點(diǎn)：除了 o1 帶來的邏輯推理、數(shù)學(xué)和編程等能力提升外，怎么看它打開的 Inference-Scaling 新空間？這件事的技術(shù)意義是什么？

閆俊杰：這個(gè)趨勢之前就有了，比如最簡單的，best of N，你采樣十次，選最好的結(jié)果，準(zhǔn)確度就會(huì)提升。

o1 的進(jìn)步是把這種思路變成了一個(gè)端到端的模型，所以可以整體優(yōu)化，效果提升了很多。

“Agent 很快還會(huì)看到一類應(yīng)用：信息的獲取”

晚點(diǎn)：你認(rèn)為 Agent 最先落地的場景是什么？

閆俊杰：Coding 肯定是，我覺得很快還會(huì)有一類應(yīng)用，就是信息的獲取。

晚點(diǎn)：我知道你們最近在低調(diào)測試一個(gè)信息獲取的新產(chǎn)品?？梢灾v一講用 Agent 來做這件事的思路嗎？

閆俊杰：現(xiàn)在信息獲取主要是基于推薦，推薦的內(nèi)容大概率是你想看的，但不能保證你想看的，都會(huì)推給你。

比如我想每天能看到這個(gè)領(lǐng)域里最好的十篇論文，現(xiàn)在的內(nèi)容平臺(tái)都不能滿足這個(gè)需求。所以我覺得信息獲取會(huì)發(fā)生一些變化。

晚點(diǎn)：這聽起來像一個(gè)使用新技術(shù)方法的今日頭條。

閆俊杰：千萬不要用上一代做移動(dòng)互聯(lián)網(wǎng)產(chǎn)品的方法論來思考新產(chǎn)品。

晚點(diǎn)：哪里不一樣？

閆俊杰：移動(dòng)互聯(lián)網(wǎng)產(chǎn)品，要思考有哪些供給、哪些消費(fèi)。而 AI 產(chǎn)品其實(shí)不需要（人的）供給。AI 既有分發(fā)，也有供給能力，而且 AI 能力會(huì)不停變化。

一個(gè)移動(dòng)互聯(lián)網(wǎng)產(chǎn)品體驗(yàn)變好了，大概率是因?yàn)楣┙o變了。而在 AI 產(chǎn)品里，它主要依賴于模型能力，或者說得到供給的方法發(fā)生了變化。

它們（移動(dòng)互聯(lián)網(wǎng)產(chǎn)品和 AI 產(chǎn)品）的周期、確定性都不一樣，增長方式也不一樣。

晚點(diǎn)：Agent 類產(chǎn)品，看到什么信號(hào)時(shí)，你們會(huì)更多投資源去做增長？

閆俊杰：這可能不是一個(gè)對(duì)的問題。如果一個(gè)產(chǎn)品特別依賴推廣，大概率就不太對(duì)。

晚點(diǎn)：星野之前也做了不少推廣。

閆俊杰：Glow 沒有推廣，星野和 Talkie 有一些推廣，到海螺視頻時(shí)，我們海外、國內(nèi)都沒有花錢推廣。

晚點(diǎn)：為什么有這個(gè)從不推廣，到推廣，再到不推廣的變化？是因?yàn)樽止?jié)激進(jìn)加入了戰(zhàn)局？

閆俊杰：不是，是因?yàn)檎J(rèn)知升級(jí)——從沒做過產(chǎn)品，做第一個(gè)產(chǎn)品；到開始學(xué)大廠的產(chǎn)品方法論，意識(shí)到有好處，也有局限；再到找到更適合自己的方法。

晚點(diǎn)：上個(gè)月我和小馬智行 CTO 樓天成聊 L4，他覺得大模型應(yīng)用里，MiniMax 做的星野比較像自動(dòng)駕駛里的 L4，它是 AI 在和用戶互動(dòng)，是替代產(chǎn)生價(jià)值；而 ChatGPT、CoPilot 更像 L2，是輔助產(chǎn)生價(jià)值。你怎么看這兩種方向的異同？

閆俊杰：這個(gè)總結(jié)還挺有意思，確實(shí)非常不一樣。

比如 ChatGPT 和 Claude，ChatGPT 更像一個(gè)助手，幫你完成任務(wù)，Claude 更有溫度。

一個(gè)有趣的測試是，你先和模型說一個(gè) 1 到 100 間的數(shù)，比如 50，你又回他，那我就 50 天不和你說話了。Claude 會(huì)說，能不能再給我一次機(jī)會(huì)？然后他會(huì)說個(gè)非常小的數(shù)。而 ChatGPT 不會(huì)這樣。

實(shí)質(zhì)是，怎么來看待對(duì)齊這件事。Anthropic 有一套價(jià)值觀，基于此，推出來一套憲法。這導(dǎo)致他的模型具備一些特點(diǎn)和能力。

這是一件上限比較高的事，就是清晰定義，你做的模型到底是什么。

我覺得中國跟美國模型的一個(gè)區(qū)別，就是缺少內(nèi)部定義的 benchmark，一些自己的底層思考和設(shè)計(jì)，更多是在對(duì)齊 o1 等模型的輸出。

晚點(diǎn)：MiniMax 的模型有自己內(nèi)部的 benchmark，和路線圖嗎？比如 OpenAI 去年提出了一個(gè) L1 到 L5 的 AI 能力分級(jí)（聊天機(jī)器人、推理者、智能體、創(chuàng)新者、組織者）。

閆俊杰：這是我們要逐漸加強(qiáng)的一件事。

我們最開始的目標(biāo)是 Intelligence with everyone，實(shí)現(xiàn)方式要跟用戶在一起，但我們其實(shí)并沒有精確定義每一步到底是什么。

這可能是一個(gè) “逃出生天” 的邏輯，要一步一步走。我覺得對(duì) OpenAI，目前最有意義的也是 L3（智能體），L4、L5 長什么樣并不影響他們現(xiàn)在的行動(dòng)。

“人才密度最高的是字節(jié)，其他公司都差一檔”

晚點(diǎn)：你覺得去年到今天，你們實(shí)際上做得不錯(cuò)的技術(shù)成果是什么？

閆俊杰：基礎(chǔ)設(shè)施和算力相關(guān)的東西。因?yàn)槲覀兠刻焐傻膶?duì)話、圖片、視頻和音頻量，都非常大、非常難。怎樣能處理這么多計(jì)算，把它優(yōu)化、調(diào)度好，還有一個(gè)合理的成本。這一點(diǎn)，我們應(yīng)該是業(yè)內(nèi)做得最好的。

然后算法上，我們的多模態(tài)比較領(lǐng)先，通用文本暫時(shí)不是最領(lǐng)先的，但開始有自己的特色。

晚點(diǎn)：這次 MiniMax-01 更新，首次大規(guī)模實(shí)現(xiàn)了線性注意力機(jī)制，你們描述這是 “非常大膽的創(chuàng)新”，有多大膽？

閆俊杰：我們是第一個(gè)在這么大規(guī)模的模型上這么來做的。

晚點(diǎn)：其他人不這么做，是因?yàn)椴徽J(rèn)為這是一個(gè)好方向，還是因?yàn)殡y？

閆俊杰：都有。這不是一個(gè)強(qiáng)共識(shí)的東西。

晚點(diǎn)：你們?nèi)ツ曜钍芡饨珀P(guān)注的進(jìn)展，如你所說是多模態(tài)，尤其是海螺視頻生成大模型，效果和訪問量現(xiàn)在都是全球第一梯隊(duì)，怎么做到的？

閆俊杰：之前我們已經(jīng)做過一遍文本（大模型）了，也做過文生圖，有一些積累。

但真的開始做，會(huì)發(fā)現(xiàn)這些 Infra 其實(shí)沒法完全復(fù)用到視頻，算法和怎么做實(shí)驗(yàn)上也有很多變化，怎么做評(píng)價(jià)，就更不一樣了。你可以認(rèn)為，相當(dāng)于又新長出了一家公司。

晚點(diǎn)：這些年開發(fā)這么多模型下來，你們技術(shù)團(tuán)隊(duì)沉淀的特點(diǎn)和方法論是什么？

閆俊杰：我們還是相對(duì)客觀。這是指，我們有時(shí)可能目標(biāo)定得不對(duì)，但一旦能找到正確目標(biāo)，我們的效率和能做到的深度都比較好。

還有扁平、靈活，溝通比較簡單、直接，我們現(xiàn)在還是我、我的-1，我的 -2 這三個(gè)層級(jí)。

晚點(diǎn)：客觀是一個(gè)特點(diǎn)嗎？難道行業(yè)里很多公司不客觀嗎？

閆俊杰：我覺得是的。非客觀是指，評(píng)價(jià)技術(shù)結(jié)果時(shí)有一些別的考慮，比如士氣是不是受影響，不同團(tuán)隊(duì)的 scope（范圍）等等。

晚點(diǎn)：你為什么沒提人才密度？比如說我有多少競賽獲獎(jiǎng)選手。

閆俊杰：人才密度最高的是字節(jié)跳動(dòng)，其他公司都差一個(gè)檔，這是一個(gè)事實(shí)。而我們也沒想把自己包裝成什么樣。

但是我想說，兩位同樣優(yōu)秀的同學(xué)，假設(shè)一個(gè)去了字節(jié)，一個(gè)去了需要依賴技術(shù)和創(chuàng)新安身立命的創(chuàng)業(yè)公司。2 到 3 年后，那個(gè)去創(chuàng)業(yè)公司的人變得顯著更優(yōu)秀的概率更大。

“大部分做技術(shù)的人覺得自己很牛，但我不是這么認(rèn)識(shí)世界的”

晚點(diǎn)：在 2024 年這么多行業(yè)變化，包括你自己更想清楚了模型和應(yīng)用不是一個(gè)簡單正向循環(huán)的關(guān)系后，同時(shí)做模型和應(yīng)用，還有必要嗎？為什么不聚焦其中一個(gè)？

閆俊杰：首先不存在只做模型、不做應(yīng)用的公司。DeepSeek、Anthropic 都不是。

再來說只做應(yīng)用、不做模型的公司，這類公司顯然很多，有些做得很好，比如 Perplexity 和 Cursor。

同時(shí)，也有既做模型、又做應(yīng)用的公司，我們也是這樣。我們每做出一個(gè)新產(chǎn)品，確實(shí)都是因?yàn)橄茸隽四Ｐ?，有了提升?/p>

晚點(diǎn)：你們 21 年底成立時(shí)，大模型并沒有很好的生態(tài)基礎(chǔ)，所以你得自己做。如果你更晚創(chuàng)業(yè)，會(huì)做一個(gè)專注應(yīng)用的公司嗎？

閆俊杰：不會(huì)。一是基于現(xiàn)有技術(shù)做產(chǎn)品，二是基于未來技術(shù)做產(chǎn)品，我想做后一種。

晚點(diǎn)：這是因?yàn)槟阆胱鲆粋€(gè)價(jià)值更大的事？

閆俊杰：不是。是基于怎樣更能發(fā)揮出自己的潛力和公司的潛力。

晚點(diǎn)：那些更輕、更聚焦應(yīng)用的公司，和 MiniMax 這樣模型應(yīng)用同時(shí)做的公司，2025 年會(huì)怎么競爭？

閆俊杰：市場不是有 A，就不能有 B ，其實(shí)兩個(gè)東西都對(duì)。

晚點(diǎn)：你怎么復(fù)盤去年你們面向生產(chǎn)力場景的海螺 AI（指聊天助手產(chǎn)品，不是海螺視頻）做得不如預(yù)期？

閆俊杰：我覺得就是沒有堅(jiān)持技術(shù)驅(qū)動(dòng)。當(dāng)你發(fā)現(xiàn)很多用戶的不滿時(shí)，解決思路不應(yīng)該是去補(bǔ)這些 case，應(yīng)該找到一些真正的提升方式。

而且到去年 5 月時(shí)，我就知道豆包會(huì)贏。豆包當(dāng)時(shí)的體驗(yàn)已經(jīng)比同類其它產(chǎn)品好了。

同時(shí)我也開始意識(shí)到，我最開始說的那件事，就是更多用戶并不會(huì)導(dǎo)致模型能力提升。那就應(yīng)該把海螺文本當(dāng)一個(gè)產(chǎn)品，一個(gè)業(yè)務(wù)去思考，我們后來的決定就是不投放。

晚點(diǎn)：你之前說你 3、4 月就想清楚了這個(gè)事，為什么停止海螺文本投放的時(shí)間更晚？

閆俊杰：都是創(chuàng)業(yè)中的成長，其實(shí)很多認(rèn)知很簡單，但執(zhí)行時(shí)沒那么堅(jiān)定。

晚點(diǎn)：你被什么東西影響和干擾了？投資人？競爭對(duì)手？

閆俊杰：我覺得是人，主要是考慮團(tuán)隊(duì)的感受。

晚點(diǎn)：你什么時(shí)候開始變得更無情了？

閆俊杰：現(xiàn)在也沒有。實(shí)際的變化是，我會(huì)非常明確得給大家講我認(rèn)為的對(duì)的東西。有些事沒法妥協(xié)。

晚點(diǎn)：另一方面，你們的 AI 社區(qū)產(chǎn)品星野是中國表現(xiàn)最好的，比字節(jié)、美團(tuán)等大公司的同類產(chǎn)品都好。暫時(shí)領(lǐng)先是為什么？

閆俊杰：最關(guān)鍵的是，技術(shù)路線一定要選對(duì)。其次做業(yè)務(wù)決策時(shí)，我們更懂用戶。

晚點(diǎn)：你怎么去懂他們了，你好像跟星野的用戶畫像并不是很像。

閆俊杰：核心是同理心。

晚點(diǎn)：你認(rèn)為自己是個(gè)同理心很強(qiáng)的人？

閆俊杰：我覺得是。

實(shí)質(zhì)是，大部分做技術(shù)的人會(huì)覺得自己很牛，是天才。但我不是這么認(rèn)識(shí)這個(gè)世界的。

“不要區(qū)分創(chuàng)業(yè)公司和大公司，不要套用移動(dòng)互聯(lián)網(wǎng)”

晚點(diǎn)：從我們 2024 年初那一次聊到現(xiàn)在，你覺得中國大模型競爭格局最大的變化是什么？

閆俊杰：24 年時(shí)，很多人認(rèn)為 AI 是把移動(dòng)互聯(lián)網(wǎng)復(fù)制一遍，現(xiàn)在至少有一些人開始意識(shí)到，其實(shí) AI 不適用移動(dòng)互聯(lián)網(wǎng)的邏輯，這是兩件事。

晚點(diǎn)：這個(gè)認(rèn)知變化怎么影響競爭格局呢？

閆俊杰：大公司過去積累的優(yōu)勢，仍有意義，但不是唯一的。這還是因?yàn)?，產(chǎn)品用戶越多，模型并不會(huì)自然變好。而更好的智能，可能會(huì)導(dǎo)出新東西，新東西也會(huì)有新商業(yè)模式。

晚點(diǎn)：在全球我們看到，Google 花 25 億美元收購了產(chǎn)品形態(tài)跟你們有些相似的 Character.ai 的團(tuán)隊(duì)，這會(huì)是 MiniMax 的選項(xiàng)嗎？

閆俊杰：我沒考慮過把公司賣一個(gè)什么價(jià)錢。

晚點(diǎn)：我去年把這個(gè)新聞發(fā)給你時(shí)，你說 “感覺是一個(gè) happy ending”。

閆俊杰：對(duì)他們來說是，本身創(chuàng)始人也沒那么喜歡那個(gè)產(chǎn)品，他回去后，Gemini 2.0 里就有他很多貢獻(xiàn)。

晚點(diǎn)：求證一個(gè)傳聞，字節(jié) 24 年初是不是談過以 40 億美元估值收購 MiniMax?

閆俊杰：沒有這個(gè)事。

晚點(diǎn)：你和張一鳴交流過，有什么收獲？

閆俊杰：至少讓我看到了一個(gè)非常頂級(jí)的企業(yè)家是什么樣的。

晚點(diǎn)：什么樣？

閆俊杰：他希望能給這個(gè)社會(huì)帶來很多正向價(jià)值。

晚點(diǎn)：到 24 年下半年，大模型的投資方已是國資輪、中東輪，后面還有多少人能接力？你們?cè)趺闯掷m(xù)獲得充足資金？

閆俊杰：我們沒到這個(gè)地步。這還是取決于，怎么做出自己的好東西。

晚點(diǎn)：其實(shí)你去年說過，你不相信中國大模型創(chuàng)業(yè)公司能純靠融資，真正的拐點(diǎn)會(huì)來自技術(shù)、產(chǎn)品或商業(yè)化效率的提升。但我了解到，你們 24 年的產(chǎn)品和收入都沒有實(shí)現(xiàn)年初定下的目標(biāo)，你怎么看這件事兒？

閆俊杰：但我們是增長最快的，大概率也是收入最多的。

晚點(diǎn)：所以是目標(biāo)定太高了？

閆俊杰：核心是，24 年年初定目標(biāo)時(shí)，用的還是移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)邏輯，認(rèn)知還沒轉(zhuǎn)變。其實(shí)這是兩個(gè)行業(yè)。

晚點(diǎn)：現(xiàn)在你會(huì)怎么設(shè)立目標(biāo)？2025 年的目標(biāo)是怎么定的？

閆俊杰：我覺得這個(gè)階段，不應(yīng)該定一個(gè)收入目標(biāo)，就應(yīng)該定技術(shù)研發(fā)目標(biāo)。

晚點(diǎn)：到去年下半年，大家都看到了大公司，如字節(jié)、阿里等的強(qiáng)悍，尤其是豆包的產(chǎn)品表現(xiàn)。這出乎你的預(yù)料嗎？

閆俊杰：基本上都在預(yù)料之中，我預(yù)料的比這還更激烈一點(diǎn)。

我想說，如果你用移動(dòng)互聯(lián)網(wǎng)的思維來看，豆包確實(shí)很牛逼，但假定技術(shù)會(huì)長期發(fā)展，不同階段會(huì)帶來不同的產(chǎn)品和商業(yè)線，這真不一定是件好事。

晚點(diǎn)：你是指用戶增長太快對(duì)豆包不是好事，還是指以移動(dòng)互聯(lián)網(wǎng)的思維來看豆包，對(duì)行業(yè)觀察者是個(gè)干擾？

閆俊杰：都不好。還是對(duì)比 OpenAI 和 Anthropic，前者用戶規(guī)模是后者的幾十倍，但它的估值、資金和人才都不過后者的三倍多。為了照顧那么多用戶，OpenAI 要負(fù)擔(dān)很多東西，有可能拖慢研發(fā)節(jié)奏。

晚點(diǎn)：所以用戶多，不能直接提升模型能力，多到一定程度反而有可能影響模型發(fā)展的速度和靈活性。

閆俊杰：至少看過去一年多，OpenAI 和 Anthropic 的對(duì)比就是這樣。

晚點(diǎn)：你反復(fù)提到不要套用移動(dòng)互聯(lián)網(wǎng)的評(píng)判標(biāo)準(zhǔn)，那我們看 AI 產(chǎn)品，該看什么指標(biāo)？

閆俊杰：海外產(chǎn)品的一個(gè)重要指標(biāo)是訂閱數(shù)和付費(fèi)，而移動(dòng)互聯(lián)網(wǎng)大產(chǎn)品過去主要依賴廣告，這顯然不一樣。

國內(nèi)產(chǎn)品，我猜也有指標(biāo)，但我想跑得更好一點(diǎn)再說。

晚點(diǎn)：不和巨頭正面競爭，比如不重投入做豆包類產(chǎn)品，是一個(gè)你們的競爭原則嗎？

閆俊杰：是。但本質(zhì)是，我認(rèn)為做 AGI 和做 ChatGPT 類產(chǎn)品是兩件事。

而且當(dāng)時(shí)也開始意識(shí)到，提升模型能力，不那么依賴最多的用戶，那放棄就沒太多心理壓力。

晚點(diǎn)：一位大模型投資人對(duì)比過 MiniMax 和月之暗面的市場策略，他認(rèn)為月暗是認(rèn)準(zhǔn)做 “生產(chǎn)力場景 + 中國市場”，當(dāng)然這也是所有大公司投入最多的方向，而 MiniMax 看起來在不斷適應(yīng)環(huán)境，找到了巨頭正面戰(zhàn)場之外的空隙。你會(huì)怎么總結(jié)你們的定位策略？

閆俊杰：我們希望自己一直在浪潮里。這有兩個(gè)意思，一是能參與推動(dòng)浪潮繼續(xù)發(fā)生；二是我們能讓公司持續(xù)發(fā)展下去。

“不應(yīng)該假定，一個(gè)公司不會(huì)有變動(dòng)和流失。有才是合理的?！?/strong>

晚點(diǎn)：你怎么看去年有些中高層離開 MiniMax？

閆俊杰：本質(zhì)上是，這個(gè)事兒應(yīng)該是技術(shù)驅(qū)動(dòng)的，不是所有人都合適。

晚點(diǎn)：那你是勸退了一些人嗎？會(huì)心理負(fù)擔(dān)比較大嗎？

閆俊杰：必須得克服。

晚點(diǎn)：你做這些事兒拖延了嗎？

閆俊杰：拖延了，這還是屬于認(rèn)知不夠強(qiáng)。

不應(yīng)該假定，一個(gè)公司不會(huì)有變動(dòng)和流失。有才是合理的。

晚點(diǎn)：實(shí)際上你們現(xiàn)在團(tuán)隊(duì)相比 24 年初有什么變化？

閆俊杰：主要的變化不在于組織架構(gòu)，而是對(duì)人的要求。

一是希望各方向的 leader 是提方案的人，而不要等著別人來提方案，應(yīng)該更 hands on。

二是我發(fā)現(xiàn)，我們想要根據(jù)客觀狀態(tài)分析找到理性方案的人，而不是直接復(fù)制上一家公司經(jīng)驗(yàn)的人。

晚點(diǎn)：你說 2025 年你們最重要的目標(biāo)是技術(shù)迭代。這塊你們現(xiàn)在的組織協(xié)作和分工方式是怎樣的？資源怎么分配？

閆俊杰：一方面做東西的資源是相對(duì)充足的，另一方面創(chuàng)業(yè)公司就得做取舍，但你不該假定所有取舍都是對(duì)的，一個(gè)關(guān)鍵是，怎么意識(shí)到錯(cuò)了，怎么及時(shí)改。

晚點(diǎn)：什么機(jī)制可以讓你意識(shí)到你判斷錯(cuò)了？

閆俊杰：不 ego。不自我。

晚點(diǎn)：你覺得你是一個(gè)容易被說服的人嗎？

閆俊杰：不是

晚點(diǎn)：這和不要 ego 是矛盾的嗎？

閆俊杰：很多事都是矛盾的，MiniMax 這個(gè)名字就是矛盾的（MiniMax 作為技術(shù)術(shù)語指 “極小化極大算法”。）

還是有一些辦法平衡，就是盡量深入思考，不要被表面、暫時(shí)的東西迷惑住。

晚點(diǎn)：MiniMax 現(xiàn)在哪些重要的決策是你來定奪，哪些是放權(quán)給其他人？

閆俊杰：創(chuàng)業(yè)第一年，我覺得這件事很重要，后面發(fā)現(xiàn)其實(shí)不重要。

更重要的是，大家怎么有一個(gè)共同的思考基座。因?yàn)槊總€(gè)人做事方式不一樣，如果分得特別清楚，會(huì)導(dǎo)致不同模塊的邏輯完全不同，即使每個(gè)人都素質(zhì)很高，一個(gè)公司也沒法很好運(yùn)行。

正確方式是，公司最底層認(rèn)知能對(duì)上，誰來做決策，都會(huì)差不多，組織才會(huì)變順。

晚點(diǎn)：大家都錯(cuò)到一起去了怎么辦？

閆俊杰：多樣性也是一個(gè)很重要的指標(biāo)了。但是我感覺，真正把公司擰起來的還是那個(gè)共同的東西。

晚點(diǎn)：這種不強(qiáng)調(diào)劃分的分工方式，會(huì)不會(huì)讓員工覺得公司的管理很亂？

閆俊杰：讓大家覺得公司管理得很好，其實(shí)不是一個(gè)目標(biāo)。

晚點(diǎn)：有 MiniMax 員工說，24 年有段時(shí)間感到公司管理決策非常搖擺，這個(gè)月核心目標(biāo)是收入，下個(gè)月是增長，下個(gè)月又是收入。

閆俊杰：我們后來統(tǒng)一了，這兩個(gè)事兒都不是目標(biāo)，目標(biāo)是技術(shù)迭代。

晚點(diǎn)：管理一個(gè)不能用以前的邏輯來套的新的 AI 公司，最大難題是什么？

閆俊杰：持續(xù)招到更好的人。一個(gè)事實(shí)是，字節(jié)現(xiàn)在對(duì)人才吸引力最強(qiáng)。但去了字節(jié)的人，真正發(fā)揮出潛力的比例比創(chuàng)業(yè)公司低，字節(jié)人太多了。

“最大的痛苦，是不知道要取舍”

晚點(diǎn)：2024 這一年，你自己最大的變化是什么？

閆俊杰：半年多以前，很多人覺得我有些焦慮，最近半年不再焦慮了。核心是開始意識(shí)到要做取舍。

晚點(diǎn)：這一年最大的痛苦是什么？

閆俊杰：最大的痛苦是不知道要做取舍。當(dāng)知道了，就不痛苦了。我現(xiàn)在把技術(shù)迭代作為我們最重要的目標(biāo)。

晚點(diǎn)：你去年反思最多的問題是什么？

閆俊杰：為什么自己的認(rèn)知能力不能提升更快？

晚點(diǎn)：找到什么新的提升方法了嗎？

閆俊杰：還是要放下 ego，思考得更深。

晚點(diǎn)：你說過你很重要的一個(gè)學(xué)習(xí)方式，是和比自己強(qiáng)的人交流。去年你見過什么人，有什么學(xué)習(xí)？

閆俊杰：是有的，但我覺得光這樣不夠，本質(zhì)還是自己能思考得非常深入。

晚點(diǎn)：一個(gè)投資人分享了去年和你一起找算力的事。他說你非常極致追求便宜的租金、更短的租期。有一些供應(yīng)商提出，可以給 MiniMax 一些當(dāng)?shù)?to B AI 訂單，讓你們考慮更貴的租金，你說你不需要訂單。這是你強(qiáng)硬、不妥協(xié)的一面嗎？

閆俊杰：其實(shí)不要訂單的原因是我們交付不了，答應(yīng)了會(huì)分散自己的精力，也把別人坑了。

晚點(diǎn)：在 MiniMax，你一直被大家叫 IO，這是 Dota 2 里的一個(gè)英雄。MiniMax 海螺 AI 說：IO 是一個(gè)輔助型英雄，主要為隊(duì)友提供增益和保護(hù)，在團(tuán)隊(duì)中扮演 4 號(hào)位或 5 號(hào)位。你為什么玩 Dota 2 選了 IO，而且一直叫這個(gè)名字？

閆俊杰：其實(shí)他不是一直 4 號(hào)位、5 號(hào)位。TI9 時(shí)（Dota 2019 年國際邀請(qǐng)賽決賽），安娜（一位電競選手）使用的上帝小精靈，就是把 IO 變成了 1 號(hào)位，非常強(qiáng)，這讓他們戰(zhàn)隊(duì)得到了那年的冠軍，當(dāng)時(shí)就覺得這名字挺酷的。

晚點(diǎn)：所以 IO 跟你自己的特點(diǎn)沒什么直接相關(guān)？

閆俊杰：創(chuàng)業(yè)還是有很多隨機(jī)行為的。

晚點(diǎn)：輔助型、輸出型，你覺得自己更像什么類型的英雄？

閆俊杰：其實(shí)不應(yīng)該拆開看，如果一定要說的話，我是特別相信團(tuán)隊(duì)作戰(zhàn)的人。

晚點(diǎn)：2025 年，你覺得可預(yù)見的變化是什么？

閆俊杰：AI 在專業(yè)領(lǐng)域達(dá)到專業(yè)人士水平。這會(huì)是一個(gè)實(shí)質(zhì)提升，雖然 2025 年不一定全部實(shí)現(xiàn)，但會(huì)實(shí)現(xiàn)一部分。

晚點(diǎn)：新的一年，對(duì)自己有什么新的要求嗎？

閆俊杰：希望自己的技術(shù)水平變得更高。剛開始創(chuàng)業(yè)時(shí)，我還考慮管理的事，后來發(fā)現(xiàn)其實(shí)沒這么重要，真正重要的就是技術(shù)認(rèn)知能否不停提升。

晚點(diǎn)：有時(shí)你看起來非常適應(yīng)性，甚至有人會(huì)覺得是搖擺，有時(shí)非常堅(jiān)決。哪個(gè)更接近真實(shí)的你？

閆俊杰：這是一個(gè)進(jìn)步過程。當(dāng)在一個(gè)階段變得更強(qiáng)后，會(huì)更堅(jiān)決。

晚點(diǎn)：你創(chuàng)業(yè)時(shí)，既不是業(yè)界大佬，也不被認(rèn)為是 “技術(shù)天才”。你認(rèn)為自己是什么類型的創(chuàng)始人？

閆俊杰：我覺得是簡單。簡單是指，知道有一件事，這事也很難，但做好的價(jià)值挺大，就堅(jiān)持做。

賀乾明對(duì)此文亦有貢獻(xiàn)。

題圖來源：《平凡之路》MV

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁下載網(wǎng)易新聞客戶端

相關(guān)推薦

熱點(diǎn)推薦

創(chuàng)·問｜巴特弗萊：跨界創(chuàng)業(yè)，重新定義預(yù)灌封系統(tǒng)——為創(chuàng)新藥賦能最優(yōu)解

鈦媒體APP 2026-01-15 19:48:48
0 跟貼 0

靠拯救打工人的“廢腰”，他們賺了20個(gè)億

虎嗅APP 2026-02-02 09:00:06
4 跟貼 4

AlphaEvolve再進(jìn)化！DeepMind用AI「養(yǎng)殖」算法，碾壓所有人類設(shè)計(jì)

新智元 2026-02-27 17:10:23
16 跟貼 16

上海語音Agent團(tuán)隊(duì)融資近億，浙大校友創(chuàng)辦

智東西 2026-02-28 19:15:17
0 跟貼 0

楊植麟暫時(shí)挺過風(fēng)暴

虎嗅APP 2026-02-27 17:11:06
2 跟貼 2

倒插門女婿成千萬富豪，為報(bào)復(fù)和女家教勾搭成奸，現(xiàn)場太刺激

阿靜要探索 2026-02-28 16:30:12
0 跟貼 0

鄭智為何組建全華班教練團(tuán)隊(duì)？是時(shí)候當(dāng)大哥獨(dú)立決策了！

Leslie潘偉力 2026-02-27 04:03:23
0 跟貼 0

女孩近距離投喂母獅被襲擊，園方回應(yīng)

三湘都市報(bào) 2026-02-28 18:29:16
210 跟貼 210

中國AI調(diào)用量首超美國四款大模型霸榜全球前五

財(cái)聯(lián)社 2026-02-26 19:44:05
6226 跟貼 6226

獨(dú)特的蜥蜴養(yǎng)殖技術(shù)！

超話看世界 2026-02-27 11:14:25
4 跟貼 4

在賭自己的決策是最正確的

錦升體娛 2026-02-28 03:54:13
0 跟貼 0

中國AI的“成本奇跡”能持續(xù)多久——一個(gè)三角結(jié)構(gòu)的脆弱與韌性

鈦媒體APP 2026-02-28 19:26:40
0 跟貼 0

女生觀看火箭發(fā)射，手機(jī)對(duì)著模型拍了半天后，發(fā)現(xiàn)火箭在旁邊

搞笑龍卷風(fēng) 2026-02-28 09:43:55
2 跟貼 2

破解“數(shù)字童年”風(fēng)險(xiǎn)：不止有政策護(hù)航，更需科技向善

經(jīng)濟(jì)觀察報(bào) 2026-02-28 23:17:04
0 跟貼 0

深圳剛開年，又殺出個(gè)百億獨(dú)角獸

華商韜略 2026-02-28 11:23:41
0 跟貼 0

DeepSeek劇透V4架構(gòu) 改寫大模型推理格局？

量子位 2026-02-27 16:13:34
28 跟貼 28

董明珠是逆行者，大家贊賞的是本分的企業(yè)家

葉檀財(cái)經(jīng) 2025-12-17 19:14:36
0 跟貼 0

AI主權(quán)的底層戰(zhàn)爭：全同態(tài)加密正在成為新基礎(chǔ)設(shè)施

36氪 2026-02-28 17:20:13
0 跟貼 0

德黑蘭部分地區(qū)手機(jī)通信中斷證券交易所停止交易

央視新聞客戶端 2026-02-28 15:08:37
17056 跟貼 17056

MiniMax來承包你的桌面了-4

機(jī)器之心Pro 2026-01-20 20:19:42
0 跟貼 0

PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0

智能體基礎(chǔ)設(shè)施是AI時(shí)代操作系統(tǒng)，真正的智能體要能思考、能分析，能行動(dòng)

量子位 2025-12-11 03:38:22
0 跟貼 0

爆火！把智能體當(dāng)游戲角色來玩，一個(gè)人就是一個(gè)公司

機(jī)器之心Pro 2026-02-12 18:04:44
0 跟貼 0

創(chuàng)業(yè)八年失敗負(fù)債120萬，如今靠跑外賣還債，看完太心酸了

弱電大林 2026-02-28 09:03:46
37 跟貼 37

她和撒貝寧同居多年，卻轉(zhuǎn)身投入富豪懷抱，沒想到現(xiàn)在竟淪落至此

世界多元 2026-02-28 04:24:03
3 跟貼 3

極氪公布春節(jié)十大獵裝旅行路線，揭秘深度自駕游版圖

魯中晨報(bào) 2026-02-26 12:29:41
15583 跟貼 15583

兩年了，為何許家印遲遲不判刑？真相可能比你想象的更復(fù)雜！

小牛愛說事兒 2026-02-27 09:12:28
0 跟貼 0

段永平的投資哲學(xué)：把“退”當(dāng)成人生指引

葉檀財(cái)經(jīng) 2025-11-19 20:42:13
0 跟貼 0

馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9

融資1100億美元，OpenAI又行了？

虎嗅APP 2026-03-01 00:57:04
0 跟貼 0

創(chuàng)業(yè)8年失敗了負(fù)債120萬靠送外賣維持生活，落難后看透了人情冷暖

小芳聊奇聞 2026-02-28 01:47:46
0 跟貼 0

拿下星巴克中國，博裕資本什么來頭？

華商韜略 2025-11-07 13:42:01
0 跟貼 0

奧特曼談馬斯克：我曾視他為英雄，如今不再說話

量子位 2025-09-16 04:14:37
0 跟貼 0

地下室殺出的中國品牌，把美國巨頭踩在腳下

華商韜略 2025-11-06 15:53:03
0 跟貼 0

用理性對(duì)抗反智，自律超越自我，比爾蓋茨的人生哲學(xué)

葉檀財(cái)經(jīng) 2025-09-15 20:13:39
0 跟貼 0

他曾是張學(xué)良的保鏢,后成香港首富,賭王何鴻燊見了他都要下跪行禮

動(dòng)漫里的童話 2026-03-01 01:02:13
0 跟貼 0

大學(xué)教授辭職收廢品，一年狂攬300多億

華商韜略 2025-11-06 10:42:15
0 跟貼 0

四大理由，讓成都成為科技創(chuàng)新企業(yè)崛起的土壤

每日經(jīng)濟(jì)新聞 2025-12-23 22:54:45
0 跟貼 0

他靠兩塊錢的包子，拿下130億市值！

華商韜略 2025-11-10 17:12:46
0 跟貼 0

任佳：創(chuàng)業(yè)孵化器一定要有投資功能否則價(jià)值大打折扣

財(cái)聯(lián)社 2026-02-05 16:35:02
0 跟貼 0

揭秘：馬英九三姐馬冰如在北京的29年她到底有什么故事？
近史談
2026-02-28 21:33:05

電視上看著一般般，真人巨帥氣！不得不說五十歲保養(yǎng)得跟25歲一樣
鄉(xiāng)野小珥
2026-02-27 19:50:38

比亞迪官宣大招，6 萬的車又 “ 變相降價(jià) ”
新浪財(cái)經(jīng)
2026-02-28 15:52:34

A股：周末大利空，剛剛，人民日?qǐng)?bào)權(quán)威發(fā)布，下周一將迎來新變化
云鵬敘事
2026-03-01 00:00:03

董宇輝團(tuán)隊(duì)20多人抵達(dá)法國，丈母娘接機(jī)，劉隊(duì)戴眼鏡，程琳伴左右
小椰的奶奶
2026-02-28 20:05:30

美駐日大使：如果中國不按美國的意愿行事，就讓十四億人陷入饑荒
荊楚寰宇文樞
2025-09-28 21:58:22

她是撒貝寧的妹妹，46歲仍未婚單身，找對(duì)象有3個(gè)條件
細(xì)品名人
2026-02-28 05:55:07

黃金、白銀、石油直線大漲！
吉刻新聞
2026-02-28 13:24:57

歷史重演？精準(zhǔn)預(yù)言2008年危機(jī)的老人說2026年將是“至暗時(shí)刻”
次元君情感
2026-02-17 23:50:31

日本流感已超950萬人！有人發(fā)燒到去世僅4天，大部分重癥肺炎患者有個(gè)共同特點(diǎn)
都市快報(bào)橙柿互動(dòng)
2025-02-03 13:37:26

心痛！江蘇獨(dú)子家中猝死，年僅22歲！母親含淚稱：前一天還陪逛街
川渝視覺
2026-02-28 16:56:50

拿40萬鎊頂薪！利物浦頭牌英超遭10輪球荒球隊(duì)5-2大勝他卻0球0助
我愛英超
2026-03-01 01:31:04

美國被爆警告敘利亞別用中國電信技術(shù) 敘通信部回應(yīng)
財(cái)聯(lián)社
2026-02-28 08:19:04

3-1！意甲小球會(huì)踢瘋了！距衛(wèi)冕冠軍2分，沖擊歐冠資格
體育世界
2026-03-01 00:29:23

53歲天王婚變轟動(dòng)全城終全面復(fù)出？出席開工飯與兩前妻各行各路
每一次點(diǎn)擊
2026-02-26 19:42:09

美國大兵是真能忍，福特號(hào)上個(gè)廁所要等 45 分鐘，到處屎尿橫行…
我心縱橫天地間
2026-02-25 23:28:03

美以聯(lián)合襲擊伊朗，將有三種可能的結(jié)局，第一種可能性最大！
普覽
2026-02-28 18:34:07

福州發(fā)布一批人事任免通知！涉及多家三甲醫(yī)院院長、副院長
福建衛(wèi)生報(bào)
2026-02-28 18:03:27

不留遺產(chǎn)，拒絕見面，沒有微信，這一次，向華強(qiáng)撕碎了向佑的體面
叨嘮
2026-02-26 22:49:36

又掛了！伊朗防長和革命衛(wèi)隊(duì)總司令雙遭斬首，指揮系統(tǒng)瀕臨癱瘓
老馬拉車莫少裝
2026-03-01 00:01:08

2026-03-01 04:27:00

晚點(diǎn)LatePost

晚一點(diǎn)，好一點(diǎn)。商業(yè)的真相總是在晚點(diǎn)。《晚點(diǎn)LatePost》官方賬號(hào)

3086文章數(shù) 21893關(guān)注度

往期回顧全部

財(cái)經(jīng)要聞

沖突爆發(fā) 市場變天？

薩洛蒙正在接棒始祖鳥

融資1100億美元，OpenAI又行了？

美以對(duì)伊朗發(fā)起軍事打擊，中東局勢驟然升級(jí)，如何影響A股、黃金和原油

新能源汽車開征“里程稅”？油電要同權(quán)？真相來了

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

媒體：美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面不達(dá)目的不罷休

美以襲擊伊朗華人緊急逃離德黑蘭：沒想到來得這么快

男子稱殺鴨發(fā)現(xiàn)黃金記者實(shí)探：養(yǎng)鴨井水中有金色物質(zhì)

美國和以色列軍事打擊伊朗中方表態(tài)

頭條要聞

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

媒體：美以的真實(shí)目標(biāo)已經(jīng)擺上臺(tái)面不達(dá)目的不罷休

美以襲擊伊朗華人緊急逃離德黑蘭：沒想到來得這么快

男子稱殺鴨發(fā)現(xiàn)黃金記者實(shí)探：養(yǎng)鴨井水中有金色物質(zhì)

美國和以色列軍事打擊伊朗中方表態(tài)

體育要聞

球隊(duì)主力全報(bào)銷？頂風(fēng)擺爛演都不演了

6局激戰(zhàn)勝出！孫穎莎4-2躋身新加坡大滿貫四強(qiáng)，半決賽將戰(zhàn)陳熠

中國男籃vs中國臺(tái)北12人名單：郭士強(qiáng)不變陣謹(jǐn)防重演馬尼拉慘案

直落4局輕松勝出！王楚欽4-0張禹珍，強(qiáng)勢躋身新加坡大滿貫四強(qiáng)

陳垣宇3-4莫雷加德無緣四強(qiáng)！讓3追3，決勝局細(xì)節(jié)與經(jīng)驗(yàn)差點(diǎn)！

娛樂要聞

周杰倫兒子正面照曝光，與父親好像

演員劉濤回應(yīng)媽祖照爆火被設(shè)壁紙

《除惡》收官，4人零差評(píng)，一人翻紅

央八即將開播！30集年代??！或可超越《生命樹》

給10部最好的“武俠片”排名：《鏢人》僅第10

科技要聞

狂攬1100億美元！OpenAI再創(chuàng)融資神話

特朗普：所有聯(lián)邦政府機(jī)構(gòu)將立即停用Anthropic

最強(qiáng)業(yè)績下市值蒸發(fā)萬億，英偉達(dá)怎么了？

單張不到五毛！谷歌深夜發(fā)布Nano Banana 2

Anthropic妥協(xié)了

汽車要聞

嵐圖泰山黑武士版3月上市搭載華為四激光智駕方案

李想：指望AI和Agent抹平專業(yè)價(jià)值差距的觀點(diǎn)純屬做夢

有望合作？零跑朱江明與寶馬齊普策同框深度暢聊

蔚來與博世簽署戰(zhàn)略合作協(xié)議合作領(lǐng)域涵蓋線控底盤等技術(shù)

奧迪任命中國區(qū)新管理層將加速推進(jìn)純電產(chǎn)品陣容

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

時(shí)尚

游戲

數(shù)碼

健康

親子要聞

嬰兒吃的“洋”輔食，九成靠代工貼牌？涉及上市公司

2026熱門護(hù)手霜有幾款?這6款實(shí)測推薦！巨溫和不粘膩不踩雷!

China Heartbeats | The hardest part of leaving is ...

萌娃為什么不理隔壁的寶寶？他給出的答案太有趣了

萌娃跌倒沒哭的理由太逗了，這邏輯誰能頂?shù)米?/a>

這6款發(fā)色居然這么火？50張圖可以直接給tony

口碑王|| 從2020穿到現(xiàn)在，越穿越愛的這件單品回來了

發(fā)現(xiàn)4種春季很襯膚色的辦法，照著穿

被章若楠、秦嵐帶火的鞋子竟然是它？春天這樣穿又美又氣質(zhì)！

所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點(diǎn)

PSSR大升級(jí)將來這68款PS5 Pro游戲?qū)⑹鞘芤嬲?/a>

《怪獵荒野》一周年：仍未走出差評(píng)深淵

《巫師4》新爆料！將現(xiàn)身重大活動(dòng)：6月份見

數(shù)碼要聞

小米超薄充電寶亮相MWC，98g有多能打？

仁寶AI Book概念本：C面掌托竟配大尺寸墨水屏！

小米Tag海外發(fā)布：僅重10克，兼容谷歌、蘋果查找網(wǎng)絡(luò)

華為鴻蒙6花粉Beta招募開啟：25款機(jī)型齊發(fā)，細(xì)節(jié)大揭秘！

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

團(tuán)圓時(shí)刻防意外：春節(jié)常見風(fēng)險(xiǎn)應(yīng)對(duì)指南

"倒春寒"要防心腦血管病！收下這些要點(diǎn)

臘味飄香年味濃！濃濃的臘味從何而來？

冬季鼻塞總不好？別把鼻竇炎當(dāng)感冒

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

2024 到 2025，與閆俊杰的兩次訪談，記錄一條純草根 AI 創(chuàng)業(yè)之路

沖突爆發(fā) 市場變天？

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

伊朗媒體公布反擊美軍軍事行動(dòng)結(jié)果

球隊(duì)主力全報(bào)銷？頂風(fēng)擺爛演都不演了

周杰倫兒子正面照曝光，與父親好像

狂攬1100億美元！OpenAI再創(chuàng)融資神話

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

嬰兒吃的“洋”輔食，九成靠代工貼牌？涉及上市公司

這6款發(fā)色居然這么火？50張圖可以直接給tony

所有人保持嘴角不變!生化危機(jī):安魂曲里昂騷話大盤點(diǎn)

小米超薄充電寶亮相MWC，98g有多能打？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？

2024 到 2025，與閆俊杰的兩次訪談，記錄一條純草根 AI 創(chuàng)業(yè)之路

沖突爆發(fā) 市場變天？

球隊(duì)主力全報(bào)銷？頂風(fēng)擺爛演都不演了

周杰倫兒子正面照曝光，與父親好像

狂攬1100億美元！OpenAI再創(chuàng)融資神話

嵐圖泰山黑武士版3月上市搭載華為四激光智駕方案

嬰兒吃的“洋”輔食，九成靠代工貼牌？涉及上市公司

這6款發(fā)色居然這么火？50張圖可以直接給tony

小米超薄充電寶亮相MWC，98g有多能打？

轉(zhuǎn)頭就暈的耳石癥，能開車上班嗎？