對話科學(xué)家馬驍騰：DeepSeek在一些技術(shù)上至少領(lǐng)先半年

2026-04-30 14:13:09　來源: 白鯨實驗室one

北京舉報

分享至

當(dāng)外界帶著挑剔的目光投向DeepSeek V4，并和上次V3架構(gòu)帶來的全球轟動對照時，一個極易忽略的細(xì)節(jié)是，華為昇騰芯片第一次支撐起了萬億參數(shù)級前沿模型的訓(xùn)練。這可能改變國內(nèi)算力格局。

“國內(nèi)第一梯隊的模型廠商，預(yù)訓(xùn)練已經(jīng)部分可以用昇騰替換英偉達(dá)了，后訓(xùn)練還沒到那個程度?！瘪R驍騰告訴我們。

過去兩年，模型廠商的能力提升幾乎完全受限于團隊能拿到多少張英偉達(dá)的A100或H800卡。沒有算力，再好的算法也是紙上談兵。

也正因此，Mind Lab首席科學(xué)家、清華大學(xué)自動化系博士馬驍騰和他的團隊一直在等待DeepSeek V4的發(fā)布。Mind Lab 是專注于后訓(xùn)練的Neo Lab，基于DeepSeek架構(gòu)模型和Qwen架構(gòu)模型做后訓(xùn)練。因為要拆解每一款主流新模型，他也和DeepSeek、智譜、Kimi 等廠商的研發(fā)高層保持著密切的聯(lián)系。

DeepSeek V4發(fā)布的同一時段，Mind Lab也和國產(chǎn)芯片廠商展開了合作。

不過，現(xiàn)在國產(chǎn)芯片在后訓(xùn)練階段暫時無法平替英偉達(dá)，后訓(xùn)練時，模型需要頻繁地在“訓(xùn)練”和“推理”之間高速切換，對芯片的訓(xùn)推一致性和極限響應(yīng)速度要求更高。馬驍騰指出，目前國產(chǎn)卡的生態(tài)和算子適配還不夠成熟?，F(xiàn)階段可以先用國產(chǎn)的推理卡來承接后訓(xùn)練中的部分推理任務(wù)，訓(xùn)練環(huán)節(jié)暫時還在依賴英偉達(dá)。

盡管網(wǎng)上已有許多關(guān)于開發(fā)人員、創(chuàng)業(yè)者對DeepSeek V4的解讀，但像馬驍騰這樣身處一線、又保持第三方視角的解讀并不多。

馬驍騰看完技術(shù)報告的一大感受是，DeepSeek的野心很大，這種野心體現(xiàn)在它沒有專注于榜單的追高，也沒有像其他模型廠商做局部、單點突破，DeepSeek一直想做架構(gòu)等全棧的原創(chuàng)突破。

DeepSeek V4發(fā)布后，編程能力略顯平庸，被認(rèn)為沒有甩開智譜 GLM-5.1和Kimi-2.6，甚至在某些測試中只能勉強打平手。

馬驍騰解釋稱，如果DeepSeek真要死磕編程，完全可以把性能推到業(yè)界頂尖水準(zhǔn)，但代價必然是犧牲掉在通用任務(wù)上的泛化性。DeepSeek V4更強調(diào)對通用世界知識和日常寫作能力的提升——這類任務(wù)恰恰是最難啃的骨頭，因為它們不像解數(shù)學(xué)題、寫代碼那樣有明確的標(biāo)準(zhǔn)答案，無法通過強化學(xué)習(xí)直接優(yōu)化。

“這恰恰說明DeepSeek野心很大，它不愿只做一個編程很強的專用工具”。馬驍騰說，DeepSeek這次更新的核心就是長文本能力，這對其他大廠可以說是碾壓級的。

他還分享了V4跳票背后的一些技術(shù)真相，比如V4有一套極其獨創(chuàng)的容器技術(shù)DSec，速度極快，且具備快照功能。在訓(xùn)練時能隨時給整個系統(tǒng)狀態(tài)“拍一張照片”，一旦后續(xù)方向走偏，就能閃回重來。這種工程靈活度，他目前還沒在國內(nèi)第二家公司見過，“DeepSeek在技術(shù)上領(lǐng)先了至少半年”。

當(dāng) V4 正攪動新一輪牌局之際，我們和馬驍騰聊了兩小時，以下是和他的對話：

DeepSeek的野心很大

白鯨實驗室：你第一次聽說DeepSeek V4要發(fā)布是什么時候？

馬驍騰：大概是去年12月左右，DeepSeek V4 計劃在春節(jié)前后發(fā)，我們當(dāng)時做了充分的準(zhǔn)備，春節(jié)就沒放假，等著研究V4。后來確定發(fā)布計劃是大年三十，但還是撲了空。據(jù)我所知，臨到發(fā)布當(dāng)天，團隊內(nèi)部對模型仍不滿意，就不發(fā)了。最后我們轉(zhuǎn)而研究智譜的GLM-5和 Kimi 2.5。

白鯨實驗室：你對 V4 拖到4月份發(fā)是有預(yù)期的嗎？還是覺得它應(yīng)該更早發(fā)出來？

馬驍騰：DeepSeek的節(jié)奏不好說，大家都很期待這次V4的發(fā)布。畢竟上次V3.1和V3.2都是小版本更新，沒有像 R1 那樣帶來巨大突破。不過，這次看到V4，我個人感覺非常驚艷，由衷欽佩DeepSeek團隊。

白鯨實驗室：你最關(guān)注的是什么？

馬驍騰：其實有幾點。第一，1.6T 參數(shù)的開源模型，是目前國內(nèi)最大的開源模型。我們Mind Lab的研究定位就是用更大的模型、更少的算力，DeepSeek再次印證了往scaling走的趨勢。

第二，更長的上下文窗口。他們這次更新的核心就是長文本能力，這對其他大廠可以說是碾壓級的。

第三，工程上做了很多水下功夫，非常瑣碎但很關(guān)鍵，外行可能感知不大。比如OPD* 的大規(guī)模應(yīng)用，雖然業(yè)界在合成數(shù)據(jù)時會用類似思路來整合不同專家模型的長處，但DeepSeek是第一個在萬億參數(shù)級別把它完整跑通的。這背后需要解決很多工程難題，包括對底層計算核心（Kernel）進(jìn)行極致的定制化改寫、on-disk KV cache*（磁盤KV緩存）等，單獨拆開每一件都足夠一個團隊攻堅，而他們居然在同一個公司里全做到了。

*注：OPD ：On-Policy Distillation，是一種用于在大模型 agent 訓(xùn)練階段中高效融合專家網(wǎng)絡(luò)的訓(xùn)練方法，也是過去一年后訓(xùn)練的新范式。

*磁盤KV緩存，是把模型運行時產(chǎn)生的KV緩存，從昂貴的顯存搬到了更廉價的硬盤上做持久化存儲，對于提升代碼倉庫等長文檔的閱讀能力來說很重要。

白鯨實驗室：你是說相對于他們的團隊人數(shù)來說，這很難得？

馬驍騰：不。其實不少大模型公司在訓(xùn)練時更“按部就班”，他們可能選擇擁抱DeepSeek的架構(gòu)，但在架構(gòu)本身上花的原創(chuàng)心思不多，他們更傾向于在優(yōu)化器、Agent訓(xùn)練方面做單點突破。但DeepSeek V4做了全棧，把很多大家曾習(xí)以為常的默認(rèn)規(guī)則，全打碎了?，F(xiàn)在應(yīng)該沒有人在看完他們的技術(shù)報告后不去研究的吧（笑）。

白鯨實驗室：為什么騰訊、阿里都在推 30B 以下的“小”模型，而 V4 是巨大的1.6T？

馬驍騰：要想讓模型的表現(xiàn)達(dá)到最好，參數(shù)量就必須足夠大，模型才有足夠高的“智商”上限。但硬件的物理限制擺在那里，如果想把模型放在本地跑，參數(shù)量基本只能控制在 30B（約300億參數(shù)）以內(nèi)。這就形成了強力拉扯，追求智能就得往上堆參數(shù)，想要方便部署就得往下壓規(guī)模。

所以現(xiàn)在的模型很自然地分成了四個檔位：最小的那一檔，跑在最基礎(chǔ)的硬件上，能說話就行；30B左右可以在個人設(shè)備上跑起來；100B到 200B，適合部署在服務(wù)器上，用來處理常規(guī)的Agent任務(wù)；600B到 1T（約1萬億參數(shù)），用來解決真正最困難、最復(fù)雜的任務(wù)?？ㄔ谶@幾檔中間的參數(shù)規(guī)模，定位很尷尬，意義不大。

至于這次V4的1.6T版本，它的意義在于追求極限，去探一探參數(shù)規(guī)模的天花板到底在哪里。但說實話，目前對絕大多數(shù)人來說，它確實很難在實際場景（本地部署）中用起來。反而是DeepSeek-V4-Flash（284B參數(shù)）最實用。它既劃算，又能在合理的資源下被訓(xùn)練得動，還能真正部署到場景里去。對于任何一個創(chuàng)業(yè)者來說，都不會拒絕在200B這個量級的模型上去開展研究工作，它真的很“香”。

白鯨實驗室：這次V4 發(fā)布，用戶端的感知沒有R1那么直接了，可以推薦幾個測試題，讓非技術(shù)人員也能體會它的進(jìn)步嗎？

馬驍騰：其實大家現(xiàn)在還在用傳統(tǒng)思維測模型，比如那些經(jīng)典的思維陷阱題。但那些題答得好壞，完全不影響代碼任務(wù)的表現(xiàn)。V4發(fā)布后真正有體感的，是把AI用在編程上的人。這次V4在編程上的表現(xiàn)，只能說是跟Kimi 2.6、GLM 5.1打了個平手，這兩個模型也非常優(yōu)秀。最前沿的還是得看GPT 5.5和Claude 4.7。

白鯨實驗室：DeepSeek R1是作為“價格屠夫”出圈的，現(xiàn)在的DeepSeek 相比OpenAI、谷歌，有沒有找到新的差異化優(yōu)勢？

馬驍騰：不能這么單一地看待DeepSeek。R1 本身顛覆性很強，它不僅是當(dāng)時最大的開源模型，推理能力也足以和OpenAI的O1正面競爭，但它更打動人的是一種“泛化性”，仿佛無所不能。我記得當(dāng)時各行各業(yè)的反饋都是，你跟它聊什么，它都懂一點，還能說到點子上。

這種“萬金油”式的通用智能體驗，在當(dāng)時的其他國產(chǎn)開源模型上是相對缺失的。大家普遍更聚焦于如何在某個榜單上刷出更高的性能表現(xiàn)。

其實如果DeepSeek真要死磕編程這一個點，完全可以把性能推到業(yè)界頂尖水準(zhǔn)，但代價必然是犧牲掉在通用任務(wù)上的泛化性表現(xiàn)。但這次V4發(fā)布，DeepSeek特別強調(diào)了對通用世界知識和日常寫作能力的提升。

這類任務(wù)恰恰是最難啃的骨頭，因為它們不像強化學(xué)習(xí)（RL）那樣，可以通過解數(shù)學(xué)題、寫代碼這種有明確“標(biāo)準(zhǔn)答案”的目標(biāo)來直接優(yōu)化。這恰恰說明DeepSeek野心很大，它不愿只做一個編程很強的專用工具。

白鯨實驗室：所以，在某些編程場景，V4打不過Kimi 2.6，GLM 5.1，這是DeepSeek的選擇還是客觀差距？

馬驍騰：我覺得某種程度上，不追求SOTA榜單也是一種智慧?，F(xiàn)在發(fā)模型很難，大家的要求都太高了，也都很卷。V4提到了大量對通用知識、更好寫作能力的增強，這些都不體現(xiàn)在我們最關(guān)注的那幾個榜單上。

我個人感覺，可能V4還是有意犧牲掉一部分的。這種對均衡性的追求，恰恰和谷歌、OpenAI這些頂級實驗室的長期戰(zhàn)略高度對齊。

“DeepSeek在技術(shù)上領(lǐng)先了至少半年”

白鯨實驗室：在模型架構(gòu)和訓(xùn)練方法上，V4有哪些重大意義上的突破，值得創(chuàng)業(yè)者學(xué)習(xí)的？

馬驍騰：值得說的點太多了。最顯而易見的就是長上下文的訓(xùn)練方式。在V4開源方案公開之前，業(yè)內(nèi)絕大多數(shù)模型最多只能真實訓(xùn)練到25萬token左右的上下文長度。超過這個限度再想支持更長的文本，全靠一種叫“外推”的技術(shù)勉強補位。

這就導(dǎo)致很多號稱支持超長上下文的模型，一旦輸入的文本超過二十多萬token，智商就斷崖式暴跌。原因就是，外推相當(dāng)于讓模型去猜它沒學(xué)過的東西，猜著猜著，之前記住的關(guān)鍵信息就丟了。

DeepSeek這次的做法是，干脆一個token都不丟，讓模型在訓(xùn)練時就主動去容忍長序列帶來的各種誤差，硬生生把上下文窗口撐開。這背后牽扯到模型架構(gòu)的改動，以及QAT技術(shù)，也就是量化感知訓(xùn)練?！傲炕笨梢岳斫鉃榘涯Ｐ陀嬎銜r的數(shù)字精度壓低，來換取更快的運行速度和更低的資源消耗，但這個壓縮過程必然帶來精度的損失。

常規(guī)做法是訓(xùn)練完之后再量化，通常會有性能折損。而QAT在訓(xùn)練階段就直接“預(yù)判”了推理時會產(chǎn)生的量化誤差，把這種誤差當(dāng)作訓(xùn)練的一部分，讓模型提前去學(xué)習(xí)和適應(yīng)這種“有損”的環(huán)境，抗干擾能力很強。這套設(shè)計非常關(guān)鍵。據(jù)我們觀察，在類似架構(gòu)上，如果不做QAT，訓(xùn)練出來的模型性能會下降得非常厲害。

白鯨實驗室：最讓你驚喜的是什么？

馬驍騰：是注意力訓(xùn)練機制。從DeepSeek V3提出了MLA（多頭潛在注意力），同樣的信息用更少的KV緩存就能記下來。V3.2提出的DSA，是首次實現(xiàn)了可以“主動遺忘”或舍棄一部分不再關(guān)鍵的KV緩存，這在以前是很難想象的。我們團隊?wèi)?yīng)該是開源社區(qū)里第一個能完整支持DSA訓(xùn)練的，上周才剛剛把這項技術(shù)的細(xì)節(jié)徹底消化，結(jié)果這周他們的新論文就又出來了。

這次V4引入的CSA/HCA（混合壓縮注意力機制）直接挑戰(zhàn)了注意力機制最底層的核心邏輯。過去的優(yōu)化大多圍繞著“如何更高效地管理緩存”做文章，而DeepSeek的新思路是，讓模型去“學(xué)習(xí)”緩存本身該是什么樣。這等于是給緩存層也裝上了可訓(xùn)練的參數(shù)，讓它能自己決定該記住什么、忘掉什么。這背后牽涉到的系統(tǒng)復(fù)雜度和工程實現(xiàn)難度是暴漲的。

另一個很復(fù)雜的工程是KV緩存*的分層管理。前面提到的CSA、HCA（動態(tài)稀疏注意力）等新機制，雖然大幅壓縮了KV緩存本身的體積，但也帶來了一個問題，就是緩存的結(jié)構(gòu)變了。過去一整塊可以統(tǒng)一調(diào)度的東西，裂變成了不同層級、不同屬性的緩存塊。為了讓它們協(xié)同工作，需要一套新的分層管理機制，極其復(fù)雜。

*注：KV緩存（Key Value），在Transformer 模型里，指模型把過往的詞打上標(biāo)簽，方便快速對應(yīng)標(biāo)簽底下儲存著的詳細(xì)信息，直接決定大模型能記住多長的上文和推理速度。上下文越長，存的東西越多，顯存就被撐得越滿。這也是為什么長上下文模型那么難做的核心瓶頸之一。

白鯨實驗室：最讓你意外的是什么？

馬驍騰：還有一個讓人印象深刻的細(xì)節(jié)。DeepSeek 內(nèi)部有一套極其獨創(chuàng)的容器技術(shù)DSec，速度極快，而且具備快照功能。就是在訓(xùn)練過程中隨時給整個系統(tǒng)狀態(tài)“拍一張照片”，一旦后續(xù)方向走偏，就能瞬間閃回到那個時間點接著重來。

這種工程靈活度，我目前還沒在第二家公司見過。

白鯨實驗室：國外大廠也沒有嗎？

馬驍騰：我不清楚OpenAI怎么做的，但其他大廠，他們沒意識到這個容器技術(shù)對Agent訓(xùn)練的重要性，所以DeepSeek在技術(shù)上可以說領(lǐng)先了至少半年。

白鯨實驗室：V4把上下文一次性“吃”進(jìn)去，這和Mind Lab的Lora是兩條技術(shù)路線。你傾向于哪種？V4的方案會不會讓長期記憶問題變得不那么重要了？

馬驍騰：V4的方案確實緩解了記憶問題，但不是唯一的解法。

目前業(yè)界跑通的技術(shù)路線，大致可以分成兩派。一派是DeepSeek的做法，不斷把注意力范圍撐大，讓模型能在一次處理中直接“吃”進(jìn)更長的上下文。另一派是OpenAI的路子，他們拼命做壓縮——也就是把過往的對話歷史，實時提煉成一種高度濃縮的“摘要信息”。

你作為用戶，幾乎感覺不到它的記憶預(yù)算是有限的，聊起來好像它什么都能記住。但說到底，這兩套方案主要解決的，其實都是工作記憶的問題，也就是模型在當(dāng)前對話里處理信息的能力。

真正的問題是，無論哪種方案，只要新開一個會話，它就會從零開始。Lora或者說參數(shù)化記憶，永遠(yuǎn)是長期記憶的終極方案。一個最直接的例子是，掌握一門新的編程語言，你無法把所有語法塞進(jìn)上下文就指望模型學(xué)會。

前段時間，某海外頭部芯片廠商的科學(xué)家找到我們，他們每代新硬件都要發(fā)明新的語言，這是基座模型不會的，所以要尋求一種通過Lora讓模型快速學(xué)習(xí)新知識的方式。而且，Lora今年已經(jīng)非常明顯地適用于當(dāng)前模型的整個后訓(xùn)練流程技術(shù)棧了。各大廠商的訓(xùn)練方式就是基座訓(xùn)練好后，分成各個分支分別去訓(xùn)練專用任務(wù)，最后合并，這其實就是非常適合Lora的模式。

白鯨實驗室：下一個階段的競爭核心是在哪？繼續(xù)在文本、Agent上卷，還是多模態(tài)？

馬驍騰：我覺得Agent還沒卷到頭。從技術(shù)上講，如果在文本能力上取得進(jìn)展，模型的可用范圍會明顯拓寬。相比之下，視覺能力沒有外界想象的那么神秘。它的實現(xiàn)路徑已經(jīng)相對成熟，就是給語言模型外掛一個“視覺編碼器”。

現(xiàn)在DeepSeek上線了識圖模式，也是一種印證。因為它是圖像理解，而不是圖像生成。而且智譜和 Kimi 現(xiàn)在接入視覺功能也都很絲滑，但用戶并不會因此就覺得這個模型有多厲害，市場真正優(yōu)先看的，還是它在Agent上的表現(xiàn)。

白鯨實驗室：什么情況下，能判斷Agent已經(jīng)卷到頭了？

馬驍騰：比如GPT 5.5相對于5.4，原來可能需要十句話講明白的需求，現(xiàn)在一句話就行。AI自己會考慮好如何正確完成，自己把從需求到結(jié)果的整個流程閉環(huán)，中間需要的人工干預(yù)的步驟越少，價值就越高。

現(xiàn)在Agent還有很多工作要做。模型在個性化任務(wù)上對人的需求和記憶的理解還是很差。這個不是圖像層面的問題，是語言層面的。甚至隨著編程能力增強，模型對人的理解能力還下降了，說話越來越有“AI味”，我們在研究里把這叫做“人格漂移”。

模型廠商都開始在預(yù)訓(xùn)練用昇騰卡了

白鯨實驗室：這次V4在華為昇騰卡上做了訓(xùn)練適配，對你們有啟發(fā)嗎？

馬驍騰：目前國內(nèi)第一梯隊的模型廠商，現(xiàn)在已經(jīng)可以在預(yù)訓(xùn)練階段用華為昇騰卡來替代英偉達(dá)芯片了，但后訓(xùn)練階段還做不到完全平替。目前我們Mind Lab正在積極推動和國產(chǎn)芯片的合作。

白鯨實驗室：預(yù)訓(xùn)練和后訓(xùn)練適配國產(chǎn)卡，有哪些不同？為什么大家都卡在了后訓(xùn)練？

馬驍騰：預(yù)訓(xùn)練雖然整體耗時最長，但任務(wù)本身非?！皢渭儭?，模型只盯著一個統(tǒng)一的目標(biāo)（優(yōu)化一個損失函數(shù)），過程穩(wěn)定且重復(fù)性高，目前國產(chǎn)芯片已經(jīng)可以勝任了。

后訓(xùn)練完全是另一回事。這個階段包含了指令微調(diào)、強化學(xué)習(xí)等復(fù)雜步驟，模型需要頻繁地在“訓(xùn)練”和“推理”兩種狀態(tài)之間高速切換，對芯片的訓(xùn)推一致性（即同一張卡在訓(xùn)練和推理時表現(xiàn)都要好，且能無縫銜接）以及極限響應(yīng)速度要求更高。目前國產(chǎn)卡的生態(tài)和算子適配還不夠成熟。所以現(xiàn)階段可以先用國產(chǎn)的推理卡，即專為推理優(yōu)化的芯片，比如昇騰的推理卡來承接后訓(xùn)練中的部分推理任務(wù)，訓(xùn)練環(huán)節(jié)暫時依賴英偉達(dá)。

白鯨實驗室：類似DeepSeek和華為的深度合作有篩選門檻嗎？

馬驍騰：還是有的。畢竟現(xiàn)在能訓(xùn)起這么大模型的實驗室團隊，全國不超過 10 個。

白鯨實驗室：我們能看到大模型后訓(xùn)練完全適配國產(chǎn)芯片的一天嗎？

馬驍騰：我們現(xiàn)在對國產(chǎn)卡應(yīng)該燃起充分的希望。國產(chǎn)芯片和英偉達(dá)的差距主要是生態(tài)，但是原來生態(tài)上的不足，現(xiàn)在已經(jīng)能用 AI 來彌補了。之前模型適配國產(chǎn)芯片，很多底層的基礎(chǔ)算子、適配代碼，都要靠經(jīng)驗豐富的工程師一行一行寫，費時也缺人。

但現(xiàn)在我不會寫國產(chǎn)生成卡的適配代碼，但AI會寫，而且寫得越來越好。這等于是給適配過程裝上了加速器，效率一下子就提上來了。

白鯨實驗室：這種合作給你們帶來的最直觀好處是什么？成本的大幅下降？

馬驍騰：最直觀的還是緩解算力緊缺。國產(chǎn)卡的成本優(yōu)勢是很驚人的，現(xiàn)在買卡真的是又貴又難，能用到更多國產(chǎn)卡，對整體生態(tài)肯定是更好的。

V4炫技，閉源承壓

白鯨實驗室：V4發(fā)布當(dāng)天，有AI概念股下跌6%以上。從二級市場到VC圈，有人調(diào)侃說DeepSeek還是國產(chǎn)大模型最嚴(yán)厲的父親，你怎么看待這種現(xiàn)象？

馬驍騰：說實話，我個人認(rèn)為這是短期現(xiàn)象，他們可能并沒真正研究過 V4發(fā)生了什么。比如coding場景上，現(xiàn)在也不能說DeepSeek就比 GLM 5.1 好。我理解的“嚴(yán)厲”，是DeepSeek做的很坦蕩，就是把模型性能做到這個高度，然后徹底開源，任何人都能免費用。

這等于給全行業(yè)劃下了一條非常高的及格線，你如果選擇閉源收費，那你拿出來的東西就不能只比它好一點點，必須得有質(zhì)的飛躍，好到讓用戶覺得付費是值得的。

白鯨實驗室：說到開源，今年包括Minimax、阿里都出現(xiàn)了閉源趨勢，MiniMax 4月推出的M2.7，在傳統(tǒng)學(xué)術(shù)意義上依然是開源模型，但它的許可證版本改為“嚴(yán)禁商業(yè)用途”“需要得到授權(quán)才能商業(yè)化”，阿里Qwen3.5-Omni選擇閉源。你如何判斷這種戰(zhàn)略轉(zhuǎn)向？它背后的邏輯到底是什么？是技術(shù)控制權(quán)？還是盈利壓力？

馬驍騰：我們必須尊重“公司要掙錢”這個事實。一家公司能選擇走開源這條路，本身就是極其艱難的商業(yè)決策。阿里的平衡拿捏得不錯，把最強的Qwen Max 閉源，同時把體量小一些的模型開源。但DeepSeek確實會讓這種原本的平衡變得尷尬。

不過另一邊，大家也看到，即使開源，1.6T的大參數(shù)沒幾個人能在自己電腦上真正跑起來。要把這樣的模型部署好、跑得順、用到業(yè)務(wù)里，需要海量的工程技巧和配套服務(wù)，這本身就是強需求。比如Kimi、智譜、Minimax智譜，他們開源的模型照樣賣得很好，因為賣的不只是模型權(quán)重，更是大家對于他們技術(shù)能力的信任。

白鯨實驗室：從第三方評測看，V4更多被強調(diào)在代碼任務(wù)上的“開源斷層”和價格屠夫的角色——V4-Flash輸出價僅0.28美元/百萬token。就在前一天發(fā)布的GPT-5.5輸出價是30美元/百萬token。這種近100倍的價差，在你看來會把AI應(yīng)用市場帶向何方？

馬驍騰：其實現(xiàn)在DeepSeek有一種“炫技”的感覺。他想傳遞的是，極致的低價不全是靠壓榨利潤換來的，而是可以通過KV緩存優(yōu)化這類硬核技術(shù)，從底層把算力消耗實實在在地省出來?？ㄊ∠铝?，成本自然就降了，價格也就有了更低的空間。背后靠的是技術(shù)底子。

目前的模型定價策略，也分成了兩條路：一條是朝“更貴、更極致”走，另一條是向“更小、更便宜、更大眾”去。像V4的1.6T版本，追求的就是能力的上限，可以為了極致性能犧牲一點速度和等待時間；而flash版本，目標(biāo)則是敏捷、好用、覆蓋更廣泛的日常任務(wù)，主打速度和性價比。這兩者不是對立的，而是搭配著來。

白鯨實驗室：V4的低價開源，會壓縮做中間態(tài)商業(yè)模型公司的生存空間嗎？

馬驍騰：我還是覺得垂直場景很重要。在一個強的基座模型上，即使你再擴大參數(shù)，智能收益也是有限的。大廠能拿到的數(shù)據(jù)很有限，垂域應(yīng)用廠商下游的真實數(shù)據(jù)，是有很大護(hù)城河的。最典型的例子就是Cursor。

它就只深耕編程這一個垂直領(lǐng)域，后訓(xùn)練做得極好，最近也和SpaceX達(dá)成合作并拿到收購期權(quán)，估值跟Minimax 這種通用大模型公司平起平坐。這證明了，把后訓(xùn)練這一件事在垂域做好，就能創(chuàng)造出上市級別的價值。

現(xiàn)在行業(yè)的問題是，基座模型迭代飛快，但讓這些能力在具體場景里落地的推理設(shè)施和部署工程，還跟不上。我們就在嘗試彌補這個斷層，讓大家能更好地在基座上釋放下游場景的價值。

撰寫｜馬舒葉

編輯｜劉培

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.