国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

對話科學(xué)家馬驍騰:DeepSeek在一些技術(shù)上至少領(lǐng)先半年

0
分享至


當(dāng)外界帶著挑剔的目光投向DeepSeek V4,并和上次V3架構(gòu)帶來的全球轟動對照時,一個極易忽略的細(xì)節(jié)是,華為昇騰芯片第一次支撐起了萬億參數(shù)級前沿模型的訓(xùn)練。這可能改變國內(nèi)算力格局。

“國內(nèi)第一梯隊的模型廠商,預(yù)訓(xùn)練已經(jīng)部分可以用昇騰替換英偉達(dá)了,后訓(xùn)練還沒到那個程度?!瘪R驍騰告訴我們。

過去兩年,模型廠商的能力提升幾乎完全受限于團隊能拿到多少張英偉達(dá)的A100或H800卡。沒有算力,再好的算法也是紙上談兵。

也正因此,Mind Lab首席科學(xué)家、清華大學(xué)自動化系博士馬驍騰和他的團隊一直在等待DeepSeek V4的發(fā)布。Mind Lab 是專注于后訓(xùn)練的Neo Lab,基于DeepSeek架構(gòu)模型和Qwen架構(gòu)模型做后訓(xùn)練。因為要拆解每一款主流新模型,他也和DeepSeek、智譜、Kimi 等廠商的研發(fā)高層保持著密切的聯(lián)系。

DeepSeek V4發(fā)布的同一時段,Mind Lab也和國產(chǎn)芯片廠商展開了合作。

不過,現(xiàn)在國產(chǎn)芯片在后訓(xùn)練階段暫時無法平替英偉達(dá),后訓(xùn)練時,模型需要頻繁地在“訓(xùn)練”和“推理”之間高速切換,對芯片的訓(xùn)推一致性和極限響應(yīng)速度要求更高。馬驍騰指出,目前國產(chǎn)卡的生態(tài)和算子適配還不夠成熟?,F(xiàn)階段可以先用國產(chǎn)的推理卡來承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時還在依賴英偉達(dá)。

盡管網(wǎng)上已有許多關(guān)于開發(fā)人員、創(chuàng)業(yè)者對DeepSeek V4的解讀,但像馬驍騰這樣身處一線、又保持第三方視角的解讀并不多。

馬驍騰看完技術(shù)報告的一大感受是,DeepSeek的野心很大,這種野心體現(xiàn)在它沒有專注于榜單的追高,也沒有像其他模型廠商做局部、單點突破,DeepSeek一直想做架構(gòu)等全棧的原創(chuàng)突破。

DeepSeek V4發(fā)布后,編程能力略顯平庸,被認(rèn)為沒有甩開智譜 GLM-5.1和Kimi-2.6,甚至在某些測試中只能勉強打平手。

馬驍騰解釋稱,如果DeepSeek真要死磕編程,完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價必然是犧牲掉在通用任務(wù)上的泛化性。DeepSeek V4更強調(diào)對通用世界知識和日常寫作能力的提升——這類任務(wù)恰恰是最難啃的骨頭,因為它們不像解數(shù)學(xué)題、寫代碼那樣有明確的標(biāo)準(zhǔn)答案,無法通過強化學(xué)習(xí)直接優(yōu)化。

“這恰恰說明DeepSeek野心很大,它不愿只做一個編程很強的專用工具”。馬驍騰說,DeepSeek這次更新的核心就是長文本能力,這對其他大廠可以說是碾壓級的。

他還分享了V4跳票背后的一些技術(shù)真相,比如V4有一套極其獨創(chuàng)的容器技術(shù)DSec,速度極快,且具備快照功能。在訓(xùn)練時能隨時給整個系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能閃回重來。這種工程靈活度,他目前還沒在國內(nèi)第二家公司見過,“DeepSeek在技術(shù)上領(lǐng)先了至少半年”。

當(dāng) V4 正攪動新一輪牌局之際,我們和馬驍騰聊了兩小時,以下是和他的對話:

01

DeepSeek的野心很大

白鯨實驗室:你第一次聽說DeepSeek V4要發(fā)布是什么時候?

馬驍騰:大概是去年12月左右,DeepSeek V4 計劃在春節(jié)前后發(fā),我們當(dāng)時做了充分的準(zhǔn)備,春節(jié)就沒放假,等著研究V4。后來確定發(fā)布計劃是大年三十,但還是撲了空。據(jù)我所知,臨到發(fā)布當(dāng)天,團隊內(nèi)部對模型仍不滿意,就不發(fā)了。最后我們轉(zhuǎn)而研究智譜的GLM-5和 Kimi 2.5。

白鯨實驗室:你對 V4 拖到4月份發(fā)是有預(yù)期的嗎?還是覺得它應(yīng)該更早發(fā)出來?

馬驍騰:DeepSeek的節(jié)奏不好說,大家都很期待這次V4的發(fā)布。畢竟上次V3.1和V3.2都是小版本更新,沒有像 R1 那樣帶來巨大突破。不過,這次看到V4,我個人感覺非常驚艷,由衷欽佩DeepSeek團隊。

白鯨實驗室:你最關(guān)注的是什么?

馬驍騰:其實有幾點。第一,1.6T 參數(shù)的開源模型,是目前國內(nèi)最大的開源模型。我們Mind Lab的研究定位就是用更大的模型、更少的算力,DeepSeek再次印證了往scaling走的趨勢。

第二,更長的上下文窗口。他們這次更新的核心就是長文本能力,這對其他大廠可以說是碾壓級的。

第三,工程上做了很多水下功夫,非常瑣碎但很關(guān)鍵,外行可能感知不大。比如OPD* 的大規(guī)模應(yīng)用,雖然業(yè)界在合成數(shù)據(jù)時會用類似思路來整合不同專家模型的長處,但DeepSeek是第一個在萬億參數(shù)級別把它完整跑通的。這背后需要解決很多工程難題,包括對底層計算核心(Kernel)進(jìn)行極致的定制化改寫、on-disk KV cache*(磁盤KV緩存)等,單獨拆開每一件都足夠一個團隊攻堅,而他們居然在同一個公司里全做到了。

*注:OPD :On-Policy Distillation,是一種用于在大模型 agent 訓(xùn)練階段中高效融合專家網(wǎng)絡(luò)的訓(xùn)練方法,也是過去一年后訓(xùn)練的新范式。

*磁盤KV緩存,是把模型運行時產(chǎn)生的KV緩存,從昂貴的顯存搬到了更廉價的硬盤上做持久化存儲,對于提升代碼倉庫等長文檔的閱讀能力來說很重要。

白鯨實驗室:你是說相對于他們的團隊人數(shù)來說,這很難得?

馬驍騰:不。其實不少大模型公司在訓(xùn)練時更“按部就班”,他們可能選擇擁抱DeepSeek的架構(gòu),但在架構(gòu)本身上花的原創(chuàng)心思不多,他們更傾向于在優(yōu)化器、Agent訓(xùn)練方面做單點突破。但DeepSeek V4做了全棧,把很多大家曾習(xí)以為常的默認(rèn)規(guī)則,全打碎了?,F(xiàn)在應(yīng)該沒有人在看完他們的技術(shù)報告后不去研究的吧(笑)。

白鯨實驗室:為什么騰訊、阿里都在推 30B 以下的“小”模型,而 V4 是巨大的1.6T?

馬驍騰:要想讓模型的表現(xiàn)達(dá)到最好,參數(shù)量就必須足夠大,模型才有足夠高的“智商”上限。但硬件的物理限制擺在那里,如果想把模型放在本地跑,參數(shù)量基本只能控制在 30B(約300億參數(shù))以內(nèi)。這就形成了強力拉扯,追求智能就得往上堆參數(shù),想要方便部署就得往下壓規(guī)模。

所以現(xiàn)在的模型很自然地分成了四個檔位:最小的那一檔,跑在最基礎(chǔ)的硬件上,能說話就行;30B左右可以在個人設(shè)備上跑起來;100B到 200B,適合部署在服務(wù)器上,用來處理常規(guī)的Agent任務(wù);600B到 1T(約1萬億參數(shù)),用來解決真正最困難、最復(fù)雜的任務(wù)??ㄔ谶@幾檔中間的參數(shù)規(guī)模,定位很尷尬,意義不大。

至于這次V4的1.6T版本,它的意義在于追求極限,去探一探參數(shù)規(guī)模的天花板到底在哪里。但說實話,目前對絕大多數(shù)人來說,它確實很難在實際場景(本地部署)中用起來。反而是DeepSeek-V4-Flash(284B參數(shù))最實用。它既劃算,又能在合理的資源下被訓(xùn)練得動,還能真正部署到場景里去。對于任何一個創(chuàng)業(yè)者來說,都不會拒絕在200B這個量級的模型上去開展研究工作,它真的很“香”。

白鯨實驗室:這次V4 發(fā)布,用戶端的感知沒有R1那么直接了,可以推薦幾個測試題,讓非技術(shù)人員也能體會它的進(jìn)步嗎?

馬驍騰:其實大家現(xiàn)在還在用傳統(tǒng)思維測模型,比如那些經(jīng)典的思維陷阱題。但那些題答得好壞,完全不影響代碼任務(wù)的表現(xiàn)。V4發(fā)布后真正有體感的,是把AI用在編程上的人。這次V4在編程上的表現(xiàn),只能說是跟Kimi 2.6、GLM 5.1打了個平手,這兩個模型也非常優(yōu)秀。最前沿的還是得看GPT 5.5和Claude 4.7。

白鯨實驗室:DeepSeek R1是作為“價格屠夫”出圈的,現(xiàn)在的DeepSeek 相比OpenAI、谷歌,有沒有找到新的差異化優(yōu)勢?

馬驍騰:不能這么單一地看待DeepSeek。R1 本身顛覆性很強,它不僅是當(dāng)時最大的開源模型,推理能力也足以和OpenAI的O1正面競爭,但它更打動人的是一種“泛化性”,仿佛無所不能。我記得當(dāng)時各行各業(yè)的反饋都是,你跟它聊什么,它都懂一點,還能說到點子上。

這種“萬金油”式的通用智能體驗,在當(dāng)時的其他國產(chǎn)開源模型上是相對缺失的。大家普遍更聚焦于如何在某個榜單上刷出更高的性能表現(xiàn)。

其實如果DeepSeek真要死磕編程這一個點,完全可以把性能推到業(yè)界頂尖水準(zhǔn),但代價必然是犧牲掉在通用任務(wù)上的泛化性表現(xiàn)。但這次V4發(fā)布,DeepSeek特別強調(diào)了對通用世界知識和日常寫作能力的提升。

這類任務(wù)恰恰是最難啃的骨頭,因為它們不像強化學(xué)習(xí)(RL)那樣,可以通過解數(shù)學(xué)題、寫代碼這種有明確“標(biāo)準(zhǔn)答案”的目標(biāo)來直接優(yōu)化。這恰恰說明DeepSeek野心很大,它不愿只做一個編程很強的專用工具。

白鯨實驗室:所以,在某些編程場景,V4打不過Kimi 2.6,GLM 5.1,這是DeepSeek的選擇還是客觀差距?

馬驍騰:我覺得某種程度上,不追求SOTA榜單也是一種智慧?,F(xiàn)在發(fā)模型很難,大家的要求都太高了,也都很卷。V4提到了大量對通用知識、更好寫作能力的增強,這些都不體現(xiàn)在我們最關(guān)注的那幾個榜單上。

我個人感覺,可能V4還是有意犧牲掉一部分的。這種對均衡性的追求,恰恰和谷歌、OpenAI這些頂級實驗室的長期戰(zhàn)略高度對齊。

02

“DeepSeek在技術(shù)上領(lǐng)先了至少半年”

白鯨實驗室: 在模型架構(gòu)和訓(xùn)練方法上,V4有哪些重大意義上的突破,值得創(chuàng)業(yè)者學(xué)習(xí)的?

馬驍騰:值得說的點太多了。最顯而易見的就是長上下文的訓(xùn)練方式。在V4開源方案公開之前,業(yè)內(nèi)絕大多數(shù)模型最多只能真實訓(xùn)練到25萬token左右的上下文長度。超過這個限度再想支持更長的文本,全靠一種叫“外推”的技術(shù)勉強補位。

這就導(dǎo)致很多號稱支持超長上下文的模型,一旦輸入的文本超過二十多萬token,智商就斷崖式暴跌。原因就是,外推相當(dāng)于讓模型去猜它沒學(xué)過的東西,猜著猜著,之前記住的關(guān)鍵信息就丟了。

DeepSeek這次的做法是,干脆一個token都不丟,讓模型在訓(xùn)練時就主動去容忍長序列帶來的各種誤差,硬生生把上下文窗口撐開。這背后牽扯到模型架構(gòu)的改動,以及QAT技術(shù),也就是量化感知訓(xùn)練?!傲炕笨梢岳斫鉃榘涯P陀嬎銜r的數(shù)字精度壓低,來換取更快的運行速度和更低的資源消耗,但這個壓縮過程必然帶來精度的損失。

常規(guī)做法是訓(xùn)練完之后再量化,通常會有性能折損。而QAT在訓(xùn)練階段就直接“預(yù)判”了推理時會產(chǎn)生的量化誤差,把這種誤差當(dāng)作訓(xùn)練的一部分,讓模型提前去學(xué)習(xí)和適應(yīng)這種“有損”的環(huán)境,抗干擾能力很強。這套設(shè)計非常關(guān)鍵。據(jù)我們觀察,在類似架構(gòu)上,如果不做QAT,訓(xùn)練出來的模型性能會下降得非常厲害。

白鯨實驗室:最讓你驚喜的是什么?

馬驍騰:是注意力訓(xùn)練機制。從DeepSeek V3提出了MLA(多頭潛在注意力),同樣的信息用更少的KV緩存就能記下來。V3.2提出的DSA,是首次實現(xiàn)了可以“主動遺忘”或舍棄一部分不再關(guān)鍵的KV緩存,這在以前是很難想象的。我們團隊?wèi)?yīng)該是開源社區(qū)里第一個能完整支持DSA訓(xùn)練的,上周才剛剛把這項技術(shù)的細(xì)節(jié)徹底消化,結(jié)果這周他們的新論文就又出來了。

這次V4引入的CSA/HCA(混合壓縮注意力機制)直接挑戰(zhàn)了注意力機制最底層的核心邏輯。過去的優(yōu)化大多圍繞著“如何更高效地管理緩存”做文章,而DeepSeek的新思路是,讓模型去“學(xué)習(xí)”緩存本身該是什么樣。這等于是給緩存層也裝上了可訓(xùn)練的參數(shù),讓它能自己決定該記住什么、忘掉什么。這背后牽涉到的系統(tǒng)復(fù)雜度和工程實現(xiàn)難度是暴漲的。

另一個很復(fù)雜的工程是KV緩存*的分層管理。前面提到的CSA、HCA(動態(tài)稀疏注意力)等新機制,雖然大幅壓縮了KV緩存本身的體積,但也帶來了一個問題,就是緩存的結(jié)構(gòu)變了。過去一整塊可以統(tǒng)一調(diào)度的東西,裂變成了不同層級、不同屬性的緩存塊。為了讓它們協(xié)同工作,需要一套新的分層管理機制,極其復(fù)雜。

*注:KV緩存(Key Value),在Transformer 模型里,指模型把過往的詞打上標(biāo)簽,方便快速對應(yīng)標(biāo)簽底下儲存著的詳細(xì)信息,直接決定大模型能記住多長的上文和推理速度。上下文越長,存的東西越多,顯存就被撐得越滿。這也是為什么長上下文模型那么難做的核心瓶頸之一。

白鯨實驗室:最讓你意外的是什么?

馬驍騰:還有一個讓人印象深刻的細(xì)節(jié)。DeepSeek 內(nèi)部有一套極其獨創(chuàng)的容器技術(shù)DSec,速度極快,而且具備快照功能。就是在訓(xùn)練過程中隨時給整個系統(tǒng)狀態(tài)“拍一張照片”,一旦后續(xù)方向走偏,就能瞬間閃回到那個時間點接著重來。

這種工程靈活度,我目前還沒在第二家公司見過。

白鯨實驗室:國外大廠也沒有嗎?

馬驍騰:我不清楚OpenAI怎么做的,但其他大廠,他們沒意識到這個容器技術(shù)對Agent訓(xùn)練的重要性,所以DeepSeek在技術(shù)上可以說領(lǐng)先了至少半年。

白鯨實驗室:V4把上下文一次性“吃”進(jìn)去,這和Mind Lab的Lora是兩條技術(shù)路線。你傾向于哪種?V4的方案會不會讓長期記憶問題變得不那么重要了?

馬驍騰:V4的方案確實緩解了記憶問題,但不是唯一的解法。

目前業(yè)界跑通的技術(shù)路線,大致可以分成兩派。一派是DeepSeek的做法,不斷把注意力范圍撐大,讓模型能在一次處理中直接“吃”進(jìn)更長的上下文。另一派是OpenAI的路子,他們拼命做壓縮——也就是把過往的對話歷史,實時提煉成一種高度濃縮的“摘要信息”。

你作為用戶,幾乎感覺不到它的記憶預(yù)算是有限的,聊起來好像它什么都能記住。但說到底,這兩套方案主要解決的,其實都是工作記憶的問題,也就是模型在當(dāng)前對話里處理信息的能力。

真正的問題是,無論哪種方案,只要新開一個會話,它就會從零開始。Lora或者說參數(shù)化記憶,永遠(yuǎn)是長期記憶的終極方案。一個最直接的例子是,掌握一門新的編程語言,你無法把所有語法塞進(jìn)上下文就指望模型學(xué)會。

前段時間,某海外頭部芯片廠商的科學(xué)家找到我們,他們每代新硬件都要發(fā)明新的語言,這是基座模型不會的,所以要尋求一種通過Lora讓模型快速學(xué)習(xí)新知識的方式。而且,Lora今年已經(jīng)非常明顯地適用于當(dāng)前模型的整個后訓(xùn)練流程技術(shù)棧了。各大廠商的訓(xùn)練方式就是基座訓(xùn)練好后,分成各個分支分別去訓(xùn)練專用任務(wù),最后合并,這其實就是非常適合Lora的模式。

白鯨實驗室:下一個階段的競爭核心是在哪?繼續(xù)在文本、Agent上卷,還是多模態(tài)?

馬驍騰:我覺得Agent還沒卷到頭。從技術(shù)上講,如果在文本能力上取得進(jìn)展,模型的可用范圍會明顯拓寬。相比之下,視覺能力沒有外界想象的那么神秘。它的實現(xiàn)路徑已經(jīng)相對成熟,就是給語言模型外掛一個“視覺編碼器”。

現(xiàn)在DeepSeek上線了識圖模式,也是一種印證。因為它是圖像理解,而不是圖像生成。而且智譜和 Kimi 現(xiàn)在接入視覺功能也都很絲滑,但用戶并不會因此就覺得這個模型有多厲害,市場真正優(yōu)先看的,還是它在Agent上的表現(xiàn)。

白鯨實驗室:什么情況下,能判斷Agent已經(jīng)卷到頭了?

馬驍騰:比如GPT 5.5相對于5.4,原來可能需要十句話講明白的需求,現(xiàn)在一句話就行。AI自己會考慮好如何正確完成,自己把從需求到結(jié)果的整個流程閉環(huán),中間需要的人工干預(yù)的步驟越少,價值就越高。

現(xiàn)在Agent還有很多工作要做。模型在個性化任務(wù)上對人的需求和記憶的理解還是很差。這個不是圖像層面的問題,是語言層面的。甚至隨著編程能力增強,模型對人的理解能力還下降了,說話越來越有“AI味”,我們在研究里把這叫做“人格漂移”。

03

模型廠商都開始在預(yù)訓(xùn)練昇騰卡了

白鯨實驗室:這次V4在華為昇騰卡上做了訓(xùn)練適配,對你們有啟發(fā)嗎?

馬驍騰:目前國內(nèi)第一梯隊的模型廠商,現(xiàn)在已經(jīng)可以在預(yù)訓(xùn)練階段用華為昇騰卡來替代英偉達(dá)芯片了,但后訓(xùn)練階段還做不到完全平替。目前我們Mind Lab正在積極推動和國產(chǎn)芯片的合作。

白鯨實驗室:預(yù)訓(xùn)練和后訓(xùn)練適配國產(chǎn)卡,有哪些不同?為什么大家都卡在了后訓(xùn)練?

馬驍騰:預(yù)訓(xùn)練雖然整體耗時最長,但任務(wù)本身非?!皢渭儭?,模型只盯著一個統(tǒng)一的目標(biāo)(優(yōu)化一個損失函數(shù)),過程穩(wěn)定且重復(fù)性高,目前國產(chǎn)芯片已經(jīng)可以勝任了。

后訓(xùn)練完全是另一回事。這個階段包含了指令微調(diào)、強化學(xué)習(xí)等復(fù)雜步驟,模型需要頻繁地在“訓(xùn)練”和“推理”兩種狀態(tài)之間高速切換,對芯片的訓(xùn)推一致性(即同一張卡在訓(xùn)練和推理時表現(xiàn)都要好,且能無縫銜接)以及極限響應(yīng)速度要求更高。目前國產(chǎn)卡的生態(tài)和算子適配還不夠成熟。所以現(xiàn)階段可以先用國產(chǎn)的推理卡,即專為推理優(yōu)化的芯片,比如昇騰的推理卡來承接后訓(xùn)練中的部分推理任務(wù),訓(xùn)練環(huán)節(jié)暫時依賴英偉達(dá)。

白鯨實驗室:類似DeepSeek和華為的深度合作有篩選門檻嗎?

馬驍騰:還是有的。畢竟現(xiàn)在能訓(xùn)起這么大模型的實驗室團隊,全國不超過 10 個。

白鯨實驗室:我們能看到大模型后訓(xùn)練完全適配國產(chǎn)芯片的一天嗎?

馬驍騰:我們現(xiàn)在對國產(chǎn)卡應(yīng)該燃起充分的希望。國產(chǎn)芯片和英偉達(dá)的差距主要是生態(tài),但是原來生態(tài)上的不足,現(xiàn)在已經(jīng)能用 AI 來彌補了。之前模型適配國產(chǎn)芯片,很多底層的基礎(chǔ)算子、適配代碼,都要靠經(jīng)驗豐富的工程師一行一行寫,費時也缺人。

但現(xiàn)在我不會寫國產(chǎn)生成卡的適配代碼,但AI會寫,而且寫得越來越好。這等于是給適配過程裝上了加速器,效率一下子就提上來了。

白鯨實驗室:這種合作給你們帶來的最直觀好處是什么?成本的大幅下降?

馬驍騰:最直觀的還是緩解算力緊缺。國產(chǎn)卡的成本優(yōu)勢是很驚人的,現(xiàn)在買卡真的是又貴又難,能用到更多國產(chǎn)卡,對整體生態(tài)肯定是更好的。

04

V4炫技,閉源承壓

白鯨實驗室:V4發(fā)布當(dāng)天,有AI概念股下跌6%以上。從二級市場到VC圈,有人調(diào)侃說DeepSeek還是國產(chǎn)大模型最嚴(yán)厲的父親,你怎么看待這種現(xiàn)象?

馬驍騰:說實話,我個人認(rèn)為這是短期現(xiàn)象,他們可能并沒真正研究過 V4發(fā)生了什么。比如coding場景上,現(xiàn)在也不能說DeepSeek就比 GLM 5.1 好。我理解的“嚴(yán)厲”,是DeepSeek做的很坦蕩,就是把模型性能做到這個高度,然后徹底開源,任何人都能免費用。

這等于給全行業(yè)劃下了一條非常高的及格線,你如果選擇閉源收費,那你拿出來的東西就不能只比它好一點點,必須得有質(zhì)的飛躍,好到讓用戶覺得付費是值得的。

白鯨實驗室:說到開源,今年包括Minimax、阿里都出現(xiàn)了閉源趨勢,MiniMax 4月推出的M2.7,在傳統(tǒng)學(xué)術(shù)意義上依然是開源模型,但它的許可證版本改為“嚴(yán)禁商業(yè)用途”“需要得到授權(quán)才能商業(yè)化”,阿里Qwen3.5-Omni選擇閉源。你如何判斷這種戰(zhàn)略轉(zhuǎn)向?它背后的邏輯到底是什么?是技術(shù)控制權(quán)?還是盈利壓力?

馬驍騰:我們必須尊重“公司要掙錢”這個事實。一家公司能選擇走開源這條路,本身就是極其艱難的商業(yè)決策。阿里的平衡拿捏得不錯,把最強的Qwen Max 閉源,同時把體量小一些的模型開源。但DeepSeek確實會讓這種原本的平衡變得尷尬。

不過另一邊,大家也看到,即使開源,1.6T的大參數(shù)沒幾個人能在自己電腦上真正跑起來。要把這樣的模型部署好、跑得順、用到業(yè)務(wù)里,需要海量的工程技巧和配套服務(wù),這本身就是強需求。比如Kimi、智譜、Minimax智譜,他們開源的模型照樣賣得很好,因為賣的不只是模型權(quán)重,更是大家對于他們技術(shù)能力的信任。

白鯨實驗室:從第三方評測看,V4更多被強調(diào)在代碼任務(wù)上的“開源斷層”和價格屠夫的角色——V4-Flash輸出價僅0.28美元/百萬token。就在前一天發(fā)布的GPT-5.5輸出價是30美元/百萬token。這種近100倍的價差,在你看來會把AI應(yīng)用市場帶向何方?

馬驍騰: 其實現(xiàn)在DeepSeek有一種“炫技”的感覺。他想傳遞的是,極致的低價不全是靠壓榨利潤換來的,而是可以通過KV緩存優(yōu)化這類硬核技術(shù),從底層把算力消耗實實在在地省出來??ㄊ∠铝?,成本自然就降了,價格也就有了更低的空間。背后靠的是技術(shù)底子。

目前的模型定價策略,也分成了兩條路:一條是朝“更貴、更極致”走,另一條是向“更小、更便宜、更大眾”去。像V4的1.6T版本,追求的就是能力的上限,可以為了極致性能犧牲一點速度和等待時間;而flash版本,目標(biāo)則是敏捷、好用、覆蓋更廣泛的日常任務(wù),主打速度和性價比。這兩者不是對立的,而是搭配著來。

白鯨實驗室:V4的低價開源,會壓縮做中間態(tài)商業(yè)模型公司的生存空間嗎?

馬驍騰:我還是覺得垂直場景很重要。在一個強的基座模型上,即使你再擴大參數(shù),智能收益也是有限的。大廠能拿到的數(shù)據(jù)很有限,垂域應(yīng)用廠商下游的真實數(shù)據(jù),是有很大護(hù)城河的。最典型的例子就是Cursor。

它就只深耕編程這一個垂直領(lǐng)域,后訓(xùn)練做得極好,最近也和SpaceX達(dá)成合作并拿到收購期權(quán),估值跟Minimax 這種通用大模型公司平起平坐。這證明了,把后訓(xùn)練這一件事在垂域做好,就能創(chuàng)造出上市級別的價值。

現(xiàn)在行業(yè)的問題是,基座模型迭代飛快,但讓這些能力在具體場景里落地的推理設(shè)施和部署工程,還跟不上。我們就在嘗試彌補這個斷層,讓大家能更好地在基座上釋放下游場景的價值。

撰寫|馬舒葉

編輯| 劉培

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“4只皮皮蝦1035元”消費者再發(fā)聲:否認(rèn)“想吃白食”,已拒絕先行賠付,不是錢的問題,等待調(diào)查出租車和商家的問題

“4只皮皮蝦1035元”消費者再發(fā)聲:否認(rèn)“想吃白食”,已拒絕先行賠付,不是錢的問題,等待調(diào)查出租車和商家的問題

揚子晚報
2026-05-08 22:15:38
3-0復(fù)仇韓國!中國隊成功晉級倫敦世乒賽男團四強

3-0復(fù)仇韓國!中國隊成功晉級倫敦世乒賽男團四強

體壇周報
2026-05-08 21:47:15
89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

好賢觀史記
2026-05-08 15:57:30
實測76.42℃!比亞迪閃充深陷“電池溫升門”風(fēng)波

實測76.42℃!比亞迪閃充深陷“電池溫升門”風(fēng)波

新能源前瞻
2026-05-08 21:14:42
危機四伏,俄高官:他已失去了對俄羅斯控制

危機四伏,俄高官:他已失去了對俄羅斯控制

史政先鋒
2026-05-08 20:50:11
美軍再次對多艘伊朗油輪發(fā)動空襲

美軍再次對多艘伊朗油輪發(fā)動空襲

新華社
2026-05-08 21:13:24
4只皮皮蝦花了1035元后續(xù):店老板離世,真相曝出,顧客騙了全網(wǎng)

4只皮皮蝦花了1035元后續(xù):店老板離世,真相曝出,顧客騙了全網(wǎng)

李晚書
2026-05-08 16:09:22
“極度兇殘變態(tài)”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經(jīng)過!被判終身監(jiān)禁

“極度兇殘變態(tài)”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經(jīng)過!被判終身監(jiān)禁

大風(fēng)新聞
2026-05-08 21:45:04
三花智控:目前上市公司暫無收購特斯拉、英偉達(dá)的想法

三花智控:目前上市公司暫無收購特斯拉、英偉達(dá)的想法

貝殼財經(jīng)
2026-05-08 17:48:02
曝王暖暖凌晨被送往醫(yī)院搶救!全身浮腫、滿臉脹紅,昏迷原因曝光

曝王暖暖凌晨被送往醫(yī)院搶救!全身浮腫、滿臉脹紅,昏迷原因曝光

阿廢冷眼觀察所
2026-05-08 18:26:49
稀土戰(zhàn)爭其實早就打完了——一份從 1985 到 2026 的完整賬本,告訴你 AI 時代真正的勝負(fù)手是什么

稀土戰(zhàn)爭其實早就打完了——一份從 1985 到 2026 的完整賬本,告訴你 AI 時代真正的勝負(fù)手是什么

六子吃涼粉
2026-05-06 18:14:18
國務(wù)院一紙令下!六月起強制執(zhí)行,騎電動車再也不用見警就躲了

國務(wù)院一紙令下!六月起強制執(zhí)行,騎電動車再也不用見警就躲了

今朝牛馬
2026-05-07 20:58:21
人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

人倫之亂,正在悄悄毀掉無數(shù)家庭!看完一身冷汗

三農(nóng)老歷
2026-05-08 19:20:12
一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

一艘中國船東所有的油輪遇襲,外交部:船上有中國籍船員,目前暫無傷亡情況

澎湃新聞
2026-05-08 15:36:29
揮淚斬馬謖!皇馬正式批準(zhǔn)出售1億“頂星”!2.5億強援空降伯納烏

揮淚斬馬謖!皇馬正式批準(zhǔn)出售1億“頂星”!2.5億強援空降伯納烏

頭狼追球
2026-05-08 17:23:49
浙江:今起,這幾類海鮮禁售

浙江:今起,這幾類海鮮禁售

上觀新聞
2026-05-08 21:25:09
別碰!別吃!別養(yǎng)!一只就攜帶100條蟲,看到趕緊遠(yuǎn)離

別碰!別吃!別養(yǎng)!一只就攜帶100條蟲,看到趕緊遠(yuǎn)離

齊魯壹點
2026-05-08 06:35:47
理想新車突然官宣:5月15日,全新上市

理想新車突然官宣:5月15日,全新上市

科技堡壘
2026-05-08 11:10:56
炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

鄉(xiāng)野小珥
2026-05-09 01:41:16
江蘇生態(tài)環(huán)境廳工作組赴徐州調(diào)查,多部門連夜轉(zhuǎn)運黑臭水體

江蘇生態(tài)環(huán)境廳工作組赴徐州調(diào)查,多部門連夜轉(zhuǎn)運黑臭水體

上觀新聞
2026-05-08 06:34:12
2026-05-09 05:00:49
白鯨實驗室one incentive-icons
白鯨實驗室one
記錄 AI改變世界的瞬間
133文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

SK海力士平均獎金600萬 工服成相親神器

頭條要聞

美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

頭條要聞

美公布首批UFO文件 視頻公開:阿聯(lián)酋現(xiàn)水母狀物體

體育要聞

他把首勝讓給隊友,然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子,新娘竟是她

財經(jīng)要聞

估值3000億 DeepSeek尋求500億元融資

汽車要聞

MG 4X實車亮相 將于5月11日開啟盲訂

態(tài)度原創(chuàng)

親子
游戲
藝術(shù)
教育
數(shù)碼

親子要聞

北京兒童配眼鏡指南:從看得清到管得住,守住孩子的視力第一條防線

PS未發(fā)售重磅獨占要完!同類項目崩盤 新作懸了

藝術(shù)要聞

砸22億!OPPO在東莞建了一批“O字樓”

教育要聞

相信每個學(xué)生都是一座寶藏,鼓勵學(xué)生和老師站在一起

數(shù)碼要聞

華碩京東重磅新品日,華碩天選7系列游戲本開啟預(yù)約

無障礙瀏覽 進(jìn)入關(guān)懷版