国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

馬斯克親自點(diǎn)贊,Kimi動(dòng)了十一年沒(méi)人敢碰的東西

0
分享至



科技博主Avi Chawla在X上發(fā)了一條長(zhǎng)帖,詳細(xì)拆解了月之暗面Kimi團(tuán)隊(duì)剛剛發(fā)布的一篇技術(shù)報(bào)告。

帖子發(fā)出后不久,馬斯克本人在下面回復(fù)了一句:“月之暗面做出了令人印象深刻的結(jié)果”(Impressive work from Kimi.)



馬斯克在AI領(lǐng)域的表態(tài)向來(lái)以挑剔著稱,沒(méi)少罵過(guò)Anthropic和OpenAI,甚至曾直言說(shuō)Anthropic的圖標(biāo)像是某種人體器官。

他自己的xAI最近還在經(jīng)歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現(xiàn)也不盡如人意。

可就在這個(gè)節(jié)骨眼上,他主動(dòng)對(duì)一家中國(guó)AI公司的技術(shù)論文表示認(rèn)可,多少有些出人意料。

說(shuō)回被馬斯克點(diǎn)贊的這個(gè)東西,其實(shí)是有點(diǎn)抽象的,因?yàn)樗鼔焊皇且粋€(gè)模型。

Kimi團(tuán)隊(duì)提出了一種新的方式,試圖替換掉Transformer架構(gòu)里一個(gè)自2015年以來(lái)就幾乎沒(méi)人動(dòng)過(guò)的基礎(chǔ)組件。

這是一篇純粹的架構(gòu)層面的技術(shù)論文。

雖然說(shuō)這篇論文的影響,未必會(huì)被普通用戶感知到,可實(shí)際上,它觸碰的是整個(gè)深度學(xué)習(xí)的基石。

01

月之暗面到底改了什么

要理解這篇論文在做什么,得先搞清楚一個(gè)背景?,F(xiàn)代大語(yǔ)言模型,無(wú)論是GPT、Claude,還是國(guó)內(nèi)的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底層架構(gòu)都是Transformer。

Transformer之所以能訓(xùn)練到幾十層甚至上百層而不崩潰,都是因?yàn)橐粋€(gè)叫“殘差連接(Residual Connection)”的機(jī)制在起作用。

殘差連接的原理其實(shí)很簡(jiǎn)單。

每一層網(wǎng)絡(luò)在做完自己的計(jì)算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計(jì)算。這樣做的好處是,梯度在反向傳播時(shí)可以沿著一條“高速公路”直達(dá)底層,不會(huì)因?yàn)閷訑?shù)太深而消失。

這個(gè)設(shè)計(jì)來(lái)自何愷明在2015年參與的ResNet論文,后來(lái)被Transformer原封不動(dòng)地繼承了下來(lái)。

但這時(shí)候就有一個(gè)不大不小的問(wèn)題,這種“加法”是完全平等的。

第一層的輸出和第四十層的輸出,在最終的隱藏狀態(tài)里享有同等的權(quán)重,都是1。沒(méi)有任何機(jī)制去判斷哪一層的信息更重要、哪一層的貢獻(xiàn)可以被忽略。隨著層數(shù)增加,隱藏狀態(tài)的數(shù)值會(huì)線性增長(zhǎng),早期層的信息逐漸被稀釋,后面的層想要產(chǎn)生影響就必須輸出更大的數(shù)值,這反過(guò)來(lái)又加劇了不穩(wěn)定性。

就像咱們所有人拉個(gè)微信群,一起討論晚上吃什么,每個(gè)人的發(fā)言權(quán)重完全一樣,不管誰(shuí)說(shuō)的有道理誰(shuí)在瞎扯,最后群主只能把所有消息從頭到尾讀一遍,這就導(dǎo)致他越往后翻越記不住前面說(shuō)了啥。

這個(gè)現(xiàn)象在學(xué)術(shù)上被稱為“PreNorm稀釋”。

Kimi團(tuán)隊(duì)注意到,這個(gè)問(wèn)題和早年RNN面臨的困境有一種結(jié)構(gòu)上的對(duì)稱性。

RNN是在時(shí)間維度上做固定權(quán)重的累加,每個(gè)時(shí)間步的信息被等權(quán)地壓縮進(jìn)同一個(gè)隱藏狀態(tài),導(dǎo)致長(zhǎng)距離依賴難以捕捉。后來(lái)Transformer用注意力機(jī)制替代了RNN的這種線性累加,讓模型可以根據(jù)內(nèi)容動(dòng)態(tài)地決定該關(guān)注序列中的哪些位置,這才有了后來(lái)的一切。

兩者的區(qū)別在于,RNN就像上課,老師講到哪你就聽到哪,只能從頭聽到尾,沒(méi)記住的要么看筆記,要么再次從頭來(lái)。Transformer則是錄播網(wǎng)課,可以隨時(shí)翻回去看之前最重要的部分。

但在深度維度上,同樣的問(wèn)題一直存在,卻沒(méi)有人用同樣的思路去解決。每一層的輸出仍然是被等權(quán)相加的,模型沒(méi)有能力根據(jù)當(dāng)前輸入去選擇性地從某些層提取信息、忽略另一些層。

Kimi團(tuán)隊(duì)表示,標(biāo)準(zhǔn)殘差連接本質(zhì)上是“深度維度上的線性注意力”,他們要做的,是把它升級(jí)為“深度維度上的softmax注意力”。

于是他們提出了一個(gè)“理想版”的方案,叫做全注意力殘差(Full Attention Residuals)。



具體做法是給每一層賦予一個(gè)可學(xué)習(xí)的查詢向量,這個(gè)向量會(huì)對(duì)之前所有層的輸出做一次注意力計(jì)算,產(chǎn)生一組歸一化的權(quán)重。

然后當(dāng)前層的輸入不再是之前所有層輸出的簡(jiǎn)單求和,而是按照這組權(quán)重的加權(quán)組合。權(quán)重是輸入相關(guān)的,也就是說(shuō),不同的token在經(jīng)過(guò)同一層時(shí),可能會(huì)從不同的歷史層中提取不同的信息。

那我們還是用前面微信群的例子?,F(xiàn)在群主不用從頭到尾翻聊天記錄了,有個(gè)助手幫他標(biāo)出“這幾條最值得看”,不同的話題還會(huì)標(biāo)出不同的重點(diǎn)消息。

理想豐滿現(xiàn)實(shí)骨感,全注意力殘差這個(gè)方案其實(shí)“不靠譜”。

大規(guī)模訓(xùn)練時(shí),模型通常會(huì)使用流水線并行和激活重計(jì)算來(lái)節(jié)省顯存,這意味著之前層的輸出不會(huì)被保留在內(nèi)存里。

如果要做全注意力,就需要把所有層的輸出都存下來(lái)并在流水線的不同階段之間傳遞,內(nèi)存和通信開銷都會(huì)變得不可接受。

為了解決這個(gè)問(wèn)題,Kimi團(tuán)隊(duì)又提出了塊注意力殘差(Block Attention Residuals)。



思路是把所有層分成若干個(gè)塊,每個(gè)塊內(nèi)部仍然使用傳統(tǒng)的殘差連接做求和,但塊與塊之間使用注意力機(jī)制來(lái)做選擇性聚合。這樣需要存儲(chǔ)和傳輸?shù)牟辉偈敲恳粚拥妮敵觯敲總€(gè)塊的匯總表示,內(nèi)存占用從 O(Ld)降到了 O(Nd),其中 N 是塊的數(shù)量,通常只有8個(gè)左右。

這就相當(dāng)于是把剛才那個(gè)微信群分成了八個(gè)小組,每組先內(nèi)部討論出一個(gè)結(jié)論,群主只需要看八條小組總結(jié)就行。

在此基礎(chǔ)上,他們還做了一系列工程優(yōu)化。

比如跨階段緩存消除了流水線并行中的冗余傳輸,兩階段推理策略通過(guò)在線softmax把跨塊注意力的計(jì)算分?jǐn)偟礁鱾€(gè)塊的處理過(guò)程中。最終的結(jié)果是,注意力殘差作為標(biāo)準(zhǔn)殘差連接的替代品,訓(xùn)練時(shí)的額外開銷很小,推理時(shí)的延遲增加不到2%。

Kimi團(tuán)隊(duì)又做了兩個(gè)實(shí)驗(yàn)。

一是scaling law實(shí)驗(yàn),驗(yàn)證這個(gè)改進(jìn)在不同模型規(guī)模下是否一致有效。結(jié)果顯示,注意力在所有計(jì)算預(yù)算下都優(yōu)于基線,其效果相當(dāng)于用1.25倍的計(jì)算量訓(xùn)練出的基線模型。

二是Kimi拿自己的大模型上做了實(shí)戰(zhàn)驗(yàn)證。模型參數(shù)量為480億,用超過(guò)一萬(wàn)億個(gè)詞的數(shù)據(jù)做了完整的預(yù)訓(xùn)練。然后在科學(xué)問(wèn)答、數(shù)學(xué)推理、代碼生成、綜合知識(shí)等一系列主流測(cè)試中,加了塊注意力殘差的版本全面超過(guò)了沒(méi)加的版本。



從訓(xùn)練動(dòng)態(tài)的分析來(lái)看,塊注意力殘差確實(shí)緩解了PreNorm稀釋問(wèn)題。各層輸出的幅度不再隨深度線性增長(zhǎng),而是保持在一個(gè)相對(duì)穩(wěn)定的范圍內(nèi);梯度的分布也更加均勻,也不再會(huì)出現(xiàn)淺層梯度過(guò)大、深層梯度過(guò)小的失衡現(xiàn)象。

除此以外,論文中還做了一個(gè)統(tǒng)一的結(jié)構(gòu)化矩陣分析,證明了標(biāo)準(zhǔn)殘差連接和之前的各種變體(比如 Highway Networks、DeepNet 的 scaled residuals 等)本質(zhì)上都是深度維度上的線性注意力的特例。

簡(jiǎn)單來(lái)說(shuō)就是,自2015年ResNet以來(lái),在殘差連接這個(gè)板塊,沒(méi)有任何實(shí)質(zhì)性的變化。而Kimi的這篇論文,是第一個(gè)既有理論依據(jù),又能大規(guī)模實(shí)際部署且低成本的方案。

馬斯克也正是因?yàn)檫@個(gè)結(jié)論,才親自下場(chǎng)點(diǎn)贊Kimi。

02

融資、爭(zhēng)議和馬斯克的那個(gè)贊

月之暗面正處在一個(gè)微妙的時(shí)間節(jié)點(diǎn)上,那就是上市。

2025年12月底,月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個(gè)月后,月之暗面完成超7億美元的C+輪融資,由阿里、騰訊、五源資本等老股東聯(lián)合領(lǐng)投,投后估值突破100億美元。

到了3月中,月之暗面最新投前估值已上升至180億美元,新一輪10億美元融資正在推進(jìn)中,3個(gè)月內(nèi)估值實(shí)現(xiàn)超4倍增長(zhǎng)。

實(shí)際上月之暗面最近的收入增長(zhǎng)得很快,Kimi K2.5模型發(fā)布不到一個(gè)月,累計(jì)收入就超過(guò)了2025年全年總收入。

根據(jù)全球支付平臺(tái)Stripe的數(shù)據(jù),Kimi個(gè)人訂閱用戶的支付訂單數(shù)在1月環(huán)比增長(zhǎng)了 8280%,2月又環(huán)比增長(zhǎng)了123.8%,已經(jīng)進(jìn)入Stripe全球榜單前十。

但融資順利并不意味著沒(méi)有爭(zhēng)議。

就在幾天前,OpenClaw創(chuàng)始人彼得·斯坦伯格公開對(duì)月之暗面的Kimi Claw產(chǎn)品提出了質(zhì)疑。事

情的起因是,月之暗面此前推出了OpenClaw的云端一鍵部署服務(wù)Kimi Claw,它的邏輯有悖于OpenClaw的設(shè)計(jì)理念。

有用戶在X上詢問(wèn)這個(gè)產(chǎn)品是否值得嘗試并 @了斯坦伯格,斯坦伯格的回應(yīng)很直接:他們有沒(méi)有把安全文檔作為必讀項(xiàng)展示給用戶?



斯坦伯格的核心關(guān)切在于,OpenClaw的邏輯是“本地優(yōu)先”。agent運(yùn)行在用戶自己的設(shè)備上,但可能因?yàn)檫^(guò)高的本地權(quán)限,引發(fā)了安全風(fēng)險(xiǎn),因此工信部也建議“優(yōu)先考慮在容器或虛擬機(jī)中隔離運(yùn)行,形成獨(dú)立的權(quán)限區(qū)域。”

但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虛擬機(jī)。在安全和隱私層面,這兩種模式的風(fēng)險(xiǎn)等級(jí)完全不同。

對(duì)于正在高速融資的月之暗面來(lái)說(shuō),來(lái)自O(shè)penClaw創(chuàng)始人的公開批評(píng),多少會(huì)在海外技術(shù)社區(qū)中制造一些負(fù)面情緒。

然后馬斯克的那條回復(fù)出現(xiàn)了。

雖然這兩件事是風(fēng)馬牛不相及的,但在輿論場(chǎng)上,它們會(huì)不可避免地被放在一起解讀。

一邊是OpenClaw創(chuàng)始人對(duì)月之暗面產(chǎn)品的安全質(zhì)疑,另一邊是馬斯克對(duì)月之暗面研究論文的公開認(rèn)可。

對(duì)于正在進(jìn)行新一輪融資的月之暗面來(lái)說(shuō),后者的時(shí)機(jī)幾乎不能更好。在資本市場(chǎng)的敘事邏輯里,這種來(lái)自頂級(jí)人物的認(rèn)可,往往比任何分析報(bào)告都更有說(shuō)服力。

當(dāng)然了,不應(yīng)該過(guò)度去解讀馬斯克的一條推文。他在X上的互動(dòng)頻率極高,對(duì)各種技術(shù)話題都會(huì)隨手點(diǎn)評(píng),一句“impressive”并不意味著他會(huì)投資月之暗面或者在xAI中采用月之暗面的方法。

但不管怎么說(shuō),馬斯克那條回復(fù)發(fā)出去之后,很多原本不關(guān)注架構(gòu)研究的人,也開始去翻這篇論文了。一個(gè)十一年沒(méi)人碰過(guò)的組件被重新打開,接下來(lái)會(huì)發(fā)生什么,誰(shuí)也不知道。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中制導(dǎo)彈到手,武契奇發(fā)出警告:三戰(zhàn)或已開打,中國(guó)是定海神針?

中制導(dǎo)彈到手,武契奇發(fā)出警告:三戰(zhàn)或已開打,中國(guó)是定海神針?

時(shí)光在作祟
2026-03-26 02:27:01
杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

杭州球場(chǎng)突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號(hào),千萬(wàn)別硬扛!

環(huán)球網(wǎng)資訊
2026-03-25 17:34:17
貝克漢姆家大布:學(xué)歷顏值雙平平,卻娶到白富美嬌妻

貝克漢姆家大布:學(xué)歷顏值雙平平,卻娶到白富美嬌妻

述家娛記
2026-03-21 14:23:38
去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人原來(lái)是這樣的

去了一趟伊朗才發(fā)現(xiàn):原來(lái)在伊朗人眼里,中國(guó)人原來(lái)是這樣的

涼了時(shí)光人
2026-03-19 10:42:25
脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

脂肪瘤——父親鉆研一生的方子,我用了40年,效果出眾,送給有緣人

神奇故事
2026-03-23 23:51:03
買萵筍時(shí),看到這種碰都不碰,菜販自己從不吃,別說(shuō)沒(méi)有提醒你

買萵筍時(shí),看到這種碰都不碰,菜販自己從不吃,別說(shuō)沒(méi)有提醒你

馬蹄燙嘴說(shuō)美食
2026-03-19 14:35:45
輸給吉林7分!揪出1個(gè)表現(xiàn)最差之人,14中1,坑慘了遼寧隊(duì)

輸給吉林7分!揪出1個(gè)表現(xiàn)最差之人,14中1,坑慘了遼寧隊(duì)

體育哲人
2026-03-25 23:38:24
桑葉立大功!鄭州大學(xué)研究:能顯著改善睡眠質(zhì)量,總睡眠時(shí)間延長(zhǎng)了56%

桑葉立大功!鄭州大學(xué)研究:能顯著改善睡眠質(zhì)量,總睡眠時(shí)間延長(zhǎng)了56%

Thurman在昆明
2026-03-24 13:39:22
50歲何潤(rùn)東翻紅火上熱搜,近照曝光:這肌肉是認(rèn)真的嗎?

50歲何潤(rùn)東翻紅火上熱搜,近照曝光:這肌肉是認(rèn)真的嗎?

動(dòng)物奇奇怪怪
2026-03-25 09:13:32
中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

中央氣象臺(tái)發(fā)布大霧黃色預(yù)警

界面新聞
2026-03-25 18:03:12
當(dāng)代魔獸!近5戰(zhàn)場(chǎng)均24+10,單防聯(lián)盟第一,追夢(mèng):現(xiàn)役最強(qiáng)壯球員

當(dāng)代魔獸!近5戰(zhàn)場(chǎng)均24+10,單防聯(lián)盟第一,追夢(mèng):現(xiàn)役最強(qiáng)壯球員

你的籃球頻道
2026-03-25 09:15:31
明確了 西安的中小學(xué)生終于盼到了

明確了 西安的中小學(xué)生終于盼到了

91.6陜西交通廣播
2026-03-23 11:39:50
波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

波蘭磨刀:誰(shuí)將是壓垮俄羅斯的最后一根稻草

民間胡扯老哥
2026-03-23 18:56:09
雷軍回應(yīng)訂單數(shù)量質(zhì)疑:鎖單數(shù)字更真實(shí),目前上市3天已超3萬(wàn)單,另有5萬(wàn)多人試駕

雷軍回應(yīng)訂單數(shù)量質(zhì)疑:鎖單數(shù)字更真實(shí),目前上市3天已超3萬(wàn)單,另有5萬(wàn)多人試駕

極目新聞
2026-03-23 13:26:10
伊朗一高級(jí)官員說(shuō)對(duì)美國(guó)停戰(zhàn)提議做出“消極回應(yīng)”

伊朗一高級(jí)官員說(shuō)對(duì)美國(guó)停戰(zhàn)提議做出“消極回應(yīng)”

每日經(jīng)濟(jì)新聞
2026-03-26 00:10:55
上海老人王震華:把自己關(guān)在房間5年,用7108個(gè)零件創(chuàng)造傳世精品

上海老人王震華:把自己關(guān)在房間5年,用7108個(gè)零件創(chuàng)造傳世精品

海佑講史
2026-03-24 11:55:07
不管你信不信,骨灰撒海不立墓碑老人越來(lái)越多,背后是這3種清醒

不管你信不信,骨灰撒海不立墓碑老人越來(lái)越多,背后是這3種清醒

小虎新車推薦員
2026-03-26 00:29:36
馬辦風(fēng)波!鄭麗文:國(guó)民黨要團(tuán)結(jié),不讓外界看笑話

馬辦風(fēng)波!鄭麗文:國(guó)民黨要團(tuán)結(jié),不讓外界看笑話

新時(shí)光點(diǎn)滴
2026-03-26 02:20:27
含劇毒,無(wú)解藥!每家每戶都有,千萬(wàn)別亂吃

含劇毒,無(wú)解藥!每家每戶都有,千萬(wàn)別亂吃

周哥一影視
2026-03-22 17:19:26
天津3位姐姐,被央視新聞點(diǎn)名了!

天津3位姐姐,被央視新聞點(diǎn)名了!

天津人
2026-03-25 19:36:56
2026-03-26 03:12:49
字母榜 incentive-icons
字母榜
讓未來(lái)不止于大。
2317文章數(shù) 8054關(guān)注度
往期回顧 全部

科技要聞

紅極一時(shí)卻草草收?qǐng)觯琒ora宣布正式關(guān)停

頭條要聞

伊朗:正在搜捕逃亡美軍

頭條要聞

伊朗:正在搜捕逃亡美軍

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂(lè)要聞

張雪峰遺產(chǎn)分割復(fù)雜!是否立遺囑成關(guān)鍵

財(cái)經(jīng)要聞

管濤:中東局勢(shì)如何影響人民幣匯率走勢(shì)?

汽車要聞

智己LS8放大招 30萬(wàn)內(nèi)8系旗艦+全線控底盤秀實(shí)力

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
親子
旅游
軍事航空

數(shù)碼要聞

蘋果macOS 26.4新增“慢速充電器”提示

女人過(guò)了40歲別胡亂穿衣,趕緊看看這些日系穿搭,舒適又耐看

親子要聞

智利幼兒教育覆蓋率僅43%,專家吁提升投資與優(yōu)先地位

旅游要聞

“女王駕到” 上海溫室花園高山杜鵑展開幕,中外游客打卡點(diǎn)贊,Beautiful!Amazing!Fantastic!

軍事要聞

伊朗重申非交戰(zhàn)國(guó)家船只可安全通過(guò)霍爾木茲海峽

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版