国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克親自點贊,Kimi動了十一年沒人敢碰的東西

0
分享至



科技博主Avi Chawla在X上發(fā)了一條長帖,詳細拆解了月之暗面Kimi團隊剛剛發(fā)布的一篇技術報告。

帖子發(fā)出后不久,馬斯克本人在下面回復了一句:“月之暗面做出了令人印象深刻的結果”(Impressive work from Kimi.)



馬斯克在AI領域的表態(tài)向來以挑剔著稱,沒少罵過Anthropic和OpenAI,甚至曾直言說Anthropic的圖標像是某種人體器官。

他自己的xAI最近還在經(jīng)歷大規(guī)模重組,多位華人聯(lián)合創(chuàng)始人離職,Grok的表現(xiàn)也不盡如人意。

可就在這個節(jié)骨眼上,他主動對一家中國AI公司的技術論文表示認可,多少有些出人意料。

說回被馬斯克點贊的這個東西,其實是有點抽象的,因為它壓根不是一個模型。

Kimi團隊提出了一種新的方式,試圖替換掉Transformer架構里一個自2015年以來就幾乎沒人動過的基礎組件。

這是一篇純粹的架構層面的技術論文。

雖然說這篇論文的影響,未必會被普通用戶感知到,可實際上,它觸碰的是整個深度學習的基石。

01

月之暗面到底改了什么

要理解這篇論文在做什么,得先搞清楚一個背景?,F(xiàn)代大語言模型,無論是GPT、Claude,還是國內的豆包、DeepSeek,哪怕是Kimi自己的K2.5,其底層架構都是Transformer。

Transformer之所以能訓練到幾十層甚至上百層而不崩潰,都是因為一個叫“殘差連接(Residual Connection)”的機制在起作用。

殘差連接的原理其實很簡單。

每一層網(wǎng)絡在做完自己的計算之后,把自己的輸出和輸入加在一起,然后傳到下一層去再做計算。這樣做的好處是,梯度在反向傳播時可以沿著一條“高速公路”直達底層,不會因為層數(shù)太深而消失。

這個設計來自何愷明在2015年參與的ResNet論文,后來被Transformer原封不動地繼承了下來。

但這時候就有一個不大不小的問題,這種“加法”是完全平等的。

第一層的輸出和第四十層的輸出,在最終的隱藏狀態(tài)里享有同等的權重,都是1。沒有任何機制去判斷哪一層的信息更重要、哪一層的貢獻可以被忽略。隨著層數(shù)增加,隱藏狀態(tài)的數(shù)值會線性增長,早期層的信息逐漸被稀釋,后面的層想要產(chǎn)生影響就必須輸出更大的數(shù)值,這反過來又加劇了不穩(wěn)定性。

就像咱們所有人拉個微信群,一起討論晚上吃什么,每個人的發(fā)言權重完全一樣,不管誰說的有道理誰在瞎扯,最后群主只能把所有消息從頭到尾讀一遍,這就導致他越往后翻越記不住前面說了啥。

這個現(xiàn)象在學術上被稱為“PreNorm稀釋”。

Kimi團隊注意到,這個問題和早年RNN面臨的困境有一種結構上的對稱性。

RNN是在時間維度上做固定權重的累加,每個時間步的信息被等權地壓縮進同一個隱藏狀態(tài),導致長距離依賴難以捕捉。后來Transformer用注意力機制替代了RNN的這種線性累加,讓模型可以根據(jù)內容動態(tài)地決定該關注序列中的哪些位置,這才有了后來的一切。

兩者的區(qū)別在于,RNN就像上課,老師講到哪你就聽到哪,只能從頭聽到尾,沒記住的要么看筆記,要么再次從頭來。Transformer則是錄播網(wǎng)課,可以隨時翻回去看之前最重要的部分。

但在深度維度上,同樣的問題一直存在,卻沒有人用同樣的思路去解決。每一層的輸出仍然是被等權相加的,模型沒有能力根據(jù)當前輸入去選擇性地從某些層提取信息、忽略另一些層。

Kimi團隊表示,標準殘差連接本質上是“深度維度上的線性注意力”,他們要做的,是把它升級為“深度維度上的softmax注意力”。

于是他們提出了一個“理想版”的方案,叫做全注意力殘差(Full Attention Residuals)。



具體做法是給每一層賦予一個可學習的查詢向量,這個向量會對之前所有層的輸出做一次注意力計算,產(chǎn)生一組歸一化的權重。

然后當前層的輸入不再是之前所有層輸出的簡單求和,而是按照這組權重的加權組合。權重是輸入相關的,也就是說,不同的token在經(jīng)過同一層時,可能會從不同的歷史層中提取不同的信息。

那我們還是用前面微信群的例子?,F(xiàn)在群主不用從頭到尾翻聊天記錄了,有個助手幫他標出“這幾條最值得看”,不同的話題還會標出不同的重點消息。

理想豐滿現(xiàn)實骨感,全注意力殘差這個方案其實“不靠譜”。

大規(guī)模訓練時,模型通常會使用流水線并行和激活重計算來節(jié)省顯存,這意味著之前層的輸出不會被保留在內存里。

如果要做全注意力,就需要把所有層的輸出都存下來并在流水線的不同階段之間傳遞,內存和通信開銷都會變得不可接受。

為了解決這個問題,Kimi團隊又提出了塊注意力殘差(Block Attention Residuals)。



思路是把所有層分成若干個塊,每個塊內部仍然使用傳統(tǒng)的殘差連接做求和,但塊與塊之間使用注意力機制來做選擇性聚合。這樣需要存儲和傳輸?shù)牟辉偈敲恳粚拥妮敵?,而是每個塊的匯總表示,內存占用從 O(Ld)降到了 O(Nd),其中 N 是塊的數(shù)量,通常只有8個左右。

這就相當于是把剛才那個微信群分成了八個小組,每組先內部討論出一個結論,群主只需要看八條小組總結就行。

在此基礎上,他們還做了一系列工程優(yōu)化。

比如跨階段緩存消除了流水線并行中的冗余傳輸,兩階段推理策略通過在線softmax把跨塊注意力的計算分攤到各個塊的處理過程中。最終的結果是,注意力殘差作為標準殘差連接的替代品,訓練時的額外開銷很小,推理時的延遲增加不到2%。

Kimi團隊又做了兩個實驗。

一是scaling law實驗,驗證這個改進在不同模型規(guī)模下是否一致有效。結果顯示,注意力在所有計算預算下都優(yōu)于基線,其效果相當于用1.25倍的計算量訓練出的基線模型。

二是Kimi拿自己的大模型上做了實戰(zhàn)驗證。模型參數(shù)量為480億,用超過一萬億個詞的數(shù)據(jù)做了完整的預訓練。然后在科學問答、數(shù)學推理、代碼生成、綜合知識等一系列主流測試中,加了塊注意力殘差的版本全面超過了沒加的版本。



從訓練動態(tài)的分析來看,塊注意力殘差確實緩解了PreNorm稀釋問題。各層輸出的幅度不再隨深度線性增長,而是保持在一個相對穩(wěn)定的范圍內;梯度的分布也更加均勻,也不再會出現(xiàn)淺層梯度過大、深層梯度過小的失衡現(xiàn)象。

除此以外,論文中還做了一個統(tǒng)一的結構化矩陣分析,證明了標準殘差連接和之前的各種變體(比如 Highway Networks、DeepNet 的 scaled residuals 等)本質上都是深度維度上的線性注意力的特例。

簡單來說就是,自2015年ResNet以來,在殘差連接這個板塊,沒有任何實質性的變化。而Kimi的這篇論文,是第一個既有理論依據(jù),又能大規(guī)模實際部署且低成本的方案。

馬斯克也正是因為這個結論,才親自下場點贊Kimi。

02

融資、爭議和馬斯克的那個贊

月之暗面正處在一個微妙的時間節(jié)點上,那就是上市。

2025年12月底,月之暗面完成了5億美元的C輪融資。投后估值43億美元。兩個月后,月之暗面完成超7億美元的C+輪融資,由阿里、騰訊、五源資本等老股東聯(lián)合領投,投后估值突破100億美元。

到了3月中,月之暗面最新投前估值已上升至180億美元,新一輪10億美元融資正在推進中,3個月內估值實現(xiàn)超4倍增長。

實際上月之暗面最近的收入增長得很快,Kimi K2.5模型發(fā)布不到一個月,累計收入就超過了2025年全年總收入。

根據(jù)全球支付平臺Stripe的數(shù)據(jù),Kimi個人訂閱用戶的支付訂單數(shù)在1月環(huán)比增長了 8280%,2月又環(huán)比增長了123.8%,已經(jīng)進入Stripe全球榜單前十。

但融資順利并不意味著沒有爭議。

就在幾天前,OpenClaw創(chuàng)始人彼得·斯坦伯格公開對月之暗面的Kimi Claw產(chǎn)品提出了質疑。事

情的起因是,月之暗面此前推出了OpenClaw的云端一鍵部署服務Kimi Claw,它的邏輯有悖于OpenClaw的設計理念。

有用戶在X上詢問這個產(chǎn)品是否值得嘗試并 @了斯坦伯格,斯坦伯格的回應很直接:他們有沒有把安全文檔作為必讀項展示給用戶?



斯坦伯格的核心關切在于,OpenClaw的邏輯是“本地優(yōu)先”。agent運行在用戶自己的設備上,但可能因為過高的本地權限,引發(fā)了安全風險,因此工信部也建議“優(yōu)先考慮在容器或虛擬機中隔離運行,形成獨立的權限區(qū)域?!?/p>

但KimiClaw的做法正是如此,它把OpenClaw搬到了云端的虛擬機。在安全和隱私層面,這兩種模式的風險等級完全不同。

對于正在高速融資的月之暗面來說,來自OpenClaw創(chuàng)始人的公開批評,多少會在海外技術社區(qū)中制造一些負面情緒。

然后馬斯克的那條回復出現(xiàn)了。

雖然這兩件事是風馬牛不相及的,但在輿論場上,它們會不可避免地被放在一起解讀。

一邊是OpenClaw創(chuàng)始人對月之暗面產(chǎn)品的安全質疑,另一邊是馬斯克對月之暗面研究論文的公開認可。

對于正在進行新一輪融資的月之暗面來說,后者的時機幾乎不能更好。在資本市場的敘事邏輯里,這種來自頂級人物的認可,往往比任何分析報告都更有說服力。

當然了,不應該過度去解讀馬斯克的一條推文。他在X上的互動頻率極高,對各種技術話題都會隨手點評,一句“impressive”并不意味著他會投資月之暗面或者在xAI中采用月之暗面的方法。

但不管怎么說,馬斯克那條回復發(fā)出去之后,很多原本不關注架構研究的人,也開始去翻這篇論文了。一個十一年沒人碰過的組件被重新打開,接下來會發(fā)生什么,誰也不知道。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
庫里教妹觀戰(zhàn)湖人大勝太陽!與詹姆斯合影 一雙大長腿太絕了

庫里教妹觀戰(zhàn)湖人大勝太陽!與詹姆斯合影 一雙大長腿太絕了

Emily說個球
2026-04-11 19:37:04
鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

鎮(zhèn)嵩軍的真實面目有多可怕?閹割男童,奸淫所有婦女,天良喪盡!

混沌錄
2026-04-09 14:51:04
蔡正元真會給自己找事!進監(jiān)獄都不閑著,開起了“蔡正元講堂”!

蔡正元真會給自己找事!進監(jiān)獄都不閑著,開起了“蔡正元講堂”!

達文西看世界
2026-04-06 16:34:17
壞消息,他空降日本執(zhí)教,天價薪資全面曝光,國乒迎來生死強敵

壞消息,他空降日本執(zhí)教,天價薪資全面曝光,國乒迎來生死強敵

阿豐聊娛
2026-04-10 19:05:19
優(yōu)酷腸子都悔青了!3億砸的“S+頂流劇”,播到第9集廣告商全跑光

優(yōu)酷腸子都悔青了!3億砸的“S+頂流劇”,播到第9集廣告商全跑光

許三歲
2026-04-10 09:30:06
70 歲外長王毅這一跪讓我淚崩!為國奔波萬里,卻讓所有人破防!

70 歲外長王毅這一跪讓我淚崩!為國奔波萬里,卻讓所有人破防!

眼界看視野
2026-04-11 21:09:54
峰學未來直播間重亮:李麗婧發(fā)了一條沒標點的微博

峰學未來直播間重亮:李麗婧發(fā)了一條沒標點的微博

一盅情懷
2026-04-11 18:02:57
18歲長成“漫撕男”,卻敗給地中海?英國王室的祖?zhèn)髂е涮萘?>
    </a>
        <h3>
      <a href=白露文娛志
2026-04-10 16:03:54
知名網(wǎng)站宣布:5月1日停止服務!用戶超8000萬,抓緊退費!很多人用過

知名網(wǎng)站宣布:5月1日停止服務!用戶超8000萬,抓緊退費!很多人用過

南方都市報
2026-04-11 20:29:45
美國爆出丑聞:美軍真實傷亡慘烈,政府或故意隱瞞,全美熱議!

美國爆出丑聞:美軍真實傷亡慘烈,政府或故意隱瞞,全美熱議!

萬物知識圈
2026-04-11 10:02:30
美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

美國繞月飛船返回:遭受2800℃灼燒,隔熱罩最厚僅7.6厘米!

火星一號
2026-04-11 00:58:23
爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢到已故兒子說腳被刺扎了,立馬驅車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
陳光標回應一切,1000萬不是逼捐,累計捐60億元,不需要蹭流量

陳光標回應一切,1000萬不是逼捐,累計捐60億元,不需要蹭流量

數(shù)字財經(jīng)智庫
2026-04-11 14:54:51
花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

花200元買水果被罵吃死你,懷孕妻子心寒不欲生子,已入冷靜期!

川渝視覺
2026-04-10 15:59:55
告訴你一個鐵律:被人欺負時,要把事情鬧大,他們就是賭你會沉默

告訴你一個鐵律:被人欺負時,要把事情鬧大,他們就是賭你會沉默

富書
2026-04-09 11:45:17
“桎梏”不要再讀 zhì kù,或 zhì gào,丟不起那個人!

“桎梏”不要再讀 zhì kù,或 zhì gào,丟不起那個人!

未央看點
2026-04-10 00:09:02
這就是終極統(tǒng)治力!詹姆斯+庫里在11年里包攬8總冠軍!

這就是終極統(tǒng)治力!詹姆斯+庫里在11年里包攬8總冠軍!

愛體育
2026-04-11 23:21:32
英國人終于承認:中東打一仗才發(fā)現(xiàn),中國的三張底牌,誰都學不來

英國人終于承認:中東打一仗才發(fā)現(xiàn),中國的三張底牌,誰都學不來

薦史
2026-04-11 15:54:06
日本老人存款8000萬,大吃大喝高消費只為"死前財產(chǎn)清零",和孩子因此關系疏遠,但他并不后悔…

日本老人存款8000萬,大吃大喝高消費只為"死前財產(chǎn)清零",和孩子因此關系疏遠,但他并不后悔…

英國那些事兒
2026-03-21 23:16:20
“過年不回我家就離婚”“沒問題,我倒要看15口人的年夜飯誰做”

“過年不回我家就離婚”“沒問題,我倒要看15口人的年夜飯誰做”

多久情感
2026-04-10 21:14:20
2026-04-11 23:39:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2367文章數(shù) 8057關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
房產(chǎn)
教育
親子
旅游

干細胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

土地供應突然暴跌!2026??跇鞘?,格局大變!

教育要聞

俞正強:教師專業(yè)本質是“我有辦法”

親子要聞

測試一下兒子的安全意識

旅游要聞

[視頻]多元業(yè)態(tài)融合 打造文旅消費新熱點

無障礙瀏覽 進入關懷版