国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

唯一登臺的中國大模型創(chuàng)始人,楊植麟美國GTC首秀,公開Kimi技術(shù)路線圖

0
分享至


智東西
作者|江宇
編輯|云鵬

智東西3月18日報道,今日凌晨,在英偉達GTC大會上,月之暗面創(chuàng)始人楊植麟作為本屆唯一受邀現(xiàn)場演講的中國獨立大模型公司創(chuàng)始人,發(fā)表題為《How We Scaled Kimi K2.5》的演講,首次完整披露Kimi K2.5背后的技術(shù)路線圖。


就在3月16日,月之暗面剛剛發(fā)布最新論文,提前預(yù)覽了下一代模型的關(guān)鍵模塊——注意力殘差(Attention Residuals,簡稱AttnRes)。這篇論文的核心,是對大模型中最基礎(chǔ)、卻長期被默認(rèn)接受的結(jié)構(gòu)之一殘差連接(Residual Connection)的重新設(shè)計。


這項進展很快引發(fā)海外AI圈關(guān)注。埃隆·馬斯克(Elon Musk)稱其“令人印象深刻”;前OpenAI研究副總裁、聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)則直言,人們對《Attention is All You Need》這篇Transformer開山之作的理解,可能還不夠充分。


而在這次GTC演講中,楊植麟將這項研究放回Kimi更完整的技術(shù)框架中,給出了一張更系統(tǒng)的“路線圖”。他將Kimi K2.5的進化邏輯概括為三個維度的共振:Token效率長上下文智能體集群(Agent Swarms)。

在楊植麟看來,當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應(yīng)。如果能將這三個維度的技術(shù)增益相乘,模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

這也是自1月底Kimi發(fā)布K2.5以來,月之暗面首次把這套技術(shù)路線圖系統(tǒng)披露。


楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為Scaling(拓展)的瓶頸。圍繞這一問題,Kimi團隊選擇從優(yōu)化器、注意力機制和殘差連接三個基礎(chǔ)模塊入手,逐一重構(gòu),并持續(xù)開源。

一、重寫訓(xùn)練底座:MuonClip把Token效率推高到AdamW的2倍

Kimi團隊把第一項重點放在Token效率上,楊植麟在演講中重點討論了優(yōu)化器問題。

他提到,自2014年以來,Adam優(yōu)化器一直是行業(yè)默認(rèn)選擇,但在超大規(guī)模訓(xùn)練中,更高Token效率的替代方案已經(jīng)成為重要方向。Kimi團隊在實驗中驗證,Muon優(yōu)化器在Token效率上具備顯著優(yōu)勢,在相近計算預(yù)算下,可以將訓(xùn)練Token以兩倍的效率轉(zhuǎn)化為模型能力。


▲Muon優(yōu)化器在相同算力下實現(xiàn)約2倍Token效率

不過,楊植麟也指出,在將Muon擴展至萬億參數(shù)規(guī)模的K2模型訓(xùn)練過程中,Kimi團隊遇到了穩(wěn)定性問題:訓(xùn)練中出現(xiàn)Logits爆炸,最大值迅速超過1000,導(dǎo)致模型發(fā)散。

針對這一問題,Kimi團隊提出MuonClip優(yōu)化器。楊植麟稱,該方法通過Newton-Schulz迭代結(jié)合QK-Clip機制,對訓(xùn)練過程中的數(shù)值進行約束。在實際訓(xùn)練中,Kimi K2的max logits被控制在100以內(nèi)并逐步回落,同時模型loss沒有受到負(fù)面影響,實現(xiàn)了穩(wěn)定訓(xùn)練。


▲MuonClip將max logits控制在100以內(nèi),實現(xiàn)穩(wěn)定訓(xùn)練

他同時提到,為了讓Muon在大規(guī)模GPU集群中具備可擴展性,Kimi團隊還設(shè)計了“Distributed Muon(分布式Muon)”,將優(yōu)化器狀態(tài)分布在數(shù)據(jù)并行組中,在需要時再聚合梯度完成計算,以提升內(nèi)存效率和整體訓(xùn)練效率。

二、第二個重點是長上下文:Kimi Linear把128K到1M解碼速度拉高5到6倍

長上下文是Kimi這次路線圖的第二條主線。

在這部分,楊植麟重點介紹了Kimi Linear。這是一套基于KDA(Kimi Delta Attention,Kimi增量注意力)的混合線性注意力架構(gòu)。

它的核心思路,是重新安排注意力層的組成方式,而不是默認(rèn)所有層都使用全注意力(Full Attention)。

具體來看,Kimi Linear采用約3:1的KDA與全局注意力混合比例,在降低內(nèi)存開銷的同時,保持模型表達能力。

楊植麟在演講中提到,Kimi Linear已經(jīng)完成1.4T token規(guī)模訓(xùn)練,在長上下文、短上下文以及強化學(xué)習(xí)任務(wù)中均優(yōu)于全注意力及其他基線方案。


更直接的變化體現(xiàn)在推理效率上。在128K到1M上下文范圍內(nèi),解碼速度可提升約5到6倍,同時在不同長度場景下保持穩(wěn)定表現(xiàn)。


這一改動解決的是一個長期存在的問題:上下文窗口不斷擴大,但推理成本和延遲同步上升,導(dǎo)致長任務(wù)能力難以真正落地。Kimi Linear則將長上下文從“可支持能力”轉(zhuǎn)變?yōu)椤翱筛咝褂媚芰Α薄?/p>

三、改寫殘差連接:讓每一層更主動地取信息

相比優(yōu)化器和線性注意力,Attention Residuals(注意力殘差)也是Kimi這次技術(shù)路線圖里尤為關(guān)鍵的一項嘗試。

殘差連接是深度網(wǎng)絡(luò)里極其基礎(chǔ)的一層設(shè)計,已經(jīng)用了十年左右。

楊植麟提到,傳統(tǒng)殘差連接采用固定加法累加方式,隨著網(wǎng)絡(luò)加深,隱藏狀態(tài)會持續(xù)增長,深層信息容易被稀釋。Kimi團隊的做法,是將殘差路徑替換為基于Softmax注意力的動態(tài)聚合,使模型可以根據(jù)輸入內(nèi)容,有選擇地從前序?qū)荧@取信息。

這一變化讓信息流從“逐層疊加”轉(zhuǎn)向“按需讀取”,在深層網(wǎng)絡(luò)中保持更穩(wěn)定的信息表達。

在這一部分,楊植麟延伸了前OpenAI首席科學(xué)家(Ilya Sutskever)在NeurIPS 2024的相關(guān)思路:如果將殘差連接視為沿深度展開的簡化LSTM,那么Attention可以理解為對這條信息通道的進一步擴展。


▲Ilya提出“將LSTM旋轉(zhuǎn)90度得到殘差連接”,Attention可視為其擴展

基于這一理解,Kimi提出Attention Residuals,并已將相關(guān)代碼與技術(shù)報告開源。

四、視覺強化學(xué)習(xí)反哺文本能力,跨模態(tài)帶來認(rèn)知增益

除了模型底層架構(gòu),楊植麟在演講中還分享了一項跨模態(tài)研究方向的重要觀察。

他提到,在原生視覺-文本聯(lián)合預(yù)訓(xùn)練過程中,引入視覺強化學(xué)習(xí)(Vision RL)后,模型不僅在視覺任務(wù)上表現(xiàn)提升,也會反向提升純文本能力。消融實驗結(jié)果顯示,在經(jīng)過視覺RL訓(xùn)練后,模型在MMLU-Pro和GPQA-Diamond等文本基準(zhǔn)上的表現(xiàn)提升約1.7%-2.2%。


楊植麟認(rèn)為,這表明空間推理與視覺邏輯能力,可以轉(zhuǎn)化為更深層的通用認(rèn)知能力。相關(guān)工作也指向一個方向:多模態(tài)訓(xùn)練的價值,已經(jīng)從“擴展輸入形式”,轉(zhuǎn)向“提升底層推理能力”。

他同時提到,Kimi團隊正在推進“首個原生聯(lián)合視覺-文本能力的開放模型(First open model with native, joint vision-text capabilities)”。

五、從單Agent到集群協(xié)作:Kimi押注Agent Swarms

演講最后一部分,楊植麟把重點落在智能體集群(Agent Swarms)上。

他在演講中提到,未來的智能體形態(tài)將從單智能體,轉(zhuǎn)向可以動態(tài)生成的集群系統(tǒng)。Kimi K2.5引入Orchestrator(編排器),能夠根據(jù)任務(wù)需求創(chuàng)建多個子Agent,并將復(fù)雜任務(wù)拆解為并行子任務(wù)執(zhí)行。


▲Orchestrator動態(tài)生成子Agent并并行執(zhí)行任務(wù)

這些子Agent可以承擔(dān)不同角色,例如AI Researcher(AI研究員)、Physics Researcher(物理研究員)、Fact Checker(事實核查員)等,通過分工協(xié)作完成整體任務(wù)。

楊植麟進一步補充,這類系統(tǒng)可以覆蓋從輸入到輸出的完整流程,包括大規(guī)模信息獲?。↖nput at Scale)、并行操作(Actions at Scale)、任務(wù)編排(Orchestration at Scale)以及長結(jié)果生成(Output at Scale)。

隨著任務(wù)復(fù)雜度提升,智能體集群相比單Agent的效率優(yōu)勢會持續(xù)擴大。在實驗中,執(zhí)行時間可獲得數(shù)倍縮短。


他同時指出,多Agent系統(tǒng)容易出現(xiàn)“串行塌縮”,即表面多Agent,實際退回單Agent執(zhí)行。為此,Kimi設(shè)計了并行強化學(xué)習(xí)獎勵機制,包括Instantiation reward(實例化獎勵)、Finish reward(完成獎勵)和Outcome reward(結(jié)果獎勵),用于引導(dǎo)模型真正進行任務(wù)拆解和并行執(zhí)行。


▲三類獎勵機制用于防止“偽并行”和串行塌縮

結(jié)語:Kimi給出一張新的Scaling施工圖

在總結(jié)中,楊植麟談到了AI研究范式的變化。

他提到,過去受限于算力資源,研究往往難以在不同規(guī)模上驗證同一方法。而隨著“Scaling Ladder(縮放階梯)”的建立,研究者可以進行更系統(tǒng)的規(guī)?;瘜嶒灒瑥亩玫礁煽康慕Y(jié)論。

這也成為Kimi當(dāng)前路徑的基礎(chǔ):Adam誕生已超過11年,Kimi將其推進為MuonClip并開源;Attention提出已超過8年,Kimi發(fā)展出Kimi Linear并開源;Residual connections已有約10年歷史,Kimi進一步提出Attention Residuals并開源。


整體來看,Kimi此次披露的路線圖,將下一階段大模型競爭的焦點明確到了三條主線:訓(xùn)練效率、長上下文能力以及智能體協(xié)作結(jié)構(gòu)。這三條路徑正在同時推進,并開始相互疊加。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
過分!一大V諷刺張雪峰:稱少一個鼓吹戰(zhàn)爭的瘋子,對世界更美好

過分!一大V諷刺張雪峰:稱少一個鼓吹戰(zhàn)爭的瘋子,對世界更美好

談史論天地
2026-03-26 07:56:52
電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔(dān)責(zé)40%引熱議!

電動車逆行被撞身亡,家屬索賠120萬,法院判司機擔(dān)責(zé)40%引熱議!

漁夫說事
2026-03-25 16:35:06
“史詩狂怒”行動印證美軍A-10攻擊機無可替代的近距空中支援作用

“史詩狂怒”行動印證美軍A-10攻擊機無可替代的近距空中支援作用

假如明天來臨
2026-03-23 12:10:03
歐爾班的好日子到頭了

歐爾班的好日子到頭了

民間胡扯老哥
2026-03-25 05:22:48
加時崩盤!火箭108-110森林狼,本場誰是罪魁禍?zhǔn)?,?shù)據(jù)不會說謊

加時崩盤!火箭108-110森林狼,本場誰是罪魁禍?zhǔn)?,?shù)據(jù)不會說謊

小徐講八卦
2026-03-26 12:55:53
英超2強爭冠前景!阿森納7場2敗或丟冠,曼城拿滿24分有望翻盤

英超2強爭冠前景!阿森納7場2敗或丟冠,曼城拿滿24分有望翻盤

體育知多少
2026-03-26 09:54:16
美軍稱林肯號航母繼續(xù)對伊朗作戰(zhàn)

美軍稱林肯號航母繼續(xù)對伊朗作戰(zhàn)

界面新聞
2026-03-26 10:03:25
未提車就變“老款”,問界M7“背刺”車主!律師:可能構(gòu)成欺詐

未提車就變“老款”,問界M7“背刺”車主!律師:可能構(gòu)成欺詐

北京商報
2026-03-25 19:00:22
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

項鵬飛
2026-03-24 20:28:43
“上海實體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實難

“上海實體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實難

新民晚報
2026-03-25 18:45:33
心眼壞的人,最愛問這3件事,別傻乎乎全說!

心眼壞的人,最愛問這3件事,別傻乎乎全說!

唯晨說
2026-03-25 13:12:14
普京開會親口承認(rèn)了殘酷現(xiàn)實,俄羅斯已遭到了戰(zhàn)爭的反噬

普京開會親口承認(rèn)了殘酷現(xiàn)實,俄羅斯已遭到了戰(zhàn)爭的反噬

泠泠說史
2026-03-25 19:57:28
廣東宏遠(yuǎn)今日早報!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

廣東宏遠(yuǎn)今日早報!杜鋒深夜發(fā)聲,陳家政效仿徐昕,徐杰狀態(tài)回升

多特體育說
2026-03-26 10:17:08
心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運動員的心臟之殤

心跳成為“勝負(fù)手”:從張雪峰猝然離世看網(wǎng)球運動員的心臟之殤

網(wǎng)球之家
2026-03-25 23:38:54
大勝!杜蘭特25+6,謝潑德首發(fā)14+4,烏度卡清醒了,火箭解決頑疾

大勝!杜蘭特25+6,謝潑德首發(fā)14+4,烏度卡清醒了,火箭解決頑疾

巴叔GO聊體育
2026-03-26 11:25:52
基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

基辛格坦言:如果爆發(fā)核戰(zhàn)爭,中國可能只有5個地方可以躲避危險

鶴羽說個事
2026-03-25 22:21:29
原來他們是夫妻,《冬去春來》他中年大火,與妻因戲生情恩愛17年

原來他們是夫妻,《冬去春來》他中年大火,與妻因戲生情恩愛17年

攬星河的筆記
2026-03-25 19:31:09
伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

伊媒:伊朗若遭美國地面入侵將打擊曼德海峽

參考消息
2026-03-26 11:02:08
加時被轟15-0!火箭臉都不要了!杜蘭特致命罰丟,申京空砍30+6+3

加時被轟15-0!火箭臉都不要了!杜蘭特致命罰丟,申京空砍30+6+3

Tracy的籃球博物館
2026-03-26 12:44:12
人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

人社部明確:事業(yè)編制改革啟動,3100萬人的“鐵飯碗”要變了

慧眼看世界哈哈
2026-03-24 06:36:05
2026-03-26 13:08:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
11433文章數(shù) 117015關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時限4到5天

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會喪事從簡

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
親子
藝術(shù)
公開課
軍事航空

任天堂澄清Switch2游戲定價策略:實體版不會漲價

親子要聞

躺平的孩子意外覺醒了,在父母學(xué)會當(dāng)“烏龜”!

藝術(shù)要聞

哪一座橋不是風(fēng)景?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進入關(guān)懷版