唯一登臺的中國大模型創(chuàng)始人，楊植麟美國GTC首秀，公開Kimi技術(shù)路線圖

2026-03-18 18:46:18　來源: 智東西

北京舉報

分享至

智東西
作者｜江宇
編輯｜云鵬

智東西3月18日報道，今日凌晨，在英偉達GTC大會上，月之暗面創(chuàng)始人楊植麟作為本屆唯一受邀現(xiàn)場演講的中國獨立大模型公司創(chuàng)始人，發(fā)表題為《How We Scaled Kimi K2.5》的演講，首次完整披露Kimi K2.5背后的技術(shù)路線圖。

就在3月16日，月之暗面剛剛發(fā)布最新論文，提前預(yù)覽了下一代模型的關(guān)鍵模塊——注意力殘差（Attention Residuals，簡稱AttnRes）。這篇論文的核心，是對大模型中最基礎(chǔ)、卻長期被默認(rèn)接受的結(jié)構(gòu)之一殘差連接（Residual Connection）的重新設(shè)計。

這項進展很快引發(fā)海外AI圈關(guān)注。埃隆·馬斯克（Elon Musk）稱其“令人印象深刻”；前OpenAI研究副總裁、聯(lián)合創(chuàng)始人安德烈·卡帕西（Andrej Karpathy）則直言，人們對《Attention is All You Need》這篇Transformer開山之作的理解，可能還不夠充分。

而在這次GTC演講中，楊植麟將這項研究放回Kimi更完整的技術(shù)框架中，給出了一張更系統(tǒng)的“路線圖”。他將Kimi K2.5的進化邏輯概括為三個維度的共振：Token效率、長上下文和智能體集群（Agent Swarms）。

在楊植麟看來，當(dāng)前的Scaling已經(jīng)不再是單純的資源堆砌，而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應(yīng)。如果能將這三個維度的技術(shù)增益相乘，模型將表現(xiàn)出遠(yuǎn)超現(xiàn)狀的智能水平。

這也是自1月底Kimi發(fā)布K2.5以來，月之暗面首次把這套技術(shù)路線圖系統(tǒng)披露。

楊植麟提出，行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn)，本質(zhì)上是八九年前的產(chǎn)物，正逐漸成為Scaling（拓展）的瓶頸。圍繞這一問題，Kimi團隊選擇從優(yōu)化器、注意力機制和殘差連接三個基礎(chǔ)模塊入手，逐一重構(gòu)，并持續(xù)開源。

一、重寫訓(xùn)練底座：MuonClip把Token效率推高到AdamW的2倍

Kimi團隊把第一項重點放在Token效率上，楊植麟在演講中重點討論了優(yōu)化器問題。

他提到，自2014年以來，Adam優(yōu)化器一直是行業(yè)默認(rèn)選擇，但在超大規(guī)模訓(xùn)練中，更高Token效率的替代方案已經(jīng)成為重要方向。Kimi團隊在實驗中驗證，Muon優(yōu)化器在Token效率上具備顯著優(yōu)勢，在相近計算預(yù)算下，可以將訓(xùn)練Token以兩倍的效率轉(zhuǎn)化為模型能力。

▲Muon優(yōu)化器在相同算力下實現(xiàn)約2倍Token效率

不過，楊植麟也指出，在將Muon擴展至萬億參數(shù)規(guī)模的K2模型訓(xùn)練過程中，Kimi團隊遇到了穩(wěn)定性問題：訓(xùn)練中出現(xiàn)Logits爆炸，最大值迅速超過1000，導(dǎo)致模型發(fā)散。

針對這一問題，Kimi團隊提出MuonClip優(yōu)化器。楊植麟稱，該方法通過Newton-Schulz迭代結(jié)合QK-Clip機制，對訓(xùn)練過程中的數(shù)值進行約束。在實際訓(xùn)練中，Kimi K2的max logits被控制在100以內(nèi)并逐步回落，同時模型loss沒有受到負(fù)面影響，實現(xiàn)了穩(wěn)定訓(xùn)練。

▲MuonClip將max logits控制在100以內(nèi)，實現(xiàn)穩(wěn)定訓(xùn)練

他同時提到，為了讓Muon在大規(guī)模GPU集群中具備可擴展性，Kimi團隊還設(shè)計了“Distributed Muon（分布式Muon）”，將優(yōu)化器狀態(tài)分布在數(shù)據(jù)并行組中，在需要時再聚合梯度完成計算，以提升內(nèi)存效率和整體訓(xùn)練效率。

二、第二個重點是長上下文：Kimi Linear把128K到1M解碼速度拉高5到6倍

長上下文是Kimi這次路線圖的第二條主線。

在這部分，楊植麟重點介紹了Kimi Linear。這是一套基于KDA（Kimi Delta Attention，Kimi增量注意力）的混合線性注意力架構(gòu)。

它的核心思路，是重新安排注意力層的組成方式，而不是默認(rèn)所有層都使用全注意力（Full Attention）。

具體來看，Kimi Linear采用約3:1的KDA與全局注意力混合比例，在降低內(nèi)存開銷的同時，保持模型表達能力。

楊植麟在演講中提到，Kimi Linear已經(jīng)完成1.4T token規(guī)模訓(xùn)練，在長上下文、短上下文以及強化學(xué)習(xí)任務(wù)中均優(yōu)于全注意力及其他基線方案。

更直接的變化體現(xiàn)在推理效率上。在128K到1M上下文范圍內(nèi)，解碼速度可提升約5到6倍，同時在不同長度場景下保持穩(wěn)定表現(xiàn)。

這一改動解決的是一個長期存在的問題：上下文窗口不斷擴大，但推理成本和延遲同步上升，導(dǎo)致長任務(wù)能力難以真正落地。Kimi Linear則將長上下文從“可支持能力”轉(zhuǎn)變?yōu)椤翱筛咝褂媚芰Α薄?/p>

三、改寫殘差連接：讓每一層更主動地取信息

相比優(yōu)化器和線性注意力，Attention Residuals（注意力殘差）也是Kimi這次技術(shù)路線圖里尤為關(guān)鍵的一項嘗試。

殘差連接是深度網(wǎng)絡(luò)里極其基礎(chǔ)的一層設(shè)計，已經(jīng)用了十年左右。

楊植麟提到，傳統(tǒng)殘差連接采用固定加法累加方式，隨著網(wǎng)絡(luò)加深，隱藏狀態(tài)會持續(xù)增長，深層信息容易被稀釋。Kimi團隊的做法，是將殘差路徑替換為基于Softmax注意力的動態(tài)聚合，使模型可以根據(jù)輸入內(nèi)容，有選擇地從前序?qū)荧@取信息。

這一變化讓信息流從“逐層疊加”轉(zhuǎn)向“按需讀取”，在深層網(wǎng)絡(luò)中保持更穩(wěn)定的信息表達。

在這一部分，楊植麟延伸了前OpenAI首席科學(xué)家（Ilya Sutskever）在NeurIPS 2024的相關(guān)思路：如果將殘差連接視為沿深度展開的簡化LSTM，那么Attention可以理解為對這條信息通道的進一步擴展。

▲Ilya提出“將LSTM旋轉(zhuǎn)90度得到殘差連接”，Attention可視為其擴展

基于這一理解，Kimi提出Attention Residuals，并已將相關(guān)代碼與技術(shù)報告開源。

四、視覺強化學(xué)習(xí)反哺文本能力，跨模態(tài)帶來認(rèn)知增益

除了模型底層架構(gòu)，楊植麟在演講中還分享了一項跨模態(tài)研究方向的重要觀察。

他提到，在原生視覺-文本聯(lián)合預(yù)訓(xùn)練過程中，引入視覺強化學(xué)習(xí)（Vision RL）后，模型不僅在視覺任務(wù)上表現(xiàn)提升，也會反向提升純文本能力。消融實驗結(jié)果顯示，在經(jīng)過視覺RL訓(xùn)練后，模型在MMLU-Pro和GPQA-Diamond等文本基準(zhǔn)上的表現(xiàn)提升約1.7%-2.2%。

楊植麟認(rèn)為，這表明空間推理與視覺邏輯能力，可以轉(zhuǎn)化為更深層的通用認(rèn)知能力。相關(guān)工作也指向一個方向：多模態(tài)訓(xùn)練的價值，已經(jīng)從“擴展輸入形式”，轉(zhuǎn)向“提升底層推理能力”。

他同時提到，Kimi團隊正在推進“首個原生聯(lián)合視覺-文本能力的開放模型（First open model with native, joint vision-text capabilities）”。

五、從單Agent到集群協(xié)作：Kimi押注Agent Swarms

演講最后一部分，楊植麟把重點落在智能體集群（Agent Swarms）上。

他在演講中提到，未來的智能體形態(tài)將從單智能體，轉(zhuǎn)向可以動態(tài)生成的集群系統(tǒng)。Kimi K2.5引入Orchestrator（編排器），能夠根據(jù)任務(wù)需求創(chuàng)建多個子Agent，并將復(fù)雜任務(wù)拆解為并行子任務(wù)執(zhí)行。

▲Orchestrator動態(tài)生成子Agent并并行執(zhí)行任務(wù)

這些子Agent可以承擔(dān)不同角色，例如AI Researcher（AI研究員）、Physics Researcher（物理研究員）、Fact Checker（事實核查員）等，通過分工協(xié)作完成整體任務(wù)。

楊植麟進一步補充，這類系統(tǒng)可以覆蓋從輸入到輸出的完整流程，包括大規(guī)模信息獲?。↖nput at Scale）、并行操作（Actions at Scale）、任務(wù)編排（Orchestration at Scale）以及長結(jié)果生成（Output at Scale）。

隨著任務(wù)復(fù)雜度提升，智能體集群相比單Agent的效率優(yōu)勢會持續(xù)擴大。在實驗中，執(zhí)行時間可獲得數(shù)倍縮短。

他同時指出，多Agent系統(tǒng)容易出現(xiàn)“串行塌縮”，即表面多Agent，實際退回單Agent執(zhí)行。為此，Kimi設(shè)計了并行強化學(xué)習(xí)獎勵機制，包括Instantiation reward（實例化獎勵）、Finish reward（完成獎勵）和Outcome reward（結(jié)果獎勵），用于引導(dǎo)模型真正進行任務(wù)拆解和并行執(zhí)行。

▲三類獎勵機制用于防止“偽并行”和串行塌縮

結(jié)語：Kimi給出一張新的Scaling施工圖

在總結(jié)中，楊植麟談到了AI研究范式的變化。

他提到，過去受限于算力資源，研究往往難以在不同規(guī)模上驗證同一方法。而隨著“Scaling Ladder（縮放階梯）”的建立，研究者可以進行更系統(tǒng)的規(guī)?；瘜嶒灒瑥亩玫礁煽康慕Y(jié)論。

這也成為Kimi當(dāng)前路徑的基礎(chǔ)：Adam誕生已超過11年，Kimi將其推進為MuonClip并開源；Attention提出已超過8年，Kimi發(fā)展出Kimi Linear并開源；Residual connections已有約10年歷史，Kimi進一步提出Attention Residuals并開源。

整體來看，Kimi此次披露的路線圖，將下一階段大模型競爭的焦點明確到了三條主線：訓(xùn)練效率、長上下文能力以及智能體協(xié)作結(jié)構(gòu)。這三條路徑正在同時推進，并開始相互疊加。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.