網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Kimi K2 - 非主流的超級(jí)大杯非推理大模型

2025-07-12 08:18:54　來源: 平凡AI

海外舉報(bào)

分享至

馬斯克的Grok4剛發(fā)布沒兩天，我以為Grok4會(huì)是世界上最大的非推理模型，畢竟它背后有世界上最大的GPU集群之一，但是它走的還是其他家的老路，做一個(gè)不錯(cuò)的foundation model，然后用RL做post-training，刷榜，最后再搞個(gè)一年2萬塊的會(huì)員門檻將普通用戶拒之門外。

但Kimi給全世界交出來一份另類的卷子，我覺得簡直就是針對(duì)于馬斯克Grok4的回手掏，這是一點(diǎn)兒不那么技術(shù)的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技術(shù)報(bào)告：https://moonshotai.github.io/Kimi-K2/

使用方式（免費(fèi)）：https://www.kimi.com/

全世界最大的開源模型，總參數(shù)量高達(dá)1T（Trillion，萬億），以前一般都用B（10億），比如DeepSeek的671B，Qwen系列的從0.5B到300多B，主流模型都在幾百億-幾千億的區(qū)間，以前有萬億模型，但是訓(xùn)練容易爆炸且推理速度極慢，Kimi搞出來一套招法搞定了超大稀疏MoE，它標(biāo)志著「開源規(guī)模」進(jìn)入了萬億參數(shù)時(shí)代。
Foundation model，也就是它本身是不帶有thinking/reasoning能力的，用DeepSeek來比如，V3模型就是foundation model，R1就是推理模型，R1是在V3的基礎(chǔ)上后訓(xùn)練出來的。這樣做很吃虧，因?yàn)镕oundation model加點(diǎn)RL post-training就有非常明顯的提升，但Kimi沒這么做。
Agent時(shí)代的含金量又一次提升，Agent非常火，大家用的模型都非常的統(tǒng)一，不管事OpenAI的o系列，Google的Gemini系列，DeepSeek的R系列，Claude的4-sonnet或者opus，全都是整齊劃一的推理/思考模型，不為別的，本身的foundation model腦子不夠聰明，其次腦容量?。╟ontext length），做不了動(dòng)不動(dòng)運(yùn)行幾十分鐘需要吃掉幾萬十幾萬token的agent任務(wù)。Kimi K2反其道而行，foundation model，直接支持Agent，tool calling。這一點(diǎn)兒非常狠，意味著Kimi給所有人留下了懸念，我Foundation model的agentic能力就這么好，你等我post- training弄好，還不得起飛？
引領(lǐng)新范式，原來的大模型由ChatGPT起了個(gè)頭，雖然做的是AI，但實(shí)際上大家都叫ChatBot，也就是聊天機(jī)器人，聊天其實(shí)就圈定了一個(gè)大概范圍，即Conversation，聊天嘛，你撐死了就是你一嘴我一嘴。Kimi K2把foundation model叫做：Open Agentic Intelligence。

翻譯過來，就是開放代理型智能，無疑想要引領(lǐng)一把AI大模型的流行趨勢(shì)，把本身設(shè)計(jì)為聊天機(jī)器人的foundation model，徹底轉(zhuǎn)換成更加適配Agent時(shí)代的AI，說實(shí)話，我覺得非常的有野心。

這次的kimi技術(shù)報(bào)告里面有以下的重要細(xì)節(jié)。

PART 0PART 01

1 模型架構(gòu)與創(chuàng)新設(shè)計(jì)

一共發(fā)了倆模型：

Kimi-K2-Base，這是為需要“完全控制微調(diào)”的研究人員準(zhǔn)備的基礎(chǔ)模型
Kimi-K2-Instruct，這是為“即插即用的通用聊天和智能體體驗(yàn)”而優(yōu)化的訓(xùn)練后模型

兩個(gè)都是萬億的超大規(guī)模MoE（混合專家結(jié)構(gòu)），激活參數(shù)只有32B；同樣的DeepSeek等一眾大模型都用的MoE結(jié)構(gòu)，這不稀奇，但DeepSeek V3/R1的總參數(shù)都是671B，而激活參數(shù)量比k2還多，37B。

另外，據(jù)說GPT-4有約1.8萬億總參數(shù)，分布在16個(gè)專家中，每次推理激活約2800億參數(shù)（即激活2個(gè)專家）。

K2的激活參數(shù)量（320億）遠(yuǎn)低于此，這表明其設(shè)計(jì)選擇優(yōu)先考慮了更低的推理計(jì)算成本和更快的響應(yīng)速度，這意味著Kimi依舊覺得今后的幾年內(nèi)算力成本依舊是瓶頸（部分的符合token經(jīng)濟(jì)學(xué)原理），所以得出來結(jié)論，那就是越稀疏越省錢。

值得注意的是，K2的專家數(shù)量夠多的，一共有384個(gè)專家，這種設(shè)計(jì)可以被理解為構(gòu)建了一個(gè)龐大的“知識(shí)庫”，而非一個(gè)由少數(shù)通才組成的委員會(huì)。擁有384個(gè)專家的模型，其特化潛力遠(yuǎn)比擁有16個(gè)專家（如GPT-4）的模型更為精細(xì)。

每次激活8個(gè)專家意味著，對(duì)于任何給定的任務(wù)，模型都會(huì)組建一個(gè)“專家委員會(huì)”來處理信息。龐大的專家數(shù)量暗示了一種旨在捕獲極其廣泛和多樣化的知識(shí)領(lǐng)域與技能的設(shè)計(jì)哲學(xué)。這些海量的“非激活”參數(shù)構(gòu)成了一個(gè)巨大的知識(shí)儲(chǔ)備庫。

這對(duì)于模型的下游應(yīng)用具有重要意義。例如，針對(duì)特定任務(wù)（如法律分析或醫(yī)學(xué)研究）對(duì)Kimi-K2-Base進(jìn)行微調(diào)可能會(huì)非常高效。

另外K2支持128K的上下文（Context）長度，在foundation model里面算是非常大的長度來，這得益于MLA的attention機(jī)制，再加上本身Kimi起家就是靠的1百萬超長上下文，所以這一點(diǎn)兒能實(shí)現(xiàn)也不奇怪。

PART 02

2 訓(xùn)練穩(wěn)定性的主要基石：MuonClip優(yōu)化器

這部分的寫作非常的蘇神。

原理比較復(fù)雜，簡單來講大模型在訓(xùn)練的時(shí)候想要的錯(cuò)誤率是這樣的，平緩下降，直到降到不能降。

但很不好意思，這種動(dòng)不動(dòng)就是幾周甚至幾個(gè)月的訓(xùn)練，非常有可能是你訓(xùn)練到一定程度，模型直接炸了。

這個(gè)現(xiàn)象就叫“注意力邏輯值爆炸”（exploding attention logits）。在該現(xiàn)象中，注意力機(jī)制中的數(shù)值（主要是attention公式里面的q和k值）會(huì)失控式增長，最終導(dǎo)致訓(xùn)練過程崩潰。

Kimi發(fā)明了MuonClip，這項(xiàng)技術(shù)的核心是一種名為qk-clip的創(chuàng)新方法。它在每次優(yōu)化器更新后，直接對(duì)查詢（query, q）和鍵（key, k）投影的權(quán)重矩陣進(jìn)行重新縮放。通過這種方式，qk-clip從源頭上控制了注意力邏輯值的尺度，有效防止了其爆炸性增長。

這項(xiàng)創(chuàng)新的效果非常顯著，使得月之暗面能夠在高達(dá)15.5萬億個(gè)tokens的數(shù)據(jù)集上預(yù)訓(xùn)練Kimi-K2-Base，并實(shí)現(xiàn)了“零訓(xùn)練尖峰”（zero training spikes）的記錄。

效果非常好，非常平緩的下降。

這一成就揭示了大型語言模型開發(fā)中一個(gè)更深層次的現(xiàn)實(shí)：訓(xùn)練穩(wěn)定性是真正的技術(shù)前沿。大家對(duì)大型語言模型的討論往往集中在參數(shù)數(shù)量、數(shù)據(jù)規(guī)模和基準(zhǔn)測(cè)試分?jǐn)?shù)上。

然而，一個(gè)隱藏的、但可以說更為關(guān)鍵的前沿是訓(xùn)練的穩(wěn)定性。像Kimi-K2這樣的萬億參數(shù)模型，一次完整的訓(xùn)練運(yùn)行可能需要耗費(fèi)價(jià)值數(shù)千萬甚至上億美元的計(jì)算資源。一次“訓(xùn)練spike”就可能使數(shù)周的進(jìn)展和巨大的財(cái)務(wù)投資付之一炬。

Kimi現(xiàn)在開源了，給友商省錢了，仗義。

PART 03

3 原生工具調(diào)用與Agent架構(gòu)

K2最大的特色亮點(diǎn)之一，是將工具使用能力和Agent能力深度融入模型訓(xùn)練與推理接口中，它的定位為“為智能體能力精心優(yōu)化”并為“工具使用、推理和自主解決問題”而設(shè)計(jì)的模型，這是一個(gè)概念上的轉(zhuǎn)變。

這個(gè)能力是通過這個(gè)大規(guī)模的智能體數(shù)據(jù)模擬出來的，說白了，沒有數(shù)據(jù)就沒有智能，Kimi構(gòu)建了這么一套流程來不斷的產(chǎn)生數(shù)據(jù)并反哺自身。

這個(gè)過程涉及構(gòu)建數(shù)百個(gè)模擬智能體，讓它們嘗試使用工具完成任務(wù)，并使用一個(gè)AI裁判來篩選和學(xué)習(xí)這些交互過程。此外，還輔以一個(gè)“通用強(qiáng)化學(xué)習(xí)”（General Reinforcement Learning）系統(tǒng)，在該系統(tǒng)中，模型充當(dāng)自己的評(píng)審員，以在沒有唯一正確答案的任務(wù)上進(jìn)行自我提升。

簡單來說，K2當(dāng)裁判、生成器、環(huán)境三合一，看似是 self-play，其實(shí)是把人類數(shù)據(jù)蒸餾成“高維規(guī)則”，你看rubric提到了很多次。

說白了，雖然rubric足夠的多和詳細(xì)，但還會(huì)有問題：

裁判模型本身如果帶有偏見，整個(gè)數(shù)據(jù)飛輪會(huì)把偏差指數(shù)級(jí)放大。更深層的問題是，當(dāng) rubric 足夠細(xì)，模型其實(shí)不再是“自主學(xué)習(xí)”，而是“規(guī)則過擬合”。

不過暫時(shí)看來，K2還是挺強(qiáng)的，不過未來如何，得看post-training的到的推理模型。

PART 04

4 性能

這一個(gè)放最后的原因是刷榜性能評(píng)分并不能代表實(shí)際表現(xiàn)，只能作為參考。

K2和非推理模型相比，絕大多數(shù)在top2，少數(shù)top1，top2的也僅比Claude4差點(diǎn)。

在使用工具這個(gè)維度上大多數(shù)排在top1。

編程部分弱于Claude。

主要的特色在于對(duì)于K2工具使用和自主編程的測(cè)試，其實(shí)就是agent能力。在 TauCoT 工具使用基準(zhǔn)（Tau2系列）中，Kimi-K2 在零樣本情況下可以理解用戶意圖并正確選擇工具，取得如零售場(chǎng)景70.6、航空56.5的高平均得分，接近甚至超過Claude等模型。

在AceBench（開放代理任務(wù)評(píng)測(cè)）中，Kimi-K2 也達(dá)到 76.5% 的準(zhǔn)確率，與GPT-4/Claude處于同一量級(jí)。從結(jié)果看，Kimi-K2 確立了自身作為當(dāng)今最強(qiáng)開源通用大模型之一的地位，其在知識(shí)、推理、編碼各方面的表現(xiàn)都逼近甚至部分超越了GPT-4、Claude等業(yè)界頂尖水平。

Kimi K2 的發(fā)布標(biāo)志著 2025 年大模型競(jìng)賽的賽道還有很多，比如超大規(guī)模的開源模型，擯棄chatbot而是直接原生agent能力，還有就是要想實(shí)現(xiàn)效率高和性能好，超級(jí)稀疏MoE或許是個(gè)解法。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.