国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Kimi K2 - 非主流的超級(jí)大杯非推理大模型

0
分享至

馬斯克的Grok4剛發(fā)布沒兩天,我以為Grok4會(huì)是世界上最大的非推理模型,畢竟它背后有世界上最大的GPU集群之一,但是它走的還是其他家的老路,做一個(gè)不錯(cuò)的foundation model,然后用RL做post-training,刷榜,最后再搞個(gè)一年2萬塊的會(huì)員門檻將普通用戶拒之門外。

但Kimi給全世界交出來一份另類的卷子,我覺得簡直就是針對(duì)于馬斯克Grok4的回手掏,這是一點(diǎn)兒不那么技術(shù)的分析。

Github:https://github.com/MoonshotAI/Kimi-K2?tab=readme-ov-file#4-deployment

技術(shù)報(bào)告:https://moonshotai.github.io/Kimi-K2/

使用方式(免費(fèi)):https://www.kimi.com/

  • 全世界最大的開源模型,總參數(shù)量高達(dá)1T(Trillion,萬億),以前一般都用B(10億),比如DeepSeek的671B,Qwen系列的從0.5B到300多B,主流模型都在幾百億-幾千億的區(qū)間,以前有萬億模型,但是訓(xùn)練容易爆炸且推理速度極慢,Kimi搞出來一套招法搞定了超大稀疏MoE,它標(biāo)志著「開源規(guī)模」進(jìn)入了萬億參數(shù)時(shí)代。

  • Foundation model,也就是它本身是不帶有thinking/reasoning能力的,用DeepSeek來比如,V3模型就是foundation model,R1就是推理模型,R1是在V3的基礎(chǔ)上后訓(xùn)練出來的。這樣做很吃虧,因?yàn)镕oundation model加點(diǎn)RL post-training就有非常明顯的提升,但Kimi沒這么做。

  • Agent時(shí)代的含金量又一次提升,Agent非常火,大家用的模型都非常的統(tǒng)一,不管事OpenAI的o系列,Google的Gemini系列,DeepSeek的R系列,Claude的4-sonnet或者opus,全都是整齊劃一的推理/思考模型,不為別的,本身的foundation model腦子不夠聰明,其次腦容量?。╟ontext length),做不了動(dòng)不動(dòng)運(yùn)行幾十分鐘需要吃掉幾萬十幾萬token的agent任務(wù)。Kimi K2反其道而行,foundation model,直接支持Agent,tool calling。這一點(diǎn)兒非常狠,意味著Kimi給所有人留下了懸念,我Foundation model的agentic能力就這么好,你等我post- training弄好,還不得起飛?

  • 引領(lǐng)新范式,原來的大模型由ChatGPT起了個(gè)頭,雖然做的是AI,但實(shí)際上大家都叫ChatBot,也就是聊天機(jī)器人,聊天其實(shí)就圈定了一個(gè)大概范圍,即Conversation,聊天嘛,你撐死了就是你一嘴我一嘴。Kimi K2把foundation model叫做:Open Agentic Intelligence。

翻譯過來,就是開放代理型智能,無疑想要引領(lǐng)一把AI大模型的流行趨勢(shì),把本身設(shè)計(jì)為聊天機(jī)器人的foundation model,徹底轉(zhuǎn)換成更加適配Agent時(shí)代的AI,說實(shí)話,我覺得非常的有野心。


這次的kimi技術(shù)報(bào)告里面有以下的重要細(xì)節(jié)。

PART 0PART 01

1 模型架構(gòu)與創(chuàng)新設(shè)計(jì)

一共發(fā)了倆模型:

  • Kimi-K2-Base,這是為需要“完全控制微調(diào)”的研究人員準(zhǔn)備的基礎(chǔ)模型

  • Kimi-K2-Instruct,這是為“即插即用的通用聊天和智能體體驗(yàn)”而優(yōu)化的訓(xùn)練后模型

兩個(gè)都是萬億的超大規(guī)模MoE(混合專家結(jié)構(gòu)),激活參數(shù)只有32B;同樣的DeepSeek等一眾大模型都用的MoE結(jié)構(gòu),這不稀奇,但DeepSeek V3/R1的總參數(shù)都是671B,而激活參數(shù)量比k2還多,37B。

另外,據(jù)說GPT-4有約1.8萬億總參數(shù),分布在16個(gè)專家中,每次推理激活約2800億參數(shù)(即激活2個(gè)專家)。

K2的激活參數(shù)量(320億)遠(yuǎn)低于此,這表明其設(shè)計(jì)選擇優(yōu)先考慮了更低的推理計(jì)算成本和更快的響應(yīng)速度,這意味著Kimi依舊覺得今后的幾年內(nèi)算力成本依舊是瓶頸(部分的符合token經(jīng)濟(jì)學(xué)原理),所以得出來結(jié)論,那就是越稀疏越省錢。

值得注意的是,K2的專家數(shù)量夠多的,一共有384個(gè)專家,這種設(shè)計(jì)可以被理解為構(gòu)建了一個(gè)龐大的“知識(shí)庫”,而非一個(gè)由少數(shù)通才組成的委員會(huì)。擁有384個(gè)專家的模型,其特化潛力遠(yuǎn)比擁有16個(gè)專家(如GPT-4)的模型更為精細(xì)。

每次激活8個(gè)專家意味著,對(duì)于任何給定的任務(wù),模型都會(huì)組建一個(gè)“專家委員會(huì)”來處理信息。龐大的專家數(shù)量暗示了一種旨在捕獲極其廣泛和多樣化的知識(shí)領(lǐng)域與技能的設(shè)計(jì)哲學(xué)。這些海量的“非激活”參數(shù)構(gòu)成了一個(gè)巨大的知識(shí)儲(chǔ)備庫。


這對(duì)于模型的下游應(yīng)用具有重要意義。例如,針對(duì)特定任務(wù)(如法律分析或醫(yī)學(xué)研究)對(duì)Kimi-K2-Base進(jìn)行微調(diào)可能會(huì)非常高效。

另外K2支持128K的上下文(Context)長度,在foundation model里面算是非常大的長度來,這得益于MLA的attention機(jī)制,再加上本身Kimi起家就是靠的1百萬超長上下文,所以這一點(diǎn)兒能實(shí)現(xiàn)也不奇怪。

PART 02

2 訓(xùn)練穩(wěn)定性的主要基石:MuonClip優(yōu)化器

這部分的寫作非常的蘇神。


原理比較復(fù)雜,簡單來講大模型在訓(xùn)練的時(shí)候想要的錯(cuò)誤率是這樣的,平緩下降,直到降到不能降。


但很不好意思,這種動(dòng)不動(dòng)就是幾周甚至幾個(gè)月的訓(xùn)練,非常有可能是你訓(xùn)練到一定程度,模型直接炸了。


這個(gè)現(xiàn)象就叫“注意力邏輯值爆炸”(exploding attention logits)。在該現(xiàn)象中,注意力機(jī)制中的數(shù)值(主要是attention公式里面的q和k值)會(huì)失控式增長,最終導(dǎo)致訓(xùn)練過程崩潰。

Kimi發(fā)明了MuonClip,這項(xiàng)技術(shù)的核心是一種名為qk-clip的創(chuàng)新方法。它在每次優(yōu)化器更新后,直接對(duì)查詢(query, q)和鍵(key, k)投影的權(quán)重矩陣進(jìn)行重新縮放。通過這種方式,qk-clip從源頭上控制了注意力邏輯值的尺度,有效防止了其爆炸性增長。

這項(xiàng)創(chuàng)新的效果非常顯著,使得月之暗面能夠在高達(dá)15.5萬億個(gè)tokens的數(shù)據(jù)集上預(yù)訓(xùn)練Kimi-K2-Base,并實(shí)現(xiàn)了“零訓(xùn)練尖峰”(zero training spikes)的記錄。

效果非常好,非常平緩的下降。


這一成就揭示了大型語言模型開發(fā)中一個(gè)更深層次的現(xiàn)實(shí):訓(xùn)練穩(wěn)定性是真正的技術(shù)前沿。大家對(duì)大型語言模型的討論往往集中在參數(shù)數(shù)量、數(shù)據(jù)規(guī)模和基準(zhǔn)測(cè)試分?jǐn)?shù)上。

然而,一個(gè)隱藏的、但可以說更為關(guān)鍵的前沿是訓(xùn)練的穩(wěn)定性。像Kimi-K2這樣的萬億參數(shù)模型,一次完整的訓(xùn)練運(yùn)行可能需要耗費(fèi)價(jià)值數(shù)千萬甚至上億美元的計(jì)算資源。一次“訓(xùn)練spike”就可能使數(shù)周的進(jìn)展和巨大的財(cái)務(wù)投資付之一炬。

Kimi現(xiàn)在開源了,給友商省錢了,仗義。

PART 03

3 原生工具調(diào)用與Agent架構(gòu)

K2最大的特色亮點(diǎn)之一,是將工具使用能力和Agent能力深度融入模型訓(xùn)練與推理接口中,它的定位為“為智能體能力精心優(yōu)化”并為“工具使用、推理和自主解決問題”而設(shè)計(jì)的模型,這是一個(gè)概念上的轉(zhuǎn)變。

這個(gè)能力是通過這個(gè)大規(guī)模的智能體數(shù)據(jù)模擬出來的,說白了,沒有數(shù)據(jù)就沒有智能,Kimi構(gòu)建了這么一套流程來不斷的產(chǎn)生數(shù)據(jù)并反哺自身。


這個(gè)過程涉及構(gòu)建數(shù)百個(gè)模擬智能體,讓它們嘗試使用工具完成任務(wù),并使用一個(gè)AI裁判來篩選和學(xué)習(xí)這些交互過程。此外,還輔以一個(gè)“通用強(qiáng)化學(xué)習(xí)”(General Reinforcement Learning)系統(tǒng),在該系統(tǒng)中,模型充當(dāng)自己的評(píng)審員,以在沒有唯一正確答案的任務(wù)上進(jìn)行自我提升。

簡單來說,K2當(dāng)裁判、生成器、環(huán)境三合一,看似是 self-play,其實(shí)是把人類數(shù)據(jù)蒸餾成“高維規(guī)則”,你看rubric提到了很多次。


說白了,雖然rubric足夠的多和詳細(xì),但還會(huì)有問題:

裁判模型本身如果帶有偏見,整個(gè)數(shù)據(jù)飛輪會(huì)把偏差指數(shù)級(jí)放大。更深層的問題是,當(dāng) rubric 足夠細(xì),模型其實(shí)不再是“自主學(xué)習(xí)”,而是“規(guī)則過擬合”。

不過暫時(shí)看來,K2還是挺強(qiáng)的,不過未來如何,得看post-training的到的推理模型。

PART 04

4 性能

這一個(gè)放最后的原因是刷榜性能評(píng)分并不能代表實(shí)際表現(xiàn),只能作為參考。

K2和非推理模型相比,絕大多數(shù)在top2,少數(shù)top1,top2的也僅比Claude4差點(diǎn)。


在使用工具這個(gè)維度上大多數(shù)排在top1。


編程部分弱于Claude。


主要的特色在于對(duì)于K2工具使用和自主編程的測(cè)試,其實(shí)就是agent能力。在 TauCoT 工具使用基準(zhǔn)(Tau2系列)中,Kimi-K2 在零樣本情況下可以理解用戶意圖并正確選擇工具,取得如零售場(chǎng)景70.6、航空56.5的高平均得分,接近甚至超過Claude等模型。

在AceBench(開放代理任務(wù)評(píng)測(cè))中,Kimi-K2 也達(dá)到 76.5% 的準(zhǔn)確率,與GPT-4/Claude處于同一量級(jí)。從結(jié)果看,Kimi-K2 確立了自身作為當(dāng)今最強(qiáng)開源通用大模型之一的地位,其在知識(shí)、推理、編碼各方面的表現(xiàn)都逼近甚至部分超越了GPT-4、Claude等業(yè)界頂尖水平。

Kimi K2 的發(fā)布標(biāo)志著 2025 年大模型競(jìng)賽的賽道還有很多,比如超大規(guī)模的開源模型,擯棄chatbot而是直接原生agent能力,還有就是要想實(shí)現(xiàn)效率高和性能好,超級(jí)稀疏MoE或許是個(gè)解法。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
大范圍雨雪來了:元旦大降溫趨勢(shì)確定,南方多省可能要下雪

大范圍雨雪來了:元旦大降溫趨勢(shì)確定,南方多省可能要下雪

中國氣象愛好者
2025-12-29 00:15:48
江西博物館一頂級(jí)藏品疑贗品:從故宮借出,假的太明顯,如印刷品

江西博物館一頂級(jí)藏品疑贗品:從故宮借出,假的太明顯,如印刷品

娜烏和西卡
2025-12-28 10:44:33
上將唐天標(biāo)同志簡歷

上將唐天標(biāo)同志簡歷

大運(yùn)河時(shí)空
2025-12-27 08:20:03
大自然為什么要限制光速為每秒30萬,原因到底是什么?

大自然為什么要限制光速為每秒30萬,原因到底是什么?

宇宙時(shí)空
2025-12-26 11:48:28
中國用琉球捏準(zhǔn)了日本的痛處,高市早苗對(duì)形勢(shì)極為焦慮

中國用琉球捏準(zhǔn)了日本的痛處,高市早苗對(duì)形勢(shì)極為焦慮

智慧天氣通
2025-12-29 03:09:31
世界上最美的石頭,難得一見!

世界上最美的石頭,難得一見!

中國藝術(shù)家
2025-12-19 05:23:23
算了,不寫陳志了,他就是一個(gè)“臉大頭圓光有錢”的馬仔

算了,不寫陳志了,他就是一個(gè)“臉大頭圓光有錢”的馬仔

熱點(diǎn)菌本君
2025-11-03 15:04:39
準(zhǔn)備開搶!美媒更新交易市場(chǎng)5條大魚:數(shù)隊(duì)緊盯哈登+勇士看上濃眉

準(zhǔn)備開搶!美媒更新交易市場(chǎng)5條大魚:數(shù)隊(duì)緊盯哈登+勇士看上濃眉

鍋?zhàn)踊@球
2025-12-28 21:23:38
65歲大爺找老伴遭對(duì)方嫌棄退休金太少,大爺怒懟:8千你還嫌少?

65歲大爺找老伴遭對(duì)方嫌棄退休金太少,大爺怒懟:8千你還嫌少?

惟來
2025-12-26 20:30:01
格雷:剛進(jìn)球的時(shí)候沒看到隊(duì)友為我慶祝,我當(dāng)時(shí)有點(diǎn)困惑

格雷:剛進(jìn)球的時(shí)候沒看到隊(duì)友為我慶祝,我當(dāng)時(shí)有點(diǎn)困惑

懂球帝
2025-12-29 03:56:03
1死8傷,寧夏一企業(yè)發(fā)生爆燃!

1死8傷,寧夏一企業(yè)發(fā)生爆燃!

新浪財(cái)經(jīng)
2025-12-28 19:19:09
不出3年,國內(nèi)貶值最快的不是現(xiàn)金,而是這4樣?xùn)|西,別花冤枉錢

不出3年,國內(nèi)貶值最快的不是現(xiàn)金,而是這4樣?xùn)|西,別花冤枉錢

平說財(cái)經(jīng)
2025-11-25 19:21:54
特朗普的“機(jī)關(guān)槍”又要生娃去,要兒女雙全了

特朗普的“機(jī)關(guān)槍”又要生娃去,要兒女雙全了

新民晚報(bào)
2025-12-28 09:03:32
忍著劇烈癌痛,拜登當(dāng)著全世界的面,給中國下了一份戰(zhàn)書

忍著劇烈癌痛,拜登當(dāng)著全世界的面,給中國下了一份戰(zhàn)書

boss外傳
2025-12-27 18:05:03
300555,已收到股東代償款,擬申請(qǐng)摘帽

300555,已收到股東代償款,擬申請(qǐng)摘帽

證券時(shí)報(bào)e公司
2025-12-28 20:26:20
王詩齡好慘,參加糖心旦晚宴,刻意與何超蓮挨著,卻被何超蓮無視

王詩齡好慘,參加糖心旦晚宴,刻意與何超蓮挨著,卻被何超蓮無視

小娛樂悠悠
2025-12-28 09:50:38
防守端的作用相當(dāng)明顯!火箭鋒線新援迅速找到了自己的狀態(tài)?

防守端的作用相當(dāng)明顯!火箭鋒線新援迅速找到了自己的狀態(tài)?

稻谷與小麥
2025-12-29 01:31:24
首鋼受損!陳盈駿鼻骨骨折,北京大將下狠手,下輪南北面具俠對(duì)戰(zhàn)

首鋼受損!陳盈駿鼻骨骨折,北京大將下狠手,下輪南北面具俠對(duì)戰(zhàn)

體壇鑒春秋
2025-12-28 15:38:03
真不想開戰(zhàn),美國攔截我方油輪后,中國在聯(lián)合國說6個(gè)“反對(duì)”

真不想開戰(zhàn),美國攔截我方油輪后,中國在聯(lián)合國說6個(gè)“反對(duì)”

Ck的蜜糖
2025-12-29 03:42:34
俞敏洪說:“我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好

俞敏洪說:“我有兩個(gè)大學(xué)男同學(xué)已經(jīng)死了,都是家庭條件很好

忠于法紀(jì)
2025-11-29 22:02:26
2025-12-29 05:19:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

頭條要聞

途經(jīng)俄羅斯航班墜機(jī)38人身亡 機(jī)身或被彈片擊中

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

旅游
房產(chǎn)
數(shù)碼
教育
公開課

旅游要聞

什剎海這三條斜街胡同彰顯獨(dú)特意蘊(yùn)

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

數(shù)碼要聞

曝光的AirPods原型機(jī)顯示,蘋果曾計(jì)劃推出多彩配色方案!

教育要聞

高校忙著“保就業(yè)”,但崗位仍在“結(jié)構(gòu)性收縮”,畢業(yè)生太難了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版