網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

剛剛，楊植麟親自開源Kimi K2.5！國產(chǎn)大模型打架的一天

2026-01-27 18:27:14　來源: 機器之心Pro

北京舉報

分享至

編輯 | Panda、澤南

今天真是國產(chǎn)大模型打架的一天！昨晚千問上新模型，今天 DeepSeek 開源 OCR 2。

中午，Kimi 也開卷，網(wǎng)站、App、API 開放平臺和編程助手產(chǎn)品 Kimi Code 模型版本全面更新，Kimi K2.5 來了。

月之暗面創(chuàng)始人楊植麟還首次出鏡，向大家分享了新模型的能力。

Kimi K2.5 是一個擁有 1 萬億參數(shù)（1 trillion）的 MoE 基礎(chǔ)模型。相較前代，K2.5 的視覺理解能力大幅增強（可以處理視頻了），Coding 能力也有了明顯提升，更重要的是，K2.5 依然開源。

Kimi K2.5 在包括 HLE、BrowseComp 和 DeepSearchQA 等極具挑戰(zhàn)性的 agent 評測上取得了當(dāng)前最佳表現(xiàn)（SOTA），比如 HLE（人類最后考試）上拿到 50.2%，BrowseComp 拿到了 74.9%。

同時，K2.5 的編程能力也非常突出，它在 SWE-bench Verified 上拿到了 76.8 %，縮小了與頂尖閉源模型之間的差距，K2.5 在多項視覺理解評測上也實現(xiàn)了當(dāng)前開源最佳效果。

可以看到，在核心基準(zhǔn)測試上，Kimi K2.5 的成績與 Opus 4.5、GPT 5.2 XHigh 和 Gemini 3.0 Pro 等當(dāng)前最強大閉源模型基本相當(dāng)，部分評分還能超出。

值得一提的是，Kimi K2.5 在多項評測中優(yōu)于 GPT-5.2-xhigh 的同時，運行成本只有 GPT-5.2-xhigh 的幾分之一。

有了兩個月前 K2 Thinking 的熱度打底，這回 K2.5 的發(fā)布可謂熱鬧空前。在社交網(wǎng)絡(luò)上，人們紛紛試用新模型并分享效果。

有網(wǎng)友表示，這才是中國大模型（沒有定語）最優(yōu)秀的水準(zhǔn)，現(xiàn)在壓力留給 DeepSeek R2 了。

截圖即代碼：Coding 也有了「審美」

需要注意到的是：Kimi K2.5 是一個全能模型，不管是視覺還是文本，對話還是 agent，思考還是非思考 —— 所有這些能力，全都集中在一個模型里（all in one，Unified model）。

既然是視覺能力提升 + 代碼能力增強，Kimi 模型現(xiàn)在就主打一個圖像轉(zhuǎn)代碼 —— 不僅不需要寫代碼，連提示詞工程也省了，畫一個設(shè)計稿交給 AI 就能得到你想要的代碼。

有時候你想修改界面，光靠文字描述說不清楚，現(xiàn)在也只需要給 AI 一張圖就可以了。你可以在 UI 上圈出你想改的地方，剩下的交給 AI 來完成就行。

如果在別的工具里設(shè)計好了動畫效果，你也可以錄屏成一段視頻給 Kimi 看，它就會自動理解并寫成代碼復(fù)現(xiàn)出來。

該說不說，確實有了一點指揮手下干活的意思。

在加入了視覺能力之后，Kimi K 2.5 不僅有很會寫代碼，還具備了一定的「設(shè)計審美」—— 其結(jié)合了一定的視覺能力，能像專業(yè)設(shè)計師出品一樣，構(gòu)建出高級審美和動效的網(wǎng)頁。

讓大模型有更好的「品味」，這就不得不讓人想到兩個多星期前，月之暗面創(chuàng)始人楊植麟在 AGI-Next 前沿峰會上的演講。他曾提到，做模型的過程本質(zhì)上是在創(chuàng)造一種世界觀，讓 AI 有更好的 taste，是 Kimi 目前發(fā)展的重點。

除了前端設(shè)計，Kimi 現(xiàn)在也深入軟件工程領(lǐng)域，基于 Kimi K2.5 的 Kimi Code 今天正式發(fā)布，它能在終端里運行，并無縫集成到 VSCode、Cursor、Zed 等 IDE 中。在使用過程中，Kimi Code 支持人們輸入圖片和視頻，它還能自動發(fā)現(xiàn)并把你現(xiàn)有的技能和 MCP 遷移到 Kimi Code 的工作環(huán)境中。

楊植麟給出方向才兩個星期，我們就可以體驗基于新路線的 AI 了。

自帶 Agent「項目組」

為了解決真實世界中的復(fù)雜難題，Kimi K2.5 引入了「Agent Swarm（Agent 集群）」功能，目前在 Kimi.com 上處于測試階段，高級付費用戶可獲得免費額度。

在處理復(fù)雜任務(wù)時，K2.5 不再是單線程執(zhí)行任務(wù)，而是以指揮者的身份現(xiàn)場調(diào)度并協(xié)同最多達 100 個 Agent 分身并行工作，最多支持 1500 次工具調(diào)用，速度比單智能體的配置還要快 4.5 倍。

現(xiàn)在，大模型經(jīng)過了并行智能體強化學(xué)習(xí) (PARL) 訓(xùn)練，智能體集群是由 Kimi K2.5 自動創(chuàng)建和編排的，無需任何預(yù)定義。

PARL 使用可訓(xùn)練的協(xié)調(diào)器代理將任務(wù)分解為可并行化的子任務(wù)，每個子任務(wù)由動態(tài)實例化的凍結(jié)子代理執(zhí)行。與順序執(zhí)行代理相比，并發(fā)運行這些子任務(wù)可顯著降低端到端延遲。

由于獨立運行的子智能體提供的反饋存在延遲、稀疏和非平穩(wěn)性，訓(xùn)練一個可靠的并行編排器極具挑戰(zhàn)性。常見的故障模式是串行崩潰，即編排器盡管具備并行能力，卻默認(rèn)執(zhí)行單智能體任務(wù)。為了解決這個問題，PARL 采用了分階段獎勵塑造策略，在訓(xùn)練初期鼓勵并行性，并逐步將重點轉(zhuǎn)移到任務(wù)成功上。

這種并行處理能力將原本需要數(shù)天完成的工作壓縮至十幾分鐘。

Agent 集群的規(guī)?；?xùn)練是個相當(dāng)有挑戰(zhàn)的問題。月之暗面表示他們?yōu)榇酥貥?gòu)了強化學(xué)習(xí)基建，并專門優(yōu)化了訓(xùn)練算法，以確保能達到極致的效率和性能。

在 Kimi 給出的例子中，給 Kimi Agent 集群投喂 40 篇關(guān)于心理學(xué)和 AI 的論文，agent 能按順序把論文通讀一遍，接著衍生出幾個子 agent，分別撰寫報告的不同章節(jié)。最后由主 agent 負(fù)責(zé)驗收，所有內(nèi)容匯總生成了一份幾十頁的專業(yè) PDF 綜述。

Kimi K2.5 還將智能體引入到了現(xiàn)實世界的知識工作中。

K2.5 Agent 可以端到端地處理高密度、大規(guī)模的辦公工作。它可以處理大量高密度的輸入，協(xié)調(diào)多步驟工具的使用，并通過對話直接提供專家級的輸出，覆蓋文檔、電子表格、PDF 和幻燈格式。

在 Kimi K2.5 時代，我們可以讓智能體完成一些高級的任務(wù)，如在 Word 中添加注釋，使用透視表構(gòu)建金融模型，在 PDF 中編寫 LaTeX 公式；智能體的輸出能力達到了前所未有的長，可以輸出一萬字的論文或 100 頁的文檔。

一手實測：從猜謎到「手搓」3D 公寓

打開官網(wǎng)，可以看到 Kimi 模型已經(jīng)全系列更新，我們還能看到處于 Beta 測試中的 K2.5 Agent 集群。

Kimi-K2.5 系列模型名稱中英對照版。

下面我們就來逐個測試一番這些新模型。

首先上場的是 K2.5 Instant，它面對的任務(wù)也最簡單 —— 一個加密小游戲：請用一段看似是「深夜電臺點歌詞」的文字，秘密藏入關(guān)于「明天下午三點撤離」的信息。要求讀起來必須像純粹的文學(xué)，毫無違和感。

Kimi K2.5 小試牛刀，輕輕松松一秒完成任務(wù)。

接下來該上難度了。下面我們將 Kimi K2.5 切換至思考模式，測試一下其多模態(tài)推理能力。

這里我們找到了西班牙室內(nèi)設(shè)計師 I?aki Aliste Lizarralde 手繪的一張《生活大爆炸》謝爾頓公寓的平面圖，先來一個基本考驗，看看它能否正確識別這張圖的背景：

效果非常好！Kimi K2.5 根據(jù)圖上標(biāo)注進行了正確識別，并說明了相關(guān)背景。接下來我們看看 K2.5 能否正確理解這張圖暗含的空間結(jié)果，并將其重構(gòu)成 3D 版本。

4 倍速視頻。

生成時長兩分半，K2.5 最終得到了如下所示的結(jié)果：

效果很不錯了，但也看得出來這個 3D 圖僅給出了大致輪廓，缺少了沙發(fā)、桌椅、床等許多細(xì)節(jié)，另外這份 3D 圖中的所有房間都是方形的，與參考圖也差別很大。同時，繼續(xù)讓 K2.5 Thinking 生成卻又遭遇了代碼長度限制（10000 字符）。但沒有關(guān)系，那就讓 K2.5 Agent 登場吧。

這一次，由于我們重點強調(diào)了細(xì)節(jié)，因此分析和處理時長也是大大增加（近 20 分鐘），代碼量自然也大增（1042 行）。執(zhí)行過程中，我們可以看到 Kimi 智能體的任務(wù)規(guī)劃和逐步執(zhí)行。不僅如此，智能體還將得到的結(jié)果進行了部署，讓我們可以輕松訪問：https://ijohefkudygve.beta-ok.kimi.link/

10 倍速視頻。

最終，得到的結(jié)果雖還算不上完美，但也沒讓我們失望，它不僅大體準(zhǔn)確地還原了生活大爆炸的兩個主要公寓的細(xì)節(jié)，還額外提供了線框模式與頂蓋開源：

接下來，讓我們重點來看看正處于 Beta 測試中的 K2.5 Agent Swarm。在該模式下，我們可以讓多個智能體同時處理你的任務(wù)。這里，我們構(gòu)想了一個相當(dāng)科幻的任務(wù)：

請為一種「生活在深海、通過皮膚發(fā)光交流」的智慧生物開發(fā)一套基礎(chǔ)詞匯表。要求包含語法結(jié)構(gòu)、200 個基礎(chǔ)詞條、以及 3 篇該物種的創(chuàng)世神話。要求集群保證所有自造詞匯在語音學(xué)和語義學(xué)上具有高度的內(nèi)在邏輯一致性。

可以看到，任務(wù)一開始，Kimi 創(chuàng)建了四個不同的智能體：語音學(xué)設(shè)計師寧一、語法結(jié)構(gòu)師少年伽利略、詞匯設(shè)計師靖川和神話創(chuàng)作者黎教授。

而在第一階段的設(shè)計工作中，語音學(xué)和語法結(jié)構(gòu)可以并行進行，因此我們能看到寧一和少年伽利略一起開工干活，構(gòu)建了這門新語言的基礎(chǔ)。

之后，該創(chuàng)建詞匯了。這時候 Kimi 根據(jù)需求又新增了一些并行運行的智能體，讓它們分別就不同主題創(chuàng)建詞匯。

整個過程耗時 38 分鐘，我們也見證了一門新語言「流明語」的誕生。這門語言以不同形式的光為音素，并且具備獨特的并行從句語法和空間格系統(tǒng)。不僅如此，Kimi 還非常貼心地設(shè)計了一套羅馬化轉(zhuǎn)寫系統(tǒng)。

20 倍速視頻。

最后，我們來測試一下 Kimi Code。Kimi Code 提供兩種使用方式，一種是簡單一句指令 uv tool install --python 3.13 kimi-cli 安裝 Kimi CLI，另一種方式將其配置到 Claude Code 等第三方工具中。

下面我們就通過官方的 Kimi CLI 簡單測試一下 Kimi Code。安裝配置好以后，我們先讓 Kimi Code 創(chuàng)建一個黃金價格監(jiān)控器：

創(chuàng)建一個黃金與白銀價格的監(jiān)控器，當(dāng) 24 小時內(nèi)的價格波動超過 1% 時，給我發(fā)送通知。

4 倍速視頻。

可以看到，整個執(zhí)行過程耗時僅 4 分鐘左右，但第一輪交互之后，得到的結(jié)果只是一個需要自行配置 API 的程序和一個演示 demo 程序。盡管如此，效果也是相當(dāng)令人滿意的。

有意思的是，在這個過程中我們還見證了 Kimi Code 遭遇錯誤并自動解決問題的強大能力。

當(dāng)然，目前的這個程序雖然可用，但需要自己去配置 API，這當(dāng)然是有些麻煩的，而有 Kimi Code 的我們自然可以輕松避免這些麻煩，直接一句指令就能讓其進一步執(zhí)行，直接配置一個免費的 API。

4 倍速視頻。

很快，Kimi Code 就完成了任務(wù)，運行看看效果：

可以看到，此時的金銀價格已經(jīng)正確反映了實時價格。當(dāng)然我們也還可以讓 Kimi Code 進一步執(zhí)行，比如顯示價格改成以人民幣 / 克計價、將這個 Python 程序打包成一個 .exe、配置提醒音樂和彈窗、實現(xiàn)任務(wù)欄實時顯示等等。

但正如其它類似工具一樣，Kimi Code 同樣并非編程專屬工具，借助它搭配合適的配置，我們也能讓其成為工作中的強大助力。比如我們可以使用 Kimi Code 輕松實現(xiàn)文件批處理。舉個例子，對于我們的每日選題 docx 文檔，我們可以讓 Kimi Code 基于 obsidian-skills 將它們批量處理成兼容 Obsidian 的格式并打好合適的標(biāo)簽。

基于 obsidian-skills 將這些每日選題總結(jié)文檔處理成兼容 Obsidian 的 Markdown 格式并打好合適的標(biāo)簽。

4 倍速視頻。

可以看到，Kimi Code 不到兩分鐘就完成了對所有 94 個文件的正確處理，上下文占用量也僅僅剛超過 10%。在此過程中，也能注意到 Kimi Code 確實正確調(diào)用了 obsidian-skills，得到的結(jié)果也非常讓人滿意：yaml、callout 等的處理都非常正確。

整體體驗下來，我們認(rèn)為 Kimi 2.5 在智能體能力上已經(jīng)足以比肩前沿模型，尤其是其智能體集群模式在解決復(fù)雜任務(wù)上的表現(xiàn)更是亮眼。

結(jié)語

中國的開源模型正在逐漸成為新的標(biāo)準(zhǔn)，并成為規(guī)則的制定者。Kimi K2.5 的發(fā)布，又給全球開源大模型樹立了新的標(biāo)桿。

與此同時，基于 K2.5 視覺、智能體能力的發(fā)展，AI 解鎖了更多在真實世界中解決復(fù)雜問題的能力。

現(xiàn)在 AI 在寫代碼時有了審美，上百個智能體能夠協(xié)同工作，我們距離 AGI 又近了一步。

文中視頻鏈接：https://mp.weixin.qq.com/s/oVmOyqpcvmjoSGoap3BqTQ

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.