網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Kimi K2.5 深度實測：變強了，但尚未「封神」｜AI 上新

2026-01-31 13:06:12　來源: 極客公園

北京舉報

分享至

人人可用的 AI Agent，應(yīng)該是什么樣的？

作者｜徐珊

編輯｜靖宇

三天，四款模型，N 個產(chǎn)品。這就是 2026 年開年，大模型行業(yè)展現(xiàn)出的態(tài)勢。

沉寂了小半年，Kimi 顯然不想將 2026 年的第一個有關(guān)通用大模型的話題權(quán)交給其他人。

這次，Kimi 終于將產(chǎn)品線補齊，無論是視覺感知，還是 Agent 能力，又或者編程能力，Kimi 都用 Kimi K2.5 這款萬億大模型證明自己在通用領(lǐng)域的實力。

Kimi K2.5 在多個領(lǐng)域的最新評分｜圖源：Kimi

簡單來說，Kimi K2.5 在推理能力、認知圖譜上都更強了。

基于 Kimi K2.5 的能力，Kimi 現(xiàn)在能夠提供單個性能的 Kimi Agent 和多個 Agent 協(xié)作的 Agent Swarm（多智能體集群），允許多個 AI Agent 并行協(xié)作處理復(fù)雜任務(wù)的架構(gòu)。

此外，Kimi K2.5 還打造了 Kimi Code 平臺，它能接入本地開發(fā)環(huán)境，可閱讀項目文件、分析代碼結(jié)構(gòu)，并據(jù)此自動生成或修改代碼、執(zhí)行測試與命令。

整體產(chǎn)品線來說，Kimi K2.5 是針對普通人的，相當(dāng)于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序員的，開源代碼放在 GitHub 上了，有算力都可以嘗試使用，但對普通人來說，使用門檻仍然較高。

不知道是實際體驗的用戶真的變多了，還是 Kimi 想要用戶付費訂閱的意愿變得更強了，在我們體驗的過程中，Kimi 官網(wǎng)常常跳出正在「和很多人溝通，加入訂閱能夠優(yōu)先排隊喲」的提示界面，一時間幻視打開某些視頻平臺，觀看 3 分鐘開始付費。并且，Kimi Code 和 Kimi Agent Swarm 暫時沒有免費體驗機會。

整體體驗下來，Kimi K2.5 本身在長文本理解、思考維度以及「通人性」變得更強了，一些文本深度分析能力也有了不小的進步。尤其是在視覺理解能力上，效果超出預(yù)期。

基于 Kimi K2.5 的 Agent 功能，我們在測試了網(wǎng)頁制作、行業(yè)報告撰寫以及新聞圖表等多個維度。在網(wǎng)頁制作的程序上，Agent 表現(xiàn)的效果很好，但是在專業(yè)性的內(nèi)容制作，以及帶有審美感的新聞圖表上展現(xiàn)出來的能力都比較一般，沒有特別驚艷。

此外，在調(diào)用相關(guān) Agent 能力時，模型運轉(zhuǎn)的流暢程度也比較一般，偶爾會出現(xiàn)停止運轉(zhuǎn)的情況，常常一個復(fù)雜 Agent 指令需要運行 30 分鐘左右才能看到結(jié)果。而且對于有明顯矛盾的指令也會直接響應(yīng)，沒有反饋或者詢問環(huán)節(jié)。

2026 剛開年，這場有關(guān) AI 自動化執(zhí)行的火已經(jīng)開始燒得越來越旺了。Kimi 作為作為較早推出 Agent 產(chǎn)品的通用大模型廠商，也借著 Kimi K2.5 表明了自己在通用領(lǐng)域的站位和思考，Kimi K2.5 也算是給正在急著嘗試玩轉(zhuǎn) Agent 的中國開發(fā)者們，一個值得選擇的工具。

欄目作者召集

極客公園的新欄目「AI 上新」，將帶大家體驗最新的 AI 應(yīng)用和硬件，讓你成為 AI 時代「最靚的仔」！

現(xiàn)在，我們也向所有喜歡嘗鮮和體驗 AI 的同學(xué)發(fā)出召集，只要你發(fā)現(xiàn)并體驗了新的 AI 應(yīng)用或者功能，按照格式（參考案例：）向欄目投稿，在極客公園公眾號發(fā)布，不僅能獲得相應(yīng)稿費，且會為你「報銷」AI 應(yīng)用的訂閱費用。

同時，優(yōu)秀作者還有機會進入極客公園 AI 體驗群，獲得最新 AI 應(yīng)用和工具的內(nèi)測資格，參加極客公園專屬相關(guān) AI 活動，和 AI 應(yīng)用創(chuàng)始人一對一溝通。

AGI 太久，只爭朝夕，讓一部分人先 AI 起來吧！投稿、進群請掃描下方二維碼添加極客小助手微信

Kimi K2.5，變強了，

但未必變得更聰明了？

為驗證 Kimi K2.5 的實際能力邊界，我們選取了三個關(guān)鍵維度進行實測：通過長文本理解考驗基礎(chǔ)能力，通過視覺分析考驗多模態(tài)能力，再通過創(chuàng)意設(shè)計考驗審美與執(zhí)行。

首個測試聚焦其最擅長的長文本處理。我們分別喂了一篇 40 萬字的長篇小說給 Kimi K2.5 和 Qwen3-Max，讓其分析主要關(guān)系人物圖以及梳理主角成長路線。

Qwen3-Max 的分析速度非?？?，但是給出的關(guān)系圖也比較簡單，包括人物成長經(jīng)歷分析上理解比較淺層，但框架正確。Kimi K2.5 則是給出較為詳盡的關(guān)系圖譜，并且對于小說中出現(xiàn)的其他人物均能夠按照勢力、關(guān)系遠近進行梳理。從小說內(nèi)容理解上，比 Qwen3-Max 要更深一步，并且大多數(shù)小說暗線也能夠理解，對于人物身份走向的揣測也基本正確。

Qwen3-Max 分析結(jié)果圖源｜極客公園

Kimi K2.5 分析結(jié)果圖源｜極客公園

隨后，我們追問了一個開放性回答，有關(guān)對主人公最重要的人是誰？Qwen3-Max 則給出了多個角度，避開唯一性，而 Kimi K2.5 則選擇多種角度分析，還能夠從多維度上比較后，給出最終答案，從思考能力、推理方向以及理解能力上都有比較明顯的進步。

Qwen3-Max 分析結(jié)果圖源｜極客公園

Kimi K2.5 分析結(jié)果圖源｜極客公園

其次，我們測試了 Kimi K2.5 的視覺理解能力，將其與 Gemini 模型對比。我們上傳了一張 3 頁 PDF 的指令集，并且附有分析例圖，讓 Kimi K2.5 來分析一段 30 秒的網(wǎng)球動作，并給出錯誤姿勢糾正。首先在視頻格式上，Kimi K2.5 能夠支持蘋果 MOV 模式，形式更加多樣化。但是，其單段視頻內(nèi)存限制仍在 100MB 以內(nèi)，也就是大約 3 分鐘以內(nèi)。

這次結(jié)果比較意外，Kimi K2.5 能夠讀懂復(fù)雜的長指令，并且給出合適的指導(dǎo)建議，并且非常詳細，也相對專業(yè)。

Kimi K2.5 測試結(jié)果圖源｜極客公園

我們之前曾用 Gemini 做過相似的測試，得出結(jié)果圖如下，整體看來兩者對圖片分析能力不分上下，但 Kimi K2.5 對指令理解相對更優(yōu)。

Gemini 測試結(jié)果圖源｜極客公園

最后，我們來考驗 Kimi K2.5 的審美能力，同樣將其與 Qwen3-Max 進行比較。我們上傳了一段復(fù)雜指令，讓其基于《中國城市公共充電樁空間公平性報告》打造一個數(shù)據(jù)新聞，最終考驗其數(shù)據(jù)新聞是否能夠達到專業(yè)媒體水準(zhǔn)。

但最后呈現(xiàn)效果，并不如預(yù)期，呈現(xiàn)的效果比較簡陋。但對于整體復(fù)雜涉及到多模態(tài)的任務(wù)，完成得比較仔細。但數(shù)據(jù)來源并沒有調(diào)用真實參考信息，圖表設(shè)計也比較基礎(chǔ)，沒有太多審美感。

Kimi K2.5 測試結(jié)果圖源｜極客公園

為了再給 Kimi K2.5 一次機會，我們還嘗試給出一張素材圖，和一段非常詳盡的指令集，讓其給我們設(shè)計一張新聞頭圖以考驗其審美能力。但是輸出的結(jié)果來看，PPT 感非常濃。

Kimi K2.5 測試結(jié)果圖源｜極客公園

不過，Kimi K2.5 也算交出了一份答卷出來。我們帶著同樣的問題問了問 Qwen3-Max，Qwen3-Max 直接婉拒了回答。

Qwen3-Max 測試結(jié)果圖源｜極客公園

從目前的測試效果來看，審美或許還是一個主觀的視角，在多類不同領(lǐng)域的審美訓(xùn)練下，大模型對于「美」的定義和認知仍有一定差距。

上新 Skills 案例庫，

Kimi 開始學(xué)會多想一步

打開 Kimi 官網(wǎng)，我們能看到 Kimi 官網(wǎng)的對話框內(nèi)已經(jīng)添加了 Agent 選項框，用戶可以隨時調(diào)用 Agent 程序。并且，對話框中還新添了一欄，可以讓用戶儲存常用指令。

在對話框下，Kimi 提供了不少智能 Agent 參考案例，涉及網(wǎng)頁應(yīng)用、移動應(yīng)用、數(shù)據(jù)分析三大類，提供了大約 20 個案例參考。只要你選擇做同款，就會呈現(xiàn)完整的指令集，某種程度上也算是上了 Skills 案例庫。

Kimi K2.5 參考測試案例圖源｜極客公園

數(shù)據(jù)分析上，我們讓 AI 跑了一下英偉達財報分析。在參考頁面中，我們看到的數(shù)據(jù)分析非常的詳盡，但是等我們正式開始體驗的時候，發(fā)現(xiàn) Agent 也并不是完美。

其中，最為明顯的是，在我們最開始的一版提示詞有明顯矛盾點的時候，AI 并不會和你確認問題的選項，而是按照自己的推測去做后續(xù)執(zhí)行。這也意味著如果你特別信任 AI，完全不看后續(xù)的執(zhí)行路徑的話，一個指令錯誤可能會造成整個 Agent 程序走向完全錯誤。

我們在官網(wǎng)運行跑完整個程序，15 張 PPT 大約跑了接近 30 分鐘。并且，在 Prompt 幾乎沒有變動的情況下，兩個 Agent 給出完全不同的結(jié)論推理。

參考案例給出的推論是，「英偉達財報效應(yīng)確實存在」，而我們跑出來的結(jié)果則是「財報發(fā)布并非上漲催化劑，財報交易策略無效」。

同樣的 Prompt，卻給出了不同的答案，或許也從一定程度說明了當(dāng)下 Agent 屬于能用，但不夠可靠，仍需使用者擁有明辨是非的能力，同時缺乏主動意圖反饋機制，容錯性不足。

第二次，我們自己參考 Prompt，編寫了一段提示詞。

測試 Kimi K2.5 提示詞圖源｜極客公園

又等待了接近半小時后，我們看到了一個初步的網(wǎng)頁設(shè)計界面。從頁面設(shè)計來看，基本上能夠滿足原提示詞的指令，并且符合一個科技公司常見的主頁界面。

Kimi K2.5 測試結(jié)果圖源｜極客公園

但是在理解能力，還是會有一些小問題，比如說，圖上的品牌宣言，一般會是被隱去而不是用直接作為標(biāo)題顯示。這也說明 AI 在理解和執(zhí)行上還是有需要改進的地方。

也會有些令人驚喜的地方，比如在網(wǎng)頁設(shè)計提示詞上我們并沒有提到相關(guān)聯(lián)系方式收集等，但是 Kimi 參考了大多數(shù)的網(wǎng)站之后，可以直接在官網(wǎng)設(shè)計建聯(lián)頁面。

Kimi K2.5 測試結(jié)果圖源｜極客公園

甚至在底欄的一些設(shè)計上也比較貼心，有外置鏈接，甚至有小紅書，也是十分與時俱進了。

Kimi K2.5 測試結(jié)果圖源｜極客公園

體驗完之后，能夠明顯感受到，當(dāng)下 Agent 能力未必能夠在執(zhí)行上做到完美，但是能夠通過指令的意圖豐富整個執(zhí)行細節(jié)，能夠明白核心需求點是什么，給出更多的意外之喜。并且，Kimi 能夠?qū)⒕W(wǎng)頁鏈接直接部署到位，給出預(yù)覽和安裝包，供用戶使用。

這是我們的測試結(jié)果鏈接：https://e56oqk3weoe7k.ok.kimi.link/#

此外，由于 Kimi Code 和 Agent Swarm 功能均需要高級會員才可以使用，因此我們很可惜暫時不能得出第一手測試結(jié)果。據(jù)了解，Kimi K2.5 的 Agent Swarm 功能采用分布式協(xié)同架構(gòu)，最多可并行調(diào)度與管理 100 個子智能體。每個智能體均配備獨立的工作記憶，能夠自主執(zhí)行任務(wù)，并遵循高效通信協(xié)議，僅在關(guān)鍵節(jié)點將處理結(jié)果匯總至中央調(diào)度器，從而大幅提升復(fù)雜任務(wù)的解決效率。

Agent 轉(zhuǎn)向之年

從基于 Kimi K2.5 視覺理解的出色表現(xiàn)，我們可以預(yù)見多模態(tài)的 Agent 將成為 2026 年的競爭焦點，我們也嗅到了一些 2026 年模型界不一樣的轉(zhuǎn)向。

首先是，視覺能力的增強。無論是 Claude 還是 DeepSeek，在琢磨了一年的文本交互后，終于轉(zhuǎn)向視頻能力，補強此前視頻分析的短板。視頻理解能力超強帶來的不僅是用戶主動上傳視頻信息的分析更強，更是未來一些被動記錄視頻能力發(fā)揮更多的空間，會帶來更多玩法。

其次，從目前通用模型生態(tài)來看，開源模型的活躍度在社區(qū)滲透和第三方集成上展現(xiàn)出更強能力，前有 Gemini、 Claude、GPT 對比，后有 Qwen3- max，Kimi K2.5 和 DeepSeek。Kimi K2.5 的開源雖然是在意料之外，但也算情理之中。但值得注意的是，消費者的付費意愿養(yǎng)成仍需依賴閉源模型的高端功能。

第三，是所有的通用大模型開始爭取更好的利潤，更多的付費形式。這次 Kimi Code 功能和 Agent 集群功能直接提供給高端付費用戶，不開放任何試用，且 Kimi 的付費模式也開始變化，最高 199 元每月。OpenAI 要賣廣告，Gemini 要上 Chrome 幾乎都是一個原因，開源節(jié)流，模型公司們開始兩手抓資金流向。

最后，通用模型公司們已經(jīng)開始為 Agent 走入垂直場景做準(zhǔn)備。Kimi K2.5 上線的 Agent Swarm 功能就是幫助更多企業(yè)打造垂類應(yīng)用時能有模型底座支撐，方便企業(yè)能夠通過不同類型的 Agent 扮演企業(yè)中的不同員工，各司其職，最終協(xié)同辦公。

如果說 2025 年 DeepSeek 將模型成本降到無限低，是讓人看到模型走向千行百業(yè)的關(guān)鍵之一。2026 年的開端，似乎預(yù)示圍繞 AI 自動化的一切即將開始改變。從單個 Agent，走向幾個 Agent，再到一群 Agent。Kimi K2.5 的出現(xiàn)，代表已經(jīng)有通用大模型廠商看到這一趨勢，并做出改變。

目前，從 Manus 到豆包手機，再到 Clawdbot，其實從模型誕生的第一天開始，人們對 AI 自動化的探索并未停止。當(dāng)模型公司、應(yīng)用公司以及硬件公司都瞄準(zhǔn)一個方向發(fā)展，或許 2026 年也將會是 Agent 逐漸成熟，落地場景的一年。

*頭圖來源：Kimi

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你覺得 Kimi K2.5 還有哪些玩法？

曝 SpaceX 正評估與特斯拉或 xAI 合并，以作為 IPO 之前另一種選擇。

點贊關(guān)注極客公園視頻號，

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.