国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi K2.5 深度實測:變強了,但尚未「封神」|AI 上新

0
分享至


人人可用的 AI Agent,應(yīng)該是什么樣的?


作者|徐珊

編輯|靖宇

三天,四款模型,N 個產(chǎn)品。這就是 2026 年開年,大模型行業(yè)展現(xiàn)出的態(tài)勢。

沉寂了小半年,Kimi 顯然不想將 2026 年的第一個有關(guān)通用大模型的話題權(quán)交給其他人。

這次,Kimi 終于將產(chǎn)品線補齊,無論是視覺感知,還是 Agent 能力,又或者編程能力,Kimi 都用 Kimi K2.5 這款萬億大模型證明自己在通用領(lǐng)域的實力。


Kimi K2.5 在多個領(lǐng)域的最新評分|圖源:Kimi

簡單來說,Kimi K2.5 在推理能力、認知圖譜上都更強了。

基于 Kimi K2.5 的能力,Kimi 現(xiàn)在能夠提供單個性能的 Kimi Agent 和多個 Agent 協(xié)作的 Agent Swarm(多智能體集群),允許多個 AI Agent 并行協(xié)作處理復(fù)雜任務(wù)的架構(gòu)。

此外,Kimi K2.5 還打造了 Kimi Code 平臺,它能接入本地開發(fā)環(huán)境,可閱讀項目文件、分析代碼結(jié)構(gòu),并據(jù)此自動生成或修改代碼、執(zhí)行測試與命令。

整體產(chǎn)品線來說,Kimi K2.5 是針對普通人的,相當(dāng)于模型性能迭代提高。Kimi Code 和 Kimi Agent 功能都是面向程序員的,開源代碼放在 GitHub 上了,有算力都可以嘗試使用,但對普通人來說,使用門檻仍然較高。

不知道是實際體驗的用戶真的變多了,還是 Kimi 想要用戶付費訂閱的意愿變得更強了,在我們體驗的過程中,Kimi 官網(wǎng)常常跳出正在「和很多人溝通,加入訂閱能夠優(yōu)先排隊喲」的提示界面,一時間幻視打開某些視頻平臺,觀看 3 分鐘開始付費。并且,Kimi Code 和 Kimi Agent Swarm 暫時沒有免費體驗機會。

整體體驗下來,Kimi K2.5 本身在長文本理解、思考維度以及「通人性」變得更強了,一些文本深度分析能力也有了不小的進步。尤其是在視覺理解能力上,效果超出預(yù)期。

基于 Kimi K2.5 的 Agent 功能,我們在測試了網(wǎng)頁制作、行業(yè)報告撰寫以及新聞圖表等多個維度。在網(wǎng)頁制作的程序上,Agent 表現(xiàn)的效果很好,但是在專業(yè)性的內(nèi)容制作,以及帶有審美感的新聞圖表上展現(xiàn)出來的能力都比較一般,沒有特別驚艷。

此外,在調(diào)用相關(guān) Agent 能力時,模型運轉(zhuǎn)的流暢程度也比較一般,偶爾會出現(xiàn)停止運轉(zhuǎn)的情況,常常一個復(fù)雜 Agent 指令需要運行 30 分鐘左右才能看到結(jié)果。而且對于有明顯矛盾的指令也會直接響應(yīng),沒有反饋或者詢問環(huán)節(jié)。

2026 剛開年,這場有關(guān) AI 自動化執(zhí)行的火已經(jīng)開始燒得越來越旺了。Kimi 作為作為較早推出 Agent 產(chǎn)品的通用大模型廠商,也借著 Kimi K2.5 表明了自己在通用領(lǐng)域的站位和思考,Kimi K2.5 也算是給正在急著嘗試玩轉(zhuǎn) Agent 的中國開發(fā)者們,一個值得選擇的工具。


欄目作者召集

極客公園的新欄目「AI 上新」,將帶大家體驗最新的 AI 應(yīng)用和硬件,讓你成為 AI 時代「最靚的仔」!

現(xiàn)在,我們也向所有喜歡嘗鮮和體驗 AI 的同學(xué)發(fā)出召集,只要你發(fā)現(xiàn)并體驗了新的 AI 應(yīng)用或者功能,按照格式(參考案例:)向欄目投稿,在極客公園公眾號發(fā)布,不僅能獲得相應(yīng)稿費,且會為你「報銷」AI 應(yīng)用的訂閱費用。

同時,優(yōu)秀作者還有機會進入極客公園 AI 體驗群,獲得最新 AI 應(yīng)用和工具的內(nèi)測資格,參加極客公園專屬相關(guān) AI 活動,和 AI 應(yīng)用創(chuàng)始人一對一溝通。

AGI 太久,只爭朝夕,讓一部分人先 AI 起來吧!投稿、進群請掃描下方二維碼添加極客小助手微信

01

Kimi K2.5,變強了,

但未必變得更聰明了?

為驗證 Kimi K2.5 的實際能力邊界,我們選取了三個關(guān)鍵維度進行實測:通過長文本理解考驗基礎(chǔ)能力,通過視覺分析考驗多模態(tài)能力,再通過創(chuàng)意設(shè)計考驗審美與執(zhí)行。

首個測試聚焦其最擅長的長文本處理。我們分別喂了一篇 40 萬字的長篇小說給 Kimi K2.5 和 Qwen3-Max,讓其分析主要關(guān)系人物圖以及梳理主角成長路線。

Qwen3-Max 的分析速度非???,但是給出的關(guān)系圖也比較簡單,包括人物成長經(jīng)歷分析上理解比較淺層,但框架正確。Kimi K2.5 則是給出較為詳盡的關(guān)系圖譜,并且對于小說中出現(xiàn)的其他人物均能夠按照勢力、關(guān)系遠近進行梳理。從小說內(nèi)容理解上,比 Qwen3-Max 要更深一步,并且大多數(shù)小說暗線也能夠理解,對于人物身份走向的揣測也基本正確。


Qwen3-Max 分析結(jié)果 圖源|極客公園


Kimi K2.5 分析結(jié)果 圖源|極客公園

隨后,我們追問了一個開放性回答,有關(guān)對主人公最重要的人是誰?Qwen3-Max 則給出了多個角度,避開唯一性,而 Kimi K2.5 則選擇多種角度分析,還能夠從多維度上比較后,給出最終答案,從思考能力、推理方向以及理解能力上都有比較明顯的進步。


Qwen3-Max 分析結(jié)果 圖源|極客公園


Kimi K2.5 分析結(jié)果 圖源|極客公園

其次,我們測試了 Kimi K2.5 的視覺理解能力,將其與 Gemini 模型對比。我們上傳了一張 3 頁 PDF 的指令集,并且附有分析例圖,讓 Kimi K2.5 來分析一段 30 秒的網(wǎng)球動作,并給出錯誤姿勢糾正。首先在視頻格式上,Kimi K2.5 能夠支持蘋果 MOV 模式,形式更加多樣化。但是,其單段視頻內(nèi)存限制仍在 100MB 以內(nèi),也就是大約 3 分鐘以內(nèi)。

這次結(jié)果比較意外,Kimi K2.5 能夠讀懂復(fù)雜的長指令,并且給出合適的指導(dǎo)建議,并且非常詳細,也相對專業(yè)。


Kimi K2.5 測試結(jié)果 圖源|極客公園

我們之前曾用 Gemini 做過相似的測試,得出結(jié)果圖如下,整體看來兩者對圖片分析能力不分上下,但 Kimi K2.5 對指令理解相對更優(yōu)。


Gemini 測試結(jié)果 圖源|極客公園

最后,我們來考驗 Kimi K2.5 的審美能力,同樣將其與 Qwen3-Max 進行比較。我們上傳了一段復(fù)雜指令,讓其基于《中國城市公共充電樁空間公平性報告》打造一個數(shù)據(jù)新聞,最終考驗其數(shù)據(jù)新聞是否能夠達到專業(yè)媒體水準(zhǔn)。

但最后呈現(xiàn)效果,并不如預(yù)期,呈現(xiàn)的效果比較簡陋。但對于整體復(fù)雜涉及到多模態(tài)的任務(wù),完成得比較仔細。但數(shù)據(jù)來源并沒有調(diào)用真實參考信息,圖表設(shè)計也比較基礎(chǔ),沒有太多審美感。


Kimi K2.5 測試結(jié)果 圖源|極客公園

為了再給 Kimi K2.5 一次機會,我們還嘗試給出一張素材圖,和一段非常詳盡的指令集,讓其給我們設(shè)計一張新聞頭圖以考驗其審美能力。但是輸出的結(jié)果來看,PPT 感非常濃。


Kimi K2.5 測試結(jié)果 圖源|極客公園

不過,Kimi K2.5 也算交出了一份答卷出來。我們帶著同樣的問題問了問 Qwen3-Max,Qwen3-Max 直接婉拒了回答。


Qwen3-Max 測試結(jié)果 圖源|極客公園

從目前的測試效果來看,審美或許還是一個主觀的視角,在多類不同領(lǐng)域的審美訓(xùn)練下,大模型對于「美」的定義和認知仍有一定差距。

02

上新 Skills 案例庫,

Kimi 開始學(xué)會多想一步

打開 Kimi 官網(wǎng),我們能看到 Kimi 官網(wǎng)的對話框內(nèi)已經(jīng)添加了 Agent 選項框,用戶可以隨時調(diào)用 Agent 程序。并且,對話框中還新添了一欄,可以讓用戶儲存常用指令。

在對話框下,Kimi 提供了不少智能 Agent 參考案例,涉及網(wǎng)頁應(yīng)用、移動應(yīng)用、數(shù)據(jù)分析三大類,提供了大約 20 個案例參考。只要你選擇做同款,就會呈現(xiàn)完整的指令集,某種程度上也算是上了 Skills 案例庫。


Kimi K2.5 參考測試案例 圖源|極客公園

數(shù)據(jù)分析上,我們讓 AI 跑了一下英偉達財報分析。在參考頁面中,我們看到的數(shù)據(jù)分析非常的詳盡,但是等我們正式開始體驗的時候,發(fā)現(xiàn) Agent 也并不是完美。

其中,最為明顯的是,在我們最開始的一版提示詞有明顯矛盾點的時候,AI 并不會和你確認問題的選項,而是按照自己的推測去做后續(xù)執(zhí)行。這也意味著如果你特別信任 AI,完全不看后續(xù)的執(zhí)行路徑的話,一個指令錯誤可能會造成整個 Agent 程序走向完全錯誤。

我們在官網(wǎng)運行跑完整個程序,15 張 PPT 大約跑了接近 30 分鐘。并且,在 Prompt 幾乎沒有變動的情況下,兩個 Agent 給出完全不同的結(jié)論推理。

參考案例給出的推論是,「英偉達財報效應(yīng)確實存在」,而我們跑出來的結(jié)果則是「財報發(fā)布并非上漲催化劑,財報交易策略無效」。

同樣的 Prompt,卻給出了不同的答案,或許也從一定程度說明了當(dāng)下 Agent 屬于能用,但不夠可靠,仍需使用者擁有明辨是非的能力,同時缺乏主動意圖反饋機制,容錯性不足。

第二次,我們自己參考 Prompt,編寫了一段提示詞。


測試 Kimi K2.5 提示詞 圖源|極客公園

又等待了接近半小時后,我們看到了一個初步的網(wǎng)頁設(shè)計界面。從頁面設(shè)計來看,基本上能夠滿足原提示詞的指令,并且符合一個科技公司常見的主頁界面。


Kimi K2.5 測試結(jié)果 圖源|極客公園

但是在理解能力,還是會有一些小問題,比如說,圖上的品牌宣言,一般會是被隱去而不是用直接作為標(biāo)題顯示。這也說明 AI 在理解和執(zhí)行上還是有需要改進的地方。

也會有些令人驚喜的地方,比如在網(wǎng)頁設(shè)計提示詞上我們并沒有提到相關(guān)聯(lián)系方式收集等,但是 Kimi 參考了大多數(shù)的網(wǎng)站之后,可以直接在官網(wǎng)設(shè)計建聯(lián)頁面。



Kimi K2.5 測試結(jié)果 圖源|極客公園

甚至在底欄的一些設(shè)計上也比較貼心,有外置鏈接,甚至有小紅書,也是十分與時俱進了。


Kimi K2.5 測試結(jié)果 圖源|極客公園

體驗完之后,能夠明顯感受到,當(dāng)下 Agent 能力未必能夠在執(zhí)行上做到完美,但是能夠通過指令的意圖豐富整個執(zhí)行細節(jié),能夠明白核心需求點是什么,給出更多的意外之喜。并且,Kimi 能夠?qū)⒕W(wǎng)頁鏈接直接部署到位,給出預(yù)覽和安裝包,供用戶使用。

這是我們的測試結(jié)果鏈接:https://e56oqk3weoe7k.ok.kimi.link/#

此外,由于 Kimi Code 和 Agent Swarm 功能均需要高級會員才可以使用,因此我們很可惜暫時不能得出第一手測試結(jié)果。據(jù)了解,Kimi K2.5 的 Agent Swarm 功能采用分布式協(xié)同架構(gòu),最多可并行調(diào)度與管理 100 個子智能體。每個智能體均配備獨立的工作記憶,能夠自主執(zhí)行任務(wù),并遵循高效通信協(xié)議,僅在關(guān)鍵節(jié)點將處理結(jié)果匯總至中央調(diào)度器,從而大幅提升復(fù)雜任務(wù)的解決效率。

03

Agent 轉(zhuǎn)向之年

從基于 Kimi K2.5 視覺理解的出色表現(xiàn),我們可以預(yù)見多模態(tài)的 Agent 將成為 2026 年的競爭焦點,我們也嗅到了一些 2026 年模型界不一樣的轉(zhuǎn)向。

首先是,視覺能力的增強。無論是 Claude 還是 DeepSeek,在琢磨了一年的文本交互后,終于轉(zhuǎn)向視頻能力,補強此前視頻分析的短板。視頻理解能力超強帶來的不僅是用戶主動上傳視頻信息的分析更強,更是未來一些被動記錄視頻能力發(fā)揮更多的空間,會帶來更多玩法。

其次,從目前通用模型生態(tài)來看,開源模型的活躍度在社區(qū)滲透和第三方集成上展現(xiàn)出更強能力,前有 Gemini、 Claude、GPT 對比,后有 Qwen3- max,Kimi K2.5 和 DeepSeek。Kimi K2.5 的開源雖然是在意料之外,但也算情理之中。但值得注意的是,消費者的付費意愿養(yǎng)成仍需依賴閉源模型的高端功能。

第三,是所有的通用大模型開始爭取更好的利潤,更多的付費形式。這次 Kimi Code 功能和 Agent 集群功能直接提供給高端付費用戶,不開放任何試用,且 Kimi 的付費模式也開始變化,最高 199 元每月。OpenAI 要賣廣告,Gemini 要上 Chrome 幾乎都是一個原因,開源節(jié)流,模型公司們開始兩手抓資金流向。

最后,通用模型公司們已經(jīng)開始為 Agent 走入垂直場景做準(zhǔn)備。Kimi K2.5 上線的 Agent Swarm 功能就是幫助更多企業(yè)打造垂類應(yīng)用時能有模型底座支撐,方便企業(yè)能夠通過不同類型的 Agent 扮演企業(yè)中的不同員工,各司其職,最終協(xié)同辦公。

如果說 2025 年 DeepSeek 將模型成本降到無限低,是讓人看到模型走向千行百業(yè)的關(guān)鍵之一。2026 年的開端,似乎預(yù)示圍繞 AI 自動化的一切即將開始改變。從單個 Agent,走向幾個 Agent,再到一群 Agent。Kimi K2.5 的出現(xiàn),代表已經(jīng)有通用大模型廠商看到這一趨勢,并做出改變。

目前,從 Manus 到豆包手機,再到 Clawdbot,其實從模型誕生的第一天開始,人們對 AI 自動化的探索并未停止。當(dāng)模型公司、應(yīng)用公司以及硬件公司都瞄準(zhǔn)一個方向發(fā)展,或許 2026 年也將會是 Agent 逐漸成熟,落地場景的一年。

*頭圖來源:Kimi

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你覺得 Kimi K2.5 還有哪些玩法?

曝 SpaceX 正評估與特斯拉或 xAI 合并,以作為 IPO 之前另一種選擇。

點贊關(guān)注極客公園視頻號,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
比爾·蓋茨道歉:與愛潑斯坦往來是巨大錯誤,曾與兩名俄羅斯女性有過婚外情

比爾·蓋茨道歉:與愛潑斯坦往來是巨大錯誤,曾與兩名俄羅斯女性有過婚外情

界面新聞
2026-02-25 18:14:05
默茨訪華,四大看點!

默茨訪華,四大看點!

新浪財經(jīng)
2026-02-24 21:23:19
教育部:嚴(yán)防“陰陽課表”

教育部:嚴(yán)防“陰陽課表”

澎湃新聞
2026-02-25 20:54:10
記者談伊納西奧:亞特蘭大認為多特偷走了他們的“孩子”

記者談伊納西奧:亞特蘭大認為多特偷走了他們的“孩子”

懂球帝
2026-02-26 03:12:04
誰是特朗普國情咨文撰稿人?一人常坐特朗普私人飛機,一人“80后”能用總統(tǒng)語氣寫稿

誰是特朗普國情咨文撰稿人?一人常坐特朗普私人飛機,一人“80后”能用總統(tǒng)語氣寫稿

紅星新聞
2026-02-25 13:23:34
湖北一木匠,兩年時間騙取寧夏自治區(qū)政府高層近十億,無人敢吱聲

湖北一木匠,兩年時間騙取寧夏自治區(qū)政府高層近十億,無人敢吱聲

神奇的錘子
2025-02-14 20:48:49
32歲小伙瘦骨嶙峋,確診罕見癌癥:我連病友都找不到!杭州醫(yī)生:三分之一患者面臨無藥可用困境

32歲小伙瘦骨嶙峋,確診罕見癌癥:我連病友都找不到!杭州醫(yī)生:三分之一患者面臨無藥可用困境

極目新聞
2026-02-25 12:38:59
朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

朝鮮人對中國人是怎樣的態(tài)度?讓我告訴你真相

世界圈
2026-02-24 19:20:21
默茨專機抵京,第一道難關(guān)出現(xiàn)!寶馬CEO通知政府,中方有言在先

默茨專機抵京,第一道難關(guān)出現(xiàn)!寶馬CEO通知政府,中方有言在先

阿校談史
2026-02-26 02:13:25
墨西哥總統(tǒng)發(fā)聲:考慮起訴馬斯克!

墨西哥總統(tǒng)發(fā)聲:考慮起訴馬斯克!

每日經(jīng)濟新聞
2026-02-25 15:38:07
iPhone 18 Pro七月量產(chǎn):新增深紅色 一眼就能認出是新iPhone

iPhone 18 Pro七月量產(chǎn):新增深紅色 一眼就能認出是新iPhone

快科技
2026-02-23 18:13:04
悲催!安徽姑子給娘家哥3孩、弟2孩每人500紅包,弟媳怒斥不公平

悲催!安徽姑子給娘家哥3孩、弟2孩每人500紅包,弟媳怒斥不公平

火山詩話
2026-02-24 07:01:18
門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

門喬被殺只是開始!毒販向墨西哥政府宣戰(zhàn):這屆世界杯,別想看!

瓜哥的動物日記
2026-02-25 15:33:17
一出月子我就辭退了月嫂,公公卻突然打來電話:你把月嫂辭了

一出月子我就辭退了月嫂,公公卻突然打來電話:你把月嫂辭了

秋楓凋零
2026-02-12 13:45:12
《鏢人》票房破8億!演技排名出爐,吳京僅排第5,第1名無法超越

《鏢人》票房破8億!演技排名出爐,吳京僅排第5,第1名無法超越

鄉(xiāng)野小珥
2026-02-26 00:44:33
巴拿馬突然翻臉接管港口!談了半天白談,中方一句話亮明底線

巴拿馬突然翻臉接管港口!談了半天白談,中方一句話亮明底線

嘴角上翹
2026-02-26 03:31:53
中東,大消息!美軍部署11架F-22戰(zhàn)斗機,以色列:伊朗若不讓步,美打擊不可避免!美以伊三方最新發(fā)聲

中東,大消息!美軍部署11架F-22戰(zhàn)斗機,以色列:伊朗若不讓步,美打擊不可避免!美以伊三方最新發(fā)聲

每日經(jīng)濟新聞
2026-02-25 06:38:04
中國部隊食堂有多整齊?忍得了醬油瓶和面粉袋,忍不了豆角和土豆絲!

中國部隊食堂有多整齊?忍得了醬油瓶和面粉袋,忍不了豆角和土豆絲!

美食格物
2026-01-16 18:47:12
這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

這種飲料正在摧毀你的胰島細胞!很多糖尿病,都和這種飲料有關(guān)!

蜉蝣說
2026-01-29 14:46:50
NBA調(diào)查倫納德&快船丑聞重大進展:重罰小卡,合同作廢+禁賽?

NBA調(diào)查倫納德&快船丑聞重大進展:重罰小卡,合同作廢+禁賽?

夜白侃球
2026-02-25 22:41:09
2026-02-26 04:20:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11824文章數(shù) 78805關(guān)注度
往期回顧 全部

科技要聞

“機器人只跳舞,沒什么用”

頭條要聞

夫妻晚5秒錯過免費高速付1700元:氣得我不得了

頭條要聞

夫妻晚5秒錯過免費高速付1700元:氣得我不得了

體育要聞

勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

娛樂要聞

黃曉明新戀情!與小22歲美女同游新加坡

財經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

手機
游戲
本地
公開課
軍事航空

手機要聞

三星Galaxy S26 Ultra圖賞:7.9mm萬元機皇 比iPhone 17 Pro Max更輕薄

《如龍極3》中文配音訪談:中文配音與本地化并非易事

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進入關(guān)懷版