網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

新發(fā)布的Kimi K2.5是AI界的“老實人”？——實測后我的4點思考

2026-01-27 22:39:13　來源: 衛(wèi)夕指北

北京舉報

分享至

前幾天，Kimi的朋友神秘兮兮地說：衛(wèi)老師，我們準備發(fā)最新的Kimi K2.5了，來測一測？

說實話，這個年底的確很熱鬧，各家都在整新東西，可惜我一直沒抽出時間，直到今天他們上線了我才開始跑case。

下面咱們就不緊不慢來看一看這些有意思的case以及我個人的幾點思考——

一

在實測之前，我們先來了解一下Kimi K2.5最基本的信息——

它采用原生的多模態(tài)架構(gòu)設(shè)計，同時支持視覺與文本輸入、思考與非思考模式、對話與Agent任務(wù)，通過約15T混合視覺和文本token進行的預(yù)訓(xùn)練。

來，先跑個分——

可以看到它在 Agent、代碼、圖像、視頻及一系列通用智能任務(wù)上取得開源SOTA的表現(xiàn)。

具體而言，在包括HLE、BrowseComp和DeepSearchQA在內(nèi)的多個極具挑戰(zhàn)性的Agent評測中取得了最佳表現(xiàn)，部分指標超越了最前沿的閉源模型。

這些領(lǐng)先的Agentic的能力讓它可以從容面對復(fù)雜任務(wù)，KIMIK2.5驅(qū)動的Agent集群，能同時調(diào)度多達100個Agent分身，并行處理1500個步驟。

在正式的實測之前，我們先來看月之暗面的CEO楊植麟自己的介紹視頻——

二

視覺提升是這次的關(guān)鍵。

按官方的說話，Kimi K2.5是一個全能型的統(tǒng)一模型（Unified Model），實現(xiàn)了視覺與文本的統(tǒng)一：

它不再需要外掛插件來看圖，而是天生具備視覺能力，理解圖片和視頻就像閱讀文字一樣自然。

廢話少說，我們還是來一個我之前試過的谷歌DeepMind紀錄片《The Thinking Game》里哈薩比斯結(jié)尾的國際象棋case。

我照例上傳了前幾天我和我女兒下的雙馬防御的照片——

可以看到，面對這張意大利開局盤面，K2.5沒掉鏈子。

一眼認出這是雙馬防御的經(jīng)典局面，直接給出了Ng5的答案：馬跳g5猛攻f7弱點。

這屬于弗里德里希攻擊的起手式，選點很精準。

而且它把道理也講得很明白：f7是黑方王前最軟的格子，只有王在保護，后續(xù)還列出了Nxf7棄馬后的連續(xù)步驟，說明它理解這個開局的套路，不是瞎蒙。

整個過程反應(yīng)快，視覺識別很準確，沒把棋子位置認錯，對于國際象棋初學(xué)者，這種一眼看穿的能力夠用了。

就這個case來說，Kimi K2.5的視覺識別和推理能力，看得懂、答得準。

我再給它一張我在宜家買的椅子，讓它指導(dǎo)我怎么安裝——

可以看到，K2.5把這張椅子零件圖吃得挺準：一掃就認出是椅子套件，靠背、前后腿、支撐橫梁、軟坐墊、那包內(nèi)六角螺絲，挨個兒點名。

安裝指導(dǎo)也很實在，沒拽術(shù)語，步驟按先腿后靠再裝墊的常識順序來，還特別叮囑螺絲別擰死，留點余量好調(diào)。

總體而言很照顧過動手能力參差的用戶，靠譜。

三

我決定給它稍微上點強度。

于是我隨手在手機中找出了去年我看的漢斯·季默（Hans Zimmer）在北京音樂會的現(xiàn)場照片，我問他舞臺上那個穿白色衣服的歌手是誰？

注意，這張照片是我的實拍，比較模糊，像素只有600x800，很難通過面部識別來確定到底是誰？

可以看到，面對這張演唱會現(xiàn)場圖，K2.5沒急著瞎猜，而是先動手搜了圖片——這是聰明的第一步，看不清歌手正臉，與其蒙答案，不如先找線索。

很快，它通過圖片搜索結(jié)果確認是Hans Zimmer Live，這時候模型沒停著，腦子已經(jīng)轉(zhuǎn)起來了：

背景是《獅子王》的畫面，穿白衣服的人在舞臺中央演唱，大概率是唱《Circle of Life》的那位。

于是馬上追了一輪搜索+思考。

第二輪結(jié)果指向了Lebo M，但模型還是沒直接回答——

它又補了一輪驗證，專門搜 Lebo M 的現(xiàn)場照片和身份，確認這位南非老兄確實是《獅子王》主題曲的原唱，而且確實常穿白色非洲服飾登臺。

三輪思考與行動環(huán)環(huán)相扣，這就是K2.5思維與行動交織的能力（Interleaved Reasoning）：

不是先想十分鐘再一次性搜完，而是搜一點、看一點、想一下再決定下一步干什么。

這種邊想邊做的能力很接地氣——

它知道什么時候該停手（確認是 Lebo M 就收了），也知道什么時候該繼續(xù)（光靠圖片搜不出來，得補文字搜索），不死腦筋硬猜，也不過度搜索浪費算力，分寸感剛好。

一句話——Interleaved Reasoning，好使。

四

咱們繼續(xù)，這次Kimi K2.5的代碼能力也得到了大幅提升。

Benchmark分數(shù)是一回事，實際表現(xiàn)又是一回事，我只相信實測，咱們先來一道經(jīng)典的——鵜鶘騎自行車的SVG動畫：

“make an animated SVG of a pelican riding a bicycle.”

玩過模型測評的都知道這題挺刁的——對功能和審美的要求都不低。

SVG要做好不簡單，K2.5結(jié)果很靠譜，車輪、腳蹬的聯(lián)動很流暢，背景云彩還做了視差滾動。

細看的話，鵜鶘握車把的姿態(tài)像那么回事，腳踏板帶上下相位差，車座底下還藏著陰影跟著車身一顛一顛，細節(jié)控應(yīng)該很喜歡。。

顏色也不糊弄，天空漸變、柏油路上的速度線全配齊了，當然，還是有點瑕疵的，比如速度線的方向貌似搞反了，但瑕不掩瑜。

作為一個三體迷，每次測試模型網(wǎng)頁能力，我都會下達一個任務(wù)——

“做一個以《三體》為主題的網(wǎng)站?！?/blockquote>
可以看到，Kimi K2.5 這個 case 表現(xiàn)挺穩(wěn)的，我總共用三句話迭代了三次。
整個過程，K2.5整理解需求，輸出設(shè)計文檔、生成圖片、寫代碼、部署，流程很順。
從結(jié)果上看代碼質(zhì)量可以，TypeScript、React、Tailwind用得熟練，報錯能自己修，交互細節(jié)考慮周到，加載動畫、懸停效果都有。
事實上，生成的網(wǎng)頁還可以直接修改，在預(yù)覽界面圈選需要修改的地方，用大白話告訴Kimi怎么改，它就能精準調(diào)整。

我喜歡它的點在于，這個網(wǎng)站拿捏住了三體冷峻的風(fēng)格。
深黑背景，不張揚但抓人，留白給得足，看著就安靜、孤獨，跟書里的氣質(zhì)對味。
人物圖生成得挺準——葉文潔有那種歷經(jīng)滄桑的決絕，章北海一身軍人硬氣，都貼原著，不是那種網(wǎng)紅臉。
Kimi產(chǎn)品層面也打磨得很好，最實在的是Kimi K2.5 Agent生成的網(wǎng)站能直接部署，流程一條龍走完。
用戶拿到手就是個能打開的網(wǎng)址，不用自己折騰服務(wù)器、配環(huán)境，這個網(wǎng)站大家可以直接去玩——
（可直接復(fù)制訪問https://sk2b45gfnxilo.beta-ok.kimi.link/）

對普通用戶來說，這是實實在在的方便，很多其他產(chǎn)品到出代碼那步就停了，Kimi能推到最后一公里，nice。
更有意思的是，你可以直接上傳圖片和視頻，讓K2.5 Agent照著圖片里或視頻里的樣式來生成網(wǎng)站。
我找了一個交互不錯的網(wǎng)站錄屏給它（https://orbitaix.webflow.io），讓K2.5把上面的三體網(wǎng)站轉(zhuǎn)化成視頻中的設(shè)計。
5分鐘之后，風(fēng)格復(fù)刻就完成了，大伙可以自行對比一下效果：
供K2.5參考的網(wǎng)站case
K2.5復(fù)刻后的三體網(wǎng)站
再來看一個更有意思一點的——

創(chuàng)建一個用手勢識別切西瓜的網(wǎng)頁小游戲。

可以看到，Kimi K2.5在這個小游戲開發(fā)任務(wù)上表現(xiàn)相當扎實。
從需求理解到最終交付，模型展現(xiàn)了完整的工程能力。
我總共提出了6輪修改——包括30秒倒計時調(diào)整、水果變大變多、特效炫酷——模型能準確理解并執(zhí)行，沒有遺漏或誤解。
最終完成度還是很高的，反正我女兒玩了半個小時，下面是網(wǎng)址，大伙可以自己玩一玩——
https://zympv3awn3nay.beta-ok.kimi.link/

攝像頭手勢追蹤流暢，五種水果爆炸效果不錯，連擊系統(tǒng)、倒計時、攝像頭小窗口、分值提示等功能也都有，符合我最初的意圖。
作為單次對話的多輪迭代開發(fā)，Kimi K2.5 展現(xiàn)了不錯的需求跟隨能力和代碼組織水平，最終交付物直接可部署、可游玩，實用性強。
這是我復(fù)刻的網(wǎng)頁版的Mac OS，里邊的App都能用
五
Kimi K2.5推出了Agent Swarm，也就是“蜂群模式”，簡單來說就是讓一群AI分工協(xié)作，并行處理海量任務(wù)。
這個功能最厲害的地方在于它能分身，原本得一步步盯著的操作，它能拆解成多個子任務(wù)（最多高達1500個），對咱們普通用戶來說，它就是個批量處理神器。
咱們看下面這個任務(wù)——
搞金融研究的都知道，查30家公司的季度數(shù)據(jù)是體力活——得翻公告、算匯率、對口徑，還得盯著港股和A股披露差異。

可以看到，Kimi K2.5面對這個臟活累活展現(xiàn)出實打?qū)嵉墓こ棠芰Γ壤鍐味蚣?，再自動切換美股、港股、A股三套數(shù)據(jù)庫。
碰到滴滴退市這種邊緣案例，也沒瞎編，老老實實標OTC市值。
還有一點難得的是誠實——9家公司市值查不到就寫未找到，15家員工數(shù)缺失也不硬湊，每個數(shù)字都帶來源腳注。
全程無需人工盯盤，它自己調(diào)度搜索、API、Python計算，最后吐出帶引用鏈的Excel。
這種批量作業(yè)不串行的路子感覺的確適合做臟活累活，多源數(shù)據(jù)自動對齊、拿不準就標紅，確實讓復(fù)雜的研究簡單很多。
再看披露生成圖片的case——

請用14個不同的藝術(shù)家風(fēng)格，給金庸的14部小說設(shè)計14個封面，順序按照“飛雪連天射白鹿，笑書神俠倚碧鴛”排列。

可以看到，Kimi K2.5的批量處理能力確實能打，14張圖分兩次就全搞定了。
第一次7張，第二次7張，銜接順暢，畫質(zhì)穩(wěn)定，沒有前面精細后面應(yīng)付的情況。
這種愿意接活的吞吐量，對實際工作很友好，做系列設(shè)計、批量配圖時能省下大量反復(fù)調(diào)試的麻煩。
整體看，多任務(wù)并行這塊Kimi K2.5有兩把刷子。
六
作為行業(yè)的觀察者，我并不擅長無死角地測試模型的每一項能力。
我更愿意結(jié)合行業(yè)演進趨勢，從這些有限的case看一看新模型迭代和突破背后的邏輯。
以下是我測完Kimi K2.5之后的4點思考——
1.KimiK2.5 的這次更新有一種樸素的實用主義取向
我的直觀感覺，Kimi的這次更新更接地氣了，換句話說Kimi K2.5這東西變得越來越像個老實人。
別笑，在AI這個圈子里，老實人是個稀缺物種。
原生視覺、Visual Coding、Agent Swarm、Office Agent，還有開源的Kimi Code，這些東西都指向一個目標——讓你能真真切切地把活兒干完。
給它一張設(shè)計稿，擼出一個能用的網(wǎng)頁來，不滿意，圈選就能修改還能一鍵部署上線，是真干活。
Agent Swarm的批量處理也是把模型能力轉(zhuǎn)化成剛需場景的又一個出手，實打?qū)嵉馗膳K活累活。
Office Agent也是這個思路，PPT、Word、Excel都給你優(yōu)化到位，交付物得有專業(yè)審美和結(jié)構(gòu)，不用操心格式問題、排版問題，直接拿來就能用。
這年頭，用戶是識貨的，虛頭巴腦的東西沒有，能不能真正干貨，一上手就知道，這種樸素的實用主義取向?qū)π袠I(yè)是正向風(fēng)向標。
我想，這也是Kimi敢在國內(nèi)在C端推出付費套餐的底氣。
2.Kimi這次干了很多最后一公里的活。
什么叫最后一公里？
其實就是直接能用，扔給你一張圖紙讓你自己去蓋房不是最后一公里，直接交給一把鑰匙才是。
Kimi這次做了大量的工作，算是把用戶伺候到位了。
批量搜索、批量下載論文、批量生圖，這些并不性感的工作才是生產(chǎn)力痛點。
對于坐在辦公室里苦逼寫報告的打工人來說，能不能瞬間幫他把100份財報扒下來分析好、PPT和Excel能不能整明白才是關(guān)鍵。
這說明Kimi產(chǎn)品經(jīng)理是真在辦公室里被虐過的，切實地知道打工人的痛。
的確，過去一年AI領(lǐng)域最重要的突破是長時程任務(wù)能力(long-horizon capabilities)。
METR的研究顯示，GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人類數(shù)小時的任務(wù)，而2024年的最佳模型只能完成30分鐘以內(nèi)的工作，
坦率地講，KIMI這次的上下文長度離Gemini這類頂尖模型還是存在差距的。
但它聰明的地方在于它用Agent Swarm的批量處理很好地解決了很多日常復(fù)雜工作的痛點。
這其實也是幫用戶走完最后一公里的努力。
3.視覺是乘法，而不是直觀意義上的加法
KIMI K2.5將視覺能力從外掛插件升級為原生能力，這是從感知到理解的進步，是乘法。
Claude Sonnet 4.5在2025年9月的更新中強調(diào)“Vision for computer use”、Gemini 3 Pro強調(diào)“multimodal input with real-time reasoning”，行業(yè)共識是:原生多模態(tài)才是真正的AI Native。
在過去，很多模型處理圖片是先用OCR把字提出來，再丟給大模型，這導(dǎo)致圖表中的趨勢、顏色、空間關(guān)系全部丟失。
Kimi2.5的原生多模態(tài)保證了不同模態(tài)之間的對齊更精準，減少了信息在不同神經(jīng)網(wǎng)絡(luò)模塊傳遞時的翻譯損耗。
而這會解鎖極多的能力，官方的case中有對森林圖 (Forest Plots)等專業(yè)圖表的深度解析，說明Kimi K2.5經(jīng)過了大量專業(yè)垂直領(lǐng)域數(shù)據(jù)的Post-training。
它不僅能讀數(shù)，還能理解更復(fù)雜的統(tǒng)計學(xué)意義（如P值、置信區(qū)間）。
這對于金融、科研等依賴圖表數(shù)據(jù)的行業(yè)是非常直接的利好。
4.高帶寬的Context會成為未來模型能力的重要維度
在Kimi官方的case中，有一個讓我印象很深刻——
將演示視頻轉(zhuǎn)化成編程項目（上傳一段100MB以內(nèi)的操作視頻，Kimi看懂意圖，復(fù)刻出可交互網(wǎng)頁）。
這超越了截圖生成代碼，視頻包含著時間維度的邏輯、交互的動態(tài)反饋、甚至是微妙的動效。
某種意義上，視頻等更多元的模態(tài)或許成為未來AI開發(fā)的通用語言，K2.5驗證了演示即編程的可行性。
如果AI能看懂視頻并生成代碼，這極大地壓縮了軟件供應(yīng)鏈。
以前是“需求->文檔->設(shè)計->代碼->測試”，現(xiàn)在變成了“視頻演示->成品”。
Kimi2.5在這里展現(xiàn)了很強的視覺理解能力，而更重要的是對動態(tài)邏輯的捕捉能力，我把這種能力粗淺地理解為最小規(guī)模的在線學(xué)習(xí)。
我堅定地相信，未來Context的帶寬會比現(xiàn)在大很多倍，視頻也僅僅只是其中的一種。
事實上，作為一個模型的人腦，它的Context帶寬其實也是非常高的。
如何在高帶寬的Context下提升效率，是未來每個模型要面臨的實際挑戰(zhàn)。
結(jié)語
以前我們總覺得，搞懂復(fù)雜的科研圖表或者是批量處理上百份文件，是屬于專業(yè)人士的特權(quán)，但 Kimi K2.5把這道門檻踏平了。
K2.5就像個眼里有活兒、心里有數(shù)的老伙計——聰明、靠譜，我們常說AI要快，但K2.5卻學(xué)會了慢下來思考。
好的模型，是潤物細無聲滴，Kimi K2.5，值得一試。
——End——
作者簡介：衛(wèi)夕，公眾號“衛(wèi)夕指北”出品人，科技專欄作者，專寫長文，專注剖析AI、廣告、互聯(lián)網(wǎng)的底層邏輯；不關(guān)注這個賬號，你都不知道你會錯過神馬！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.