国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

新發(fā)布的Kimi K2.5是AI界的“老實人”?——實測后我的4點思考

0
分享至

前幾天,Kimi的朋友神秘兮兮地說:衛(wèi)老師,我們準備發(fā)最新的Kimi K2.5了,來測一測?

說實話,這個年底的確很熱鬧,各家都在整新東西,可惜我一直沒抽出時間,直到今天他們上線了我才開始跑case。

下面咱們就不緊不慢來看一看這些有意思的case以及我個人的幾點思考——

在實測之前,我們先來了解一下Kimi K2.5最基本的信息——

它采用原生的多模態(tài)架構(gòu)設(shè)計,同時支持視覺與文本輸入、思考與非思考模式、對話與Agent任務(wù),通過約15T混合視覺和文本token進行的預(yù)訓(xùn)練。

來,先跑個分——


可以看到它在 Agent、代碼、圖像、視頻及一系列通用智能任務(wù)上取得開源SOTA的表現(xiàn)。

具體而言,在包括HLE、BrowseComp和DeepSearchQA在內(nèi)的多個極具挑戰(zhàn)性的Agent評測中取得了最佳表現(xiàn),部分指標超越了最前沿的閉源模型。

這些領(lǐng)先的Agentic的能力讓它可以從容面對復(fù)雜任務(wù),KIMIK2.5驅(qū)動的Agent集群,能同時調(diào)度多達100個Agent分身,并行處理1500個步驟。

在正式的實測之前,我們先來看月之暗面的CEO楊植麟自己的介紹視頻——

視覺提升是這次的關(guān)鍵。

按官方的說話,Kimi K2.5是一個全能型的統(tǒng)一模型(Unified Model),實現(xiàn)了視覺與文本的統(tǒng)一:

它不再需要外掛插件來看圖,而是天生具備視覺能力,理解圖片和視頻就像閱讀文字一樣自然。

廢話少說,我們還是來一個我之前試過的谷歌DeepMind紀錄片《The Thinking Game》里哈薩比斯結(jié)尾的國際象棋case。

我照例上傳了前幾天我和我女兒下的雙馬防御的照片——


可以看到,面對這張意大利開局盤面,K2.5沒掉鏈子。

一眼認出這是雙馬防御的經(jīng)典局面,直接給出了Ng5的答案:馬跳g5猛攻f7弱點

這屬于弗里德里希攻擊的起手式,選點很精準。


而且它把道理也講得很明白:f7是黑方王前最軟的格子,只有王在保護,后續(xù)還列出了Nxf7棄馬后的連續(xù)步驟,說明它理解這個開局的套路,不是瞎蒙。

整個過程反應(yīng)快,視覺識別很準確,沒把棋子位置認錯,對于國際象棋初學(xué)者,這種一眼看穿的能力夠用了。

就這個case來說,Kimi K2.5的視覺識別和推理能力,看得懂、答得準。

我再給它一張我在宜家買的椅子,讓它指導(dǎo)我怎么安裝——


可以看到,K2.5把這張椅子零件圖吃得挺準:一掃就認出是椅子套件,靠背、前后腿、支撐橫梁、軟坐墊、那包內(nèi)六角螺絲,挨個兒點名。


安裝指導(dǎo)也很實在,沒拽術(shù)語,步驟按先腿后靠再裝墊的常識順序來,還特別叮囑螺絲別擰死,留點余量好調(diào)。

總體而言很照顧過動手能力參差的用戶,靠譜。

我決定給它稍微上點強度。

于是我隨手在手機中找出了去年我看的漢斯·季默(Hans Zimmer)在北京音樂會的現(xiàn)場照片,我問他舞臺上那個穿白色衣服的歌手是誰?

注意,這張照片是我的實拍,比較模糊,像素只有600x800,很難通過面部識別來確定到底是誰?


可以看到,面對這張演唱會現(xiàn)場圖,K2.5沒急著瞎猜,而是先動手搜了圖片——這是聰明的第一步,看不清歌手正臉,與其蒙答案,不如先找線索。


很快,它通過圖片搜索結(jié)果確認是Hans Zimmer Live,這時候模型沒停著,腦子已經(jīng)轉(zhuǎn)起來了:

背景是《獅子王》的畫面,穿白衣服的人在舞臺中央演唱,大概率是唱《Circle of Life》的那位。

于是馬上追了一輪搜索+思考。

第二輪結(jié)果指向了Lebo M,但模型還是沒直接回答——

它又補了一輪驗證,專門搜 Lebo M 的現(xiàn)場照片和身份,確認這位南非老兄確實是《獅子王》主題曲的原唱,而且確實常穿白色非洲服飾登臺。

三輪思考與行動環(huán)環(huán)相扣,這就是K2.5思維與行動交織的能力(Interleaved Reasoning):

不是先想十分鐘再一次性搜完,而是搜一點、看一點、想一下再決定下一步干什么。

這種邊想邊做的能力很接地氣——

它知道什么時候該停手(確認是 Lebo M 就收了),也知道什么時候該繼續(xù)(光靠圖片搜不出來,得補文字搜索),不死腦筋硬猜,也不過度搜索浪費算力,分寸感剛好。

一句話——Interleaved Reasoning,好使。

咱們繼續(xù),這次Kimi K2.5的代碼能力也得到了大幅提升。

Benchmark分數(shù)是一回事,實際表現(xiàn)又是一回事,我只相信實測,咱們先來一道經(jīng)典的——鵜鶘騎自行車的SVG動畫:


“make an animated SVG of a pelican riding a bicycle.”

玩過模型測評的都知道這題挺刁的——對功能和審美的要求都不低。

SVG要做好不簡單,K2.5結(jié)果很靠譜,車輪、腳蹬的聯(lián)動很流暢,背景云彩還做了視差滾動。

細看的話,鵜鶘握車把的姿態(tài)像那么回事,腳踏板帶上下相位差,車座底下還藏著陰影跟著車身一顛一顛,細節(jié)控應(yīng)該很喜歡。。

顏色也不糊弄,天空漸變、柏油路上的速度線全配齊了,當然,還是有點瑕疵的,比如速度線的方向貌似搞反了,但瑕不掩瑜。

作為一個三體迷,每次測試模型網(wǎng)頁能力,我都會下達一個任務(wù)——


“做一個以《三體》為主題的網(wǎng)站?!?/blockquote>

可以看到,Kimi K2.5 這個 case 表現(xiàn)挺穩(wěn)的,我總共用三句話迭代了三次。

整個過程,K2.5整理解需求,輸出設(shè)計文檔、生成圖片、寫代碼、部署,流程很順。

從結(jié)果上看代碼質(zhì)量可以,TypeScript、React、Tailwind用得熟練,報錯能自己修,交互細節(jié)考慮周到,加載動畫、懸停效果都有。

事實上,生成的網(wǎng)頁還可以直接修改,在預(yù)覽界面圈選需要修改的地方,用大白話告訴Kimi怎么改,它就能精準調(diào)整。


我喜歡它的點在于,這個網(wǎng)站拿捏住了三體冷峻的風(fēng)格。

深黑背景,不張揚但抓人,留白給得足,看著就安靜、孤獨,跟書里的氣質(zhì)對味。

人物圖生成得挺準——葉文潔有那種歷經(jīng)滄桑的決絕,章北海一身軍人硬氣,都貼原著,不是那種網(wǎng)紅臉。

Kimi產(chǎn)品層面也打磨得很好,最實在的是Kimi K2.5 Agent生成的網(wǎng)站能直接部署,流程一條龍走完。

用戶拿到手就是個能打開的網(wǎng)址,不用自己折騰服務(wù)器、配環(huán)境,這個網(wǎng)站大家可以直接去玩——

(可直接復(fù)制訪問https://sk2b45gfnxilo.beta-ok.kimi.link/)

對普通用戶來說,這是實實在在的方便,很多其他產(chǎn)品到出代碼那步就停了,Kimi能推到最后一公里,nice。

更有意思的是,你可以直接上傳圖片和視頻,讓K2.5 Agent照著圖片里或視頻里的樣式來生成網(wǎng)站。

我找了一個交互不錯的網(wǎng)站錄屏給它(https://orbitaix.webflow.io),讓K2.5把上面的三體網(wǎng)站轉(zhuǎn)化成視頻中的設(shè)計。

5分鐘之后,風(fēng)格復(fù)刻就完成了,大伙可以自行對比一下效果:

供K2.5參考的網(wǎng)站case

K2.5復(fù)刻后的三體網(wǎng)站

再來看一個更有意思一點的——


創(chuàng)建一個用手勢識別切西瓜的網(wǎng)頁小游戲。

可以看到,Kimi K2.5在這個小游戲開發(fā)任務(wù)上表現(xiàn)相當扎實。

從需求理解到最終交付,模型展現(xiàn)了完整的工程能力。

我總共提出了6輪修改——包括30秒倒計時調(diào)整、水果變大變多、特效炫酷——模型能準確理解并執(zhí)行,沒有遺漏或誤解。

最終完成度還是很高的,反正我女兒玩了半個小時,下面是網(wǎng)址,大伙可以自己玩一玩——

https://zympv3awn3nay.beta-ok.kimi.link/

攝像頭手勢追蹤流暢,五種水果爆炸效果不錯,連擊系統(tǒng)、倒計時、攝像頭小窗口、分值提示等功能也都有,符合我最初的意圖。

作為單次對話的多輪迭代開發(fā),Kimi K2.5 展現(xiàn)了不錯的需求跟隨能力和代碼組織水平,最終交付物直接可部署、可游玩,實用性強。

這是我復(fù)刻的網(wǎng)頁版的Mac OS,里邊的App都能用

Kimi K2.5推出了Agent Swarm,也就是“蜂群模式”,簡單來說就是讓一群AI分工協(xié)作,并行處理海量任務(wù)。

這個功能最厲害的地方在于它能分身,原本得一步步盯著的操作,它能拆解成多個子任務(wù)(最多高達1500個),對咱們普通用戶來說,它就是個批量處理神器。

咱們看下面這個任務(wù)——

搞金融研究的都知道,查30家公司的季度數(shù)據(jù)是體力活——得翻公告、算匯率、對口徑,還得盯著港股和A股披露差異。



可以看到,Kimi K2.5面對這個臟活累活展現(xiàn)出實打?qū)嵉墓こ棠芰Γ壤鍐味蚣?,再自動切換美股、港股、A股三套數(shù)據(jù)庫。

碰到滴滴退市這種邊緣案例,也沒瞎編,老老實實標OTC市值。

還有一點難得的是誠實——9家公司市值查不到就寫未找到,15家員工數(shù)缺失也不硬湊,每個數(shù)字都帶來源腳注。

全程無需人工盯盤,它自己調(diào)度搜索、API、Python計算,最后吐出帶引用鏈的Excel。

這種批量作業(yè)不串行的路子感覺的確適合做臟活累活,多源數(shù)據(jù)自動對齊、拿不準就標紅,確實讓復(fù)雜的研究簡單很多。

再看披露生成圖片的case——


請用14個不同的藝術(shù)家風(fēng)格,給金庸的14部小說設(shè)計14個封面,順序按照“飛雪連天射白鹿,笑書神俠倚碧鴛”排列。


可以看到,Kimi K2.5的批量處理能力確實能打,14張圖分兩次就全搞定了。

第一次7張,第二次7張,銜接順暢,畫質(zhì)穩(wěn)定,沒有前面精細后面應(yīng)付的情況。

這種愿意接活的吞吐量,對實際工作很友好,做系列設(shè)計、批量配圖時能省下大量反復(fù)調(diào)試的麻煩。

整體看,多任務(wù)并行這塊Kimi K2.5有兩把刷子。

作為行業(yè)的觀察者,我并不擅長無死角地測試模型的每一項能力。

我更愿意結(jié)合行業(yè)演進趨勢,從這些有限的case看一看新模型迭代和突破背后的邏輯。

以下是我測完Kimi K2.5之后的4點思考——

1.KimiK2.5 的這次更新有一種樸素的實用主義取向

我的直觀感覺,Kimi的這次更新更接地氣了,換句話說Kimi K2.5這東西變得越來越像個老實人。

別笑,在AI這個圈子里,老實人是個稀缺物種。

原生視覺、Visual Coding、Agent Swarm、Office Agent,還有開源的Kimi Code,這些東西都指向一個目標——讓你能真真切切地把活兒干完。

給它一張設(shè)計稿,擼出一個能用的網(wǎng)頁來,不滿意,圈選就能修改還能一鍵部署上線,是真干活。

Agent Swarm的批量處理也是把模型能力轉(zhuǎn)化成剛需場景的又一個出手,實打?qū)嵉馗膳K活累活。

Office Agent也是這個思路,PPT、Word、Excel都給你優(yōu)化到位,交付物得有專業(yè)審美和結(jié)構(gòu),不用操心格式問題、排版問題,直接拿來就能用。

這年頭,用戶是識貨的,虛頭巴腦的東西沒有,能不能真正干貨,一上手就知道,這種樸素的實用主義取向?qū)π袠I(yè)是正向風(fēng)向標。

我想,這也是Kimi敢在國內(nèi)在C端推出付費套餐的底氣。

2.Kimi這次干了很多最后一公里的活。

什么叫最后一公里?

其實就是直接能用,扔給你一張圖紙讓你自己去蓋房不是最后一公里,直接交給一把鑰匙才是。

Kimi這次做了大量的工作,算是把用戶伺候到位了。

批量搜索、批量下載論文、批量生圖,這些并不性感的工作才是生產(chǎn)力痛點。

對于坐在辦公室里苦逼寫報告的打工人來說,能不能瞬間幫他把100份財報扒下來分析好、PPT和Excel能不能整明白才是關(guān)鍵。

這說明Kimi產(chǎn)品經(jīng)理是真在辦公室里被虐過的,切實地知道打工人的痛。

的確,過去一年AI領(lǐng)域最重要的突破是長時程任務(wù)能力(long-horizon capabilities)。

METR的研究顯示,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能完成需要人類數(shù)小時的任務(wù),而2024年的最佳模型只能完成30分鐘以內(nèi)的工作,

坦率地講,KIMI這次的上下文長度離Gemini這類頂尖模型還是存在差距的。

但它聰明的地方在于它用Agent Swarm的批量處理很好地解決了很多日常復(fù)雜工作的痛點。

這其實也是幫用戶走完最后一公里的努力。

3.視覺是乘法,而不是直觀意義上的加法

KIMI K2.5將視覺能力從外掛插件升級為原生能力,這是從感知到理解的進步,是乘法。

Claude Sonnet 4.5在2025年9月的更新中強調(diào)“Vision for computer use”、Gemini 3 Pro強調(diào)“multimodal input with real-time reasoning”,行業(yè)共識是:原生多模態(tài)才是真正的AI Native。

在過去,很多模型處理圖片是先用OCR把字提出來,再丟給大模型,這導(dǎo)致圖表中的趨勢、顏色、空間關(guān)系全部丟失。

Kimi2.5的原生多模態(tài)保證了不同模態(tài)之間的對齊更精準,減少了信息在不同神經(jīng)網(wǎng)絡(luò)模塊傳遞時的翻譯損耗。

而這會解鎖極多的能力,官方的case中有對森林圖 (Forest Plots)等專業(yè)圖表的深度解析,說明Kimi K2.5經(jīng)過了大量專業(yè)垂直領(lǐng)域數(shù)據(jù)的Post-training。

它不僅能讀數(shù),還能理解更復(fù)雜的統(tǒng)計學(xué)意義(如P值、置信區(qū)間)。

這對于金融、科研等依賴圖表數(shù)據(jù)的行業(yè)是非常直接的利好。

4.高帶寬的Context會成為未來模型能力的重要維度

在Kimi官方的case中,有一個讓我印象很深刻——

將演示視頻轉(zhuǎn)化成編程項目(上傳一段100MB以內(nèi)的操作視頻,Kimi看懂意圖,復(fù)刻出可交互網(wǎng)頁)。

這超越了截圖生成代碼,視頻包含著時間維度的邏輯、交互的動態(tài)反饋、甚至是微妙的動效。

某種意義上,視頻等更多元的模態(tài)或許成為未來AI開發(fā)的通用語言,K2.5驗證了演示即編程的可行性。

如果AI能看懂視頻并生成代碼,這極大地壓縮了軟件供應(yīng)鏈。

以前是“需求->文檔->設(shè)計->代碼->測試”,現(xiàn)在變成了“視頻演示->成品”。

Kimi2.5在這里展現(xiàn)了很強的視覺理解能力,而更重要的是對動態(tài)邏輯的捕捉能力,我把這種能力粗淺地理解為最小規(guī)模的在線學(xué)習(xí)。

我堅定地相信,未來Context的帶寬會比現(xiàn)在大很多倍,視頻也僅僅只是其中的一種。

事實上,作為一個模型的人腦,它的Context帶寬其實也是非常高的。

如何在高帶寬的Context下提升效率,是未來每個模型要面臨的實際挑戰(zhàn)。

結(jié)語

以前我們總覺得,搞懂復(fù)雜的科研圖表或者是批量處理上百份文件,是屬于專業(yè)人士的特權(quán),但 Kimi K2.5把這道門檻踏平了。

K2.5就像個眼里有活兒、心里有數(shù)的老伙計——聰明、靠譜,我們常說AI要快,但K2.5卻學(xué)會了慢下來思考。

好的模型,是潤物細無聲滴,Kimi K2.5,值得一試。

——End——

作者簡介:衛(wèi)夕,公眾號“衛(wèi)夕指北”出品人,科技專欄作者,專寫長文,專注剖析AI、廣告、互聯(lián)網(wǎng)的底層邏輯;不關(guān)注這個賬號,你都不知道你會錯過神馬!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“炸彈一落地,我們的AI工程師就興奮”

“炸彈一落地,我們的AI工程師就興奮”

雷斯林
2026-03-11 19:15:52
人民日報官宣!中國短滑迎巨變,王濛20天前期盼的機會,終于來了

人民日報官宣!中國短滑迎巨變,王濛20天前期盼的機會,終于來了

寶哥精彩賽事
2026-03-12 19:46:53
愛潑斯坦開“嬰兒牧場”用女孩育種,幸存姐妹伸冤20年曝恐怖經(jīng)歷

愛潑斯坦開“嬰兒牧場”用女孩育種,幸存姐妹伸冤20年曝恐怖經(jīng)歷

金哥說新能源車
2026-03-12 16:55:27
英雄遲暮?2026卡普空杯小孩戰(zhàn)敗,趴在桌上久久無法動彈

英雄遲暮?2026卡普空杯小孩戰(zhàn)敗,趴在桌上久久無法動彈

街機時代
2026-03-12 15:00:03
baby葉珂雙雙哭暈!黃曉明坐大腿親密照來了,跟女制片人貼臉擁抱

baby葉珂雙雙哭暈!黃曉明坐大腿親密照來了,跟女制片人貼臉擁抱

八卦王者
2026-03-11 14:19:00
蘋果新iPhone官宣:3月11日,正式全面開售!

蘋果新iPhone官宣:3月11日,正式全面開售!

科技堡壘
2026-03-11 12:03:58
猶太精英悄然布局中國,中國會成為猶太人的“新宿主”嗎?

猶太精英悄然布局中國,中國會成為猶太人的“新宿主”嗎?

十夏九漓
2026-02-20 12:40:24
為什么說宇宙中最神秘的整數(shù)是137?

為什么說宇宙中最神秘的整數(shù)是137?

中科院物理所
2026-03-11 12:46:46
法媒:如果美軍介入!中國導(dǎo)彈將直接摧毀40億美元資產(chǎn)!包括F22

法媒:如果美軍介入!中國導(dǎo)彈將直接摧毀40億美元資產(chǎn)!包括F22

素衣讀史
2026-03-11 19:20:06
越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠不止吃絕戶這么簡單

越扒瓜越大!魯山舅舅與亡姐結(jié)婚再添猛料,遠不止吃絕戶這么簡單

夢史
2026-03-07 09:26:14
墊底隊年入1.1億鎊!英超30年造富神話,為何能甩開全歐洲?

墊底隊年入1.1億鎊!英超30年造富神話,為何能甩開全歐洲?

二爺臺球解說
2026-03-12 07:27:22
離婚后,前夫送我一箱蘋果,三年后我打開箱子號啕大哭

離婚后,前夫送我一箱蘋果,三年后我打開箱子號啕大哭

秀秀情感課堂
2025-12-27 13:55:03
同樣的“軍事陷阱”,美國又踩了一次

同樣的“軍事陷阱”,美國又踩了一次

觀察者網(wǎng)
2026-03-11 23:12:33
46歲李晨隱藏身份曝光!走上和黃曉明一樣的路,王寶強當初沒說謊

46歲李晨隱藏身份曝光!走上和黃曉明一樣的路,王寶強當初沒說謊

攬星河的筆記
2026-03-12 20:02:21
阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

阿爾茨海默病者逐漸增多,醫(yī)生提醒:55歲后,盡量改掉6個壞習(xí)慣

39健康網(wǎng)
2026-02-17 18:31:37
“委內(nèi)瑞拉模式”在伊朗失敗,專家:三大原因讓特朗普想匆忙抽身

“委內(nèi)瑞拉模式”在伊朗失敗,專家:三大原因讓特朗普想匆忙抽身

紅星新聞
2026-03-10 18:19:56
母親當眾宣布家產(chǎn)全給哥哥,女兒當晚說:媽,我嫁去新加坡了

母親當眾宣布家產(chǎn)全給哥哥,女兒當晚說:媽,我嫁去新加坡了

蕭竹輕語
2026-03-12 15:07:53
《鄉(xiāng)村愛情18》剛剛大結(jié)局,第19部已提上日程,總集數(shù)縮減至30集

《鄉(xiāng)村愛情18》剛剛大結(jié)局,第19部已提上日程,總集數(shù)縮減至30集

娛慧
2026-03-12 17:36:35
七連漲、15股漲停,算電協(xié)同的風(fēng)口起來了

七連漲、15股漲停,算電協(xié)同的風(fēng)口起來了

界面新聞
2026-03-12 18:16:32
“00后”牛散,認購宏和科技125萬股已浮盈超4100萬!

“00后”牛散,認購宏和科技125萬股已浮盈超4100萬!

深藍財經(jīng)
2026-03-12 11:19:50
2026-03-12 21:04:49
衛(wèi)夕指北 incentive-icons
衛(wèi)夕指北
深度剖析互聯(lián)網(wǎng)底層邏輯
185文章數(shù) 4567關(guān)注度
往期回顧 全部

科技要聞

當養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

盧鋒:從特朗普團隊群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

房產(chǎn)
旅游
游戲
藝術(shù)
數(shù)碼

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

旅游要聞

賞花游本周末將迎高峰,北京成最受歡迎春游目的地

魂師對決:當前版本必練7人組盤點!真就是角色越多必練越少?

藝術(shù)要聞

朱屺瞻『凌波仙子』

數(shù)碼要聞

OLED時代終結(jié)者!RGB-Mini LED電視海信E8S評測:這才是好畫質(zhì)

無障礙瀏覽 進入關(guān)懷版