国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi-K2-Thinking 開源大模型新王,權(quán)威測試結(jié)果公布

0
分享至


K2 Thinking 前情回顧

大家好,我是 Ai 學(xué)習(xí)的老章

Kimi K2 Thinking 我已經(jīng)介紹過很多

K2 Thinking 是迄今最大的開放權(quán)重模型之一,也是 K2 模型家族的首個推理模型,總參數(shù)量 1T,激活 32B。


最近看了一些市面上比較權(quán)威的測評結(jié)果,可以更全面的看看 K2 Thinking 的水平,看是否真就到了開源新王水平。


聯(lián)合創(chuàng)始人兼首席執(zhí)行官 @HuggingFace Artificial Analysis——智能水平逼近閉源大模型

Artificial Analysis 用官方 API 做了一系列測試


結(jié)論:開源大模型在智能水平已逼近閉源模型


Kimi K2 Thinking 在 Artificial Analysis Intelligence Index 中得分 67,創(chuàng)下開放權(quán)重模型最高分。這使其明顯領(lǐng)先于所有其他開源權(quán)重模型,包括近期發(fā)布的 MiniMax-M2 和 DeepSeek-V3.2-Exp,在專有模型中也僅次于 GPT-5。

人工智能分析指數(shù) v3.0 包含 10 項評估:MMLU-Pro、GPQA Diamond、人類終極考試、LiveCodeBench、SciCode、2025 年美國數(shù)學(xué)邀請賽、IFBench、AA-LCR、Terminal-Bench Hard、2-Bench Telecom

具體得分如下:


? 開源權(quán)重代碼模型第一,但仍落后閉源模型:K2 Thinking 在任何代碼評測中均未奪冠——Terminal-Bench Hard 第 6、SciCode 第 7、LiveCodeBench 第 2。若僅對比開源權(quán)重模型,它在三項評測中均排名第一或并列第一,因此在 Artificial Analysis Coding Index 中超越此前的開源權(quán)重榜首 DeepSeek V3.2

? 開放權(quán)重在 Humanity’s Last Exam 上的最大飛躍:K2 Thinking 的最強(qiáng)成績之一是在 Humanity’s Last Exam 上取得 22.3% 的得分(無工具),創(chuàng)下開放權(quán)重模型歷史新高,僅次于 GPT-5 與 Grok 4

? 強(qiáng)勁的代理性能:Kimi K2 Thinking 在代理場景中表現(xiàn)尤為突出,在 Artificial Analysis Agentic Index 中位列第 2,僅次于 GPT-5。這主要得益于 K2 Thinking 在 2-Bench Telecom(一個讓模型充當(dāng)客服代理的代理工具使用基準(zhǔn))中取得 93% 的成績,這是 Artificial Analysis 獨(dú)立測得的最高分。在需要長期規(guī)劃的代理場景下,Kimi K2 Instruct 的工具使用能力本就出色,而新的 Thinking 版本顯然又實(shí)現(xiàn)了顯著提升

但是 Kimi K2 Thinking 缺點(diǎn)也很明顯——太耗 Token 了,它在 Artificial Analysis Intelligence Index 評估中使用了史無前例的 1.4 億 token,約為 DeepSeek V3.2 的 2.5 倍、GPT-5 的 2 倍。


好在定價比閉源模型便宜不少,但 Turbo 模式很貴

按 MoonShot 官方 API 定價,整體運(yùn)行Intelligence Index 的成本低于主流前沿模型。Moonshot 還提供更快的 turbo API,此模式下運(yùn)行Intelligence Index 的成本僅次于 Grok 4,成為第二昂貴的模型。


第二個缺點(diǎn)就是它的上下文窗口了,最大 256K,一眾大佬面前還排不上號。。。


最后就是生成速度了,與平均水平相比,Kimi K2 Thinking 的速度較慢,每秒 80 Tokens 的樣子。好在延遲還行,接收第一個 Token(TTFT)僅需 0.75 秒。


IUMB——領(lǐng)先所有開、閉源模型

IUMB(Introductory Undergraduate Mathematics Benchmark)是一個用于評估模型在解決本科數(shù)學(xué)問題上的表現(xiàn)的基準(zhǔn)。它旨在較為全面地體現(xiàn)普通本科院校數(shù)學(xué)專業(yè)大一和大二水平的數(shù)學(xué)能力。

目前 K2 Thinking 在這個榜當(dāng)上都可以碾壓開、閉源所有模型了


https://pellaml.github.io/iumb/

即便如此,得分也僅 54,大模型搞本科數(shù)學(xué)通通不及格


PMPP-Eval ——最優(yōu)開源模型

PMPP-Eval 是一個以編碼為重點(diǎn)的評估基準(zhǔn),用于評估大型語言模型的性能。它專門在“編碼子集”上對模型進(jìn)行評估,并根據(jù)模型在編程任務(wù)(如與 CUDA 相關(guān)的任務(wù))中的表現(xiàn)對其進(jìn)行排名。

根據(jù) cuda 任務(wù)的結(jié)果,K2-Thinking 現(xiàn)在是可用的最優(yōu)開源模型。


個人用戶的測評——褒貶不一BinduReddy 測評:Kimi-K2 在代理編碼方面非常出色,但整體上仍落后于 DeepSeek Kimi-K2 是不斷增長的優(yōu)秀開源模型列表中的又一個優(yōu)秀模型。 - 與 GLM 4.6 一樣,在代理編碼方面表現(xiàn)最佳 - DeepSeek 3.2 是世界上最好的開源模型

但是他使用的非官方 API,其實(shí)其他網(wǎng)友也對他的測試結(jié)果表示過質(zhì)疑


Kimi 回應(yīng)

Kimi 官方也注意到,不同提供商的基準(zhǔn)結(jié)果存在差異——部分第三方端點(diǎn)出現(xiàn)顯著準(zhǔn)確率下降(例如超過 20 個百分點(diǎn)),這對 LiveBench 等重推理任務(wù)的得分產(chǎn)生負(fù)面影響。

然后 Kimi 官方給出了建議

  • 使用我們的官方 API 端點(diǎn) kimi-k2-thinking-turbo

  • 啟用 stream = True

  • 設(shè)置 temperature = 1.0

  • 建議的 max_token:推理 128k | 編碼 256k | 其他 ≥64k

  • 在腳本中添加重試邏輯

Kimi 也給出完整的基準(zhǔn)測試設(shè)置指南, https://platform.moonshot.ai/docs/guide/benchmark-best-practice

最后總結(jié):Kimi K2 Thinking 綜合實(shí)力很強(qiáng),在多個權(quán)威測評中展現(xiàn)了逼近甚至超越閉源模型的潛力,暫居開源新王的寶座。但諸多基準(zhǔn)測試、上下文窗口和生成速度與業(yè)界頂級大模型相比,還有差距。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
河南建業(yè)450萬歐簽下帕爾馬頭號支點(diǎn)曼,中超引援策略轉(zhuǎn)向務(wù)實(shí)

河南建業(yè)450萬歐簽下帕爾馬頭號支點(diǎn)曼,中超引援策略轉(zhuǎn)向務(wù)實(shí)

小潌拍客在北漂
2025-12-26 19:52:16
壽司店背后的秘密:ICE突襲亞州華人餐廳,揭出數(shù)十人“無休囚籠”

壽司店背后的秘密:ICE突襲亞州華人餐廳,揭出數(shù)十人“無休囚籠”

最英國
2025-12-27 18:09:47
熟女天花板實(shí)錘!松下紗榮子:人妻韻味+釣系眼神,一眼淪陷魂牽

熟女天花板實(shí)錘!松下紗榮子:人妻韻味+釣系眼神,一眼淪陷魂牽

灼灼小齊
2025-12-28 01:55:02
惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

惡毒奶奶掌摑孫女后續(xù)!孫女嘴被打腫,父親發(fā)聲,母親哭了一夜

奇思妙想草葉君
2025-12-27 11:51:12
尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

尚屬首次!有兩個香港雇傭軍在俄烏戰(zhàn)爭陣亡,都曾在法國軍團(tuán)效力

我心縱橫天地間
2025-12-27 23:09:30
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

文雅筆墨
2025-12-28 01:16:27
香港再無董建華

香港再無董建華

華人星光
2025-11-25 12:01:27
恩德里克攜妻子抵達(dá)里昂,正式開啟租借生涯

恩德里克攜妻子抵達(dá)里昂,正式開啟租借生涯

星耀國際足壇
2025-12-27 14:24:48
本田新車官宣:明年1月9日,正式亮相!

本田新車官宣:明年1月9日,正式亮相!

高科技愛好者
2025-12-26 23:02:06
美的副總裁伏擁軍離職:年薪1185萬 在公司效力近30年

美的副總裁伏擁軍離職:年薪1185萬 在公司效力近30年

雷遞
2025-12-27 20:33:01
特朗普恐怕沒料到,大批軍火還沒運(yùn)抵臺島,中方一招直打美國七寸

特朗普恐怕沒料到,大批軍火還沒運(yùn)抵臺島,中方一招直打美國七寸

面包夾知識
2025-12-27 00:00:32
今天才知道:這10樣?xùn)|西竟然是“玻璃纖維品”,用時可要當(dāng)心!

今天才知道:這10樣?xùn)|西竟然是“玻璃纖維品”,用時可要當(dāng)心!

摳搜俠
2025-12-01 16:21:49
沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺北全城已警戒,國民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
傳球退步攔網(wǎng)糟糕!從天才少女到被人詬病,張籽萱到底怎么了?

傳球退步攔網(wǎng)糟糕!從天才少女到被人詬病,張籽萱到底怎么了?

金毛愛女排
2025-12-28 00:00:04
重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

重慶亮點(diǎn)茶樓高管欺辱19歲女大學(xué)生,不料惹到不該惹的人,就此覆滅

可兒故事匯
2024-10-23 13:44:53
深圳驚現(xiàn)"光桿老板"!無辦公室無員工,靠一張營業(yè)執(zhí)照年賺60萬

深圳驚現(xiàn)"光桿老板"!無辦公室無員工,靠一張營業(yè)執(zhí)照年賺60萬

搗蛋窩
2025-12-22 16:14:26
王麗坤棚拍生圖

王麗坤棚拍生圖

小椰的奶奶
2025-12-28 01:15:37
韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

韓旭已任湖北荊州市委常委、市政府副市長、黨組副書記

澎湃新聞
2025-12-27 16:52:26
面對6連勝,杜鋒高興不起來,賽后著重強(qiáng)調(diào)球隊的被動和傷害

面對6連勝,杜鋒高興不起來,賽后著重強(qiáng)調(diào)球隊的被動和傷害

小樓侃體育
2025-12-28 00:05:09
2球4助,里斯-詹姆斯本賽季英超參與進(jìn)球已追平前3個賽季總數(shù)

2球4助,里斯-詹姆斯本賽季英超參與進(jìn)球已追平前3個賽季總數(shù)

懂球帝
2025-12-28 02:42:17
2025-12-28 03:00:49
機(jī)器學(xué)習(xí)與Python社區(qū) incentive-icons
機(jī)器學(xué)習(xí)與Python社區(qū)
機(jī)器學(xué)習(xí)算法與Python
3235文章數(shù) 11081關(guān)注度
往期回顧 全部

科技要聞

小米也漲價了!業(yè)界稱終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國的紅線 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財經(jīng)要聞

注意,開始拉物價了!

汽車要聞

好音響比大屏更重要?車企開始“聽”用戶的

態(tài)度原創(chuàng)

藝術(shù)
本地
家居
手機(jī)
時尚

藝術(shù)要聞

驚艷!這件木雕美得讓人心動,絕對不容錯過!

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

手機(jī)要聞

榮耀第二款“萬級”電池曝光,下月發(fā)

穿好雪地靴的4個訣竅,還挺有效!

無障礙瀏覽 進(jìn)入關(guān)懷版