国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

美團(tuán)新模型LongCat-Flash-Thinking-2601重思考模式拉風(fēng),附一手對(duì)比實(shí)測(cè)

0
分享至

作者|子川

來(lái)源|AI先鋒官

近日,美團(tuán)重磅更新并開源自家模型LongCat-Flash-Thinking-2601


據(jù)介紹,此次發(fā)布的模型是LongCat-Flash-Thinking模型的升級(jí)版,擁有 5600 億個(gè)參數(shù),并基于的 MoE 架構(gòu)構(gòu)建。

LongCat-Flash-Thinking-2601 最大的不同,就在于它引入了重思考模式(Heavy Thinking Mode)。

簡(jiǎn)單來(lái)說(shuō),這個(gè)模式讓模型能同時(shí)啟動(dòng) 8 個(gè)大腦思考,從不同角度和深度推理同一個(gè)問(wèn)題,最后總結(jié)出一個(gè)更全面、更可靠的結(jié)論。

給大家看一個(gè)簡(jiǎn)單的例子就明白了。


提示詞:1+1為什么不等于2


可以看到,重思考模式相當(dāng)于使用了8個(gè)模型同時(shí)進(jìn)行推理工作,最后的給出的8個(gè)答案在進(jìn)行反復(fù)驗(yàn)證,最終會(huì)得到一個(gè)最終解。


除此之外,LongCat團(tuán)隊(duì)在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié),針對(duì)性打磨模型的總結(jié)歸納能力,從而讓LongCat-Flash-Thinking-2601實(shí)現(xiàn)“想清楚再行動(dòng)”的結(jié)果。

不過(guò)在體驗(yàn)的時(shí)候,由于相當(dāng)8款模型同時(shí)在推理,所以它的上下文非常容易耗光,會(huì)經(jīng)常返回“當(dāng)前對(duì)話上下文過(guò)長(zhǎng),建議精簡(jiǎn)輸入后重試”。


那這款模型表現(xiàn)到底如何?我們先來(lái)看LongCat-Flash-Thinking-2601的紙面實(shí)力。


首先是大家最關(guān)注的編程能力上,LCB 評(píng)測(cè)拿到82.8 分,OIBench EN 評(píng)測(cè)獲47.7 分,這些成績(jī)處于同類模型第一梯隊(duì)。

數(shù)學(xué)推理方面,開啟重思考模式后更猛。

AIME-25 評(píng)測(cè)中取得100.0 分(滿分),IMO-AnswerBench 中以86.8 分達(dá)到當(dāng)前 SOTA。

智能體工具調(diào)用上,τ2-Bench 評(píng)測(cè)88.2 分,VitaBench 評(píng)測(cè)29.3 分,均為開源 SOTA 水平。

智能體搜索方面,BrowseComp 任務(wù)73.1 分(全模型最優(yōu)),RW Search 評(píng)測(cè)79.5 分

最關(guān)鍵的是什么?在工具調(diào)用的泛化能力上,LongCat-Flash-Thinking-2601 超越了 Claude-Opus-4.5-Thinking。


這一連串的SOTA似乎有點(diǎn)東西,那它的實(shí)際效果到底如何? 老規(guī)矩,我們直接上手實(shí)測(cè)。

此次參賽的對(duì)手分別是LongCat-Flash-Thinking-2601、DeepSeek-V3.2、Kimi K2 Thinking。

提示詞:
創(chuàng)建一個(gè) 3D HTML 山脈場(chǎng)景,包含懸崖、河流和晝夜光照變化。支持拖動(dòng)和縮放、動(dòng)畫過(guò)渡、真實(shí)感漸變色,并可切換等高線顯示。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

可以明顯的看到LongCat-Flash-Thinking-2601的缺陷,對(duì)“河流”的幾何理解出現(xiàn)了偏差。它未能生成自然蜿蜒的水體,而是生成了一個(gè)圓柱體結(jié)構(gòu),導(dǎo)致視覺(jué)上更像是一根橫亙?cè)谏介g的“水管”。

而且DeepSeek-V3.2出現(xiàn)了嚴(yán)重的幻覺(jué),模型似乎在坐標(biāo)系構(gòu)建上徹底迷失,原本應(yīng)是連綿起伏的山脈和流動(dòng)的河水,被渲染成了兩條細(xì)長(zhǎng)的線段。

功能較為完善的只有Kimi K2 Thinking ,山脈起伏、樹木點(diǎn)綴、動(dòng)態(tài)的云朵與太陽(yáng)一應(yīng)俱全,光照邏輯也基本成立,但這也不得不吐槽一下,河流也是一條大水管!

或許這條題太難,給它們減低一下難度,做一個(gè)簡(jiǎn)單的可視化登錄頁(yè)面。

提示詞:請(qǐng)創(chuàng)建一個(gè)現(xiàn)代化的登錄頁(yè)面,包含以下功能:

- 郵箱和密碼輸入框

- 登錄按鈕

- "記住我"和"忘記密碼"選項(xiàng)

- Google第三方登錄

- 注冊(cè)鏈接

要求:深色主題,未來(lái)科技風(fēng)格,居中布局,良好的用戶體驗(yàn)。

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

這次終于扳回一城,對(duì)于簡(jiǎn)單的登錄頁(yè)面的UI,目前的模型已經(jīng)是手拿把恰了,效果都大差不差,登錄、注冊(cè)等功能都有,主要是看每款模型的審美能力。

再換一題,來(lái)一個(gè)經(jīng)典老題:天氣卡片,主要是考驗(yàn)?zāi)P偷膶徝滥芰Α?/p>

提示詞:
Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

LongCat-Flash-Thinking-2601:

Kimi K2 Thinking :

DeepSeek-V3.2:

LongCat-Flash-Thinking-2601DeepSeek-V3.2這兩款模型雖然完成了動(dòng)”的要求,但質(zhì)感較為粗糙。

它們的動(dòng)效缺乏物理運(yùn)動(dòng)的自然感,視覺(jué)元素較為扁平,最終呈現(xiàn)效果略顯廉價(jià),像是一個(gè)早期的 Demo。

Kimi K2 Thinking 的表現(xiàn)則是會(huì)好很多,視覺(jué)上也更加的完整。

此次測(cè)試的主要內(nèi)容是以代碼為主,主要測(cè)試代碼能力的原因很簡(jiǎn)單:代碼從不說(shuō)謊,行就是行,不行就是不行,可以一眼用肉眼分辨出好壞。

雖然這次只測(cè)試了三個(gè)項(xiàng)目,但LongCat-Flash-Thinking-2601的缺陷可以明顯看出。

雖然它在數(shù)學(xué)和搜索上拿分拿到手軟,甚至超越了 Claude。但在代碼實(shí)戰(zhàn)中,它卻明顯得有些“高分低能”了。

目前該模型已經(jīng)上線,感興趣的用戶可以去體驗(yàn)一下。

  • 體驗(yàn)鏈接:https://longcat.ai

  • 模型地址:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

  • GitHub:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

掃碼邀請(qǐng)進(jìn)群,我們帶你一起來(lái)玩轉(zhuǎn)ChatGPT、GPT-4、文心一言、通義千問(wèn)、訊飛星火等AI大模型,順便學(xué)一些AI搞錢技能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
不服開干?比利時(shí)打響反華第一槍,通告全球,斷的就是中國(guó)退路

不服開干?比利時(shí)打響反華第一槍,通告全球,斷的就是中國(guó)退路

愛(ài)史紀(jì)
2026-03-28 13:35:34
全美50州數(shù)百萬(wàn)人游行,要求特朗普下臺(tái)

全美50州數(shù)百萬(wàn)人游行,要求特朗普下臺(tái)

飄逸語(yǔ)人
2026-03-28 21:48:51
萬(wàn)科創(chuàng)始人妻子解除邊控

萬(wàn)科創(chuàng)始人妻子解除邊控

新浪財(cái)經(jīng)
2026-03-26 19:55:01
1943年毛澤民被盛世才殺害,盛世才逃到臺(tái)灣后,岳父一家慘遭滅門

1943年毛澤民被盛世才殺害,盛世才逃到臺(tái)灣后,岳父一家慘遭滅門

磊子講史
2026-03-27 16:51:45
女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識(shí)貨,別說(shuō)話

女子吐槽老公養(yǎng)的盆栽:巨丑像大蟲子!網(wǎng)友怒懟:不識(shí)貨,別說(shuō)話

三農(nóng)老歷
2026-03-27 11:32:51
美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實(shí)話:脫了衣服,女人的差距根本不在臉上!

夜深愛(ài)雜談
2026-03-08 21:28:24
綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

綠聯(lián)把充電寶壓到13.9mm,iPhone用戶卻買不到

賽博蘭博
2026-03-28 14:15:12
張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

張雪峰二婚妻子付幸:幾個(gè)月婚姻分走數(shù)億,11歲女兒遺產(chǎn)繼承復(fù)雜

眼光很亮
2026-03-27 16:04:09
趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

趙櫻子自爆相親翻車!6億豪宅香港富商摘了眼鏡帽子后:下不去嘴

觀魚聽雨
2026-03-27 17:30:53
張雪峰員工回應(yīng)其二婚爆料,稱遺產(chǎn)不會(huì)被瓜分,11歲女兒流淚發(fā)聲

張雪峰員工回應(yīng)其二婚爆料,稱遺產(chǎn)不會(huì)被瓜分,11歲女兒流淚發(fā)聲

叨嘮
2026-03-28 02:08:59
關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

關(guān)于伊朗的十大虛假敘事——你是如何被網(wǎng)軍欺騙的?

楓嶺社
2026-03-27 10:49:09
特斯拉全新SUV曝光!

特斯拉全新SUV曝光!

電動(dòng)知家
2026-03-28 18:35:20
“霍爾木茲決戰(zhàn)”,攤牌了

“霍爾木茲決戰(zhàn)”,攤牌了

中國(guó)新聞周刊
2026-03-27 20:31:04
致560戶停氣48小時(shí)!海淀一居民擅改管線,賠了10萬(wàn)

致560戶停氣48小時(shí)!海淀一居民擅改管線,賠了10萬(wàn)

極目新聞
2026-03-28 19:33:49
妹子遭輪X后一心求死,大家卻只想讓她活。跟親爹打一年官司,她終于合法去死了...

妹子遭輪X后一心求死,大家卻只想讓她活。跟親爹打一年官司,她終于合法去死了...

英國(guó)那些事兒
2026-03-27 23:27:25
這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無(wú)敵”武器神話

這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個(gè)又一個(gè)“無(wú)敵”武器神話

策略述
2025-11-12 18:42:46
李梓萌,私生活傳聞太荒唐

李梓萌,私生活傳聞太荒唐

做一個(gè)合格的吃瓜群眾
2026-03-21 19:20:55
別不信,78歲想活過(guò)98歲,關(guān)鍵在兩性關(guān)系!這六句長(zhǎng)壽密碼要牢記

別不信,78歲想活過(guò)98歲,關(guān)鍵在兩性關(guān)系!這六句長(zhǎng)壽密碼要牢記

牛鍋巴小釩
2026-03-26 13:23:25
最高院:只有微信昵稱沒(méi)有實(shí)名被拉黑不能起訴?能,手機(jī)就搞定!

最高院:只有微信昵稱沒(méi)有實(shí)名被拉黑不能起訴?能,手機(jī)就搞定!

周軍律師聊案子
2026-03-28 09:49:03
調(diào)查發(fā)現(xiàn):每天都曬太陽(yáng)的人,大多到了75歲后,身體或有5種變化

調(diào)查發(fā)現(xiàn):每天都曬太陽(yáng)的人,大多到了75歲后,身體或有5種變化

醫(yī)學(xué)原創(chuàng)故事會(huì)
2026-03-27 23:42:03
2026-03-29 05:51:00
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應(yīng)用精選與評(píng)測(cè)
465文章數(shù) 69關(guān)注度
往期回顧 全部

科技要聞

華為盤古大模型負(fù)責(zé)人王云鶴確認(rèn)離職

頭條要聞

伊朗:擊中美軍F-16戰(zhàn)機(jī) 強(qiáng)力反擊加速以政權(quán)崩潰

頭條要聞

伊朗:擊中美軍F-16戰(zhàn)機(jī) 強(qiáng)力反擊加速以政權(quán)崩潰

體育要聞

“我是全家最差勁的運(yùn)動(dòng)員”

娛樂(lè)要聞

陳牧馳陳冰官宣得子 曬一家三口握拳照

財(cái)經(jīng)要聞

臥底"科技與狠活"培訓(xùn):化工調(diào)味劑泛濫

汽車要聞

置換補(bǔ)貼價(jià)4.28萬(wàn)起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

游戲
親子
教育
旅游
藝術(shù)

《異替》現(xiàn)已登陸Steam

親子要聞

小孩子能口無(wú)遮攔到什么程度!網(wǎng)友:恨不得當(dāng)場(chǎng)找個(gè)地縫鉆進(jìn)去

教育要聞

著名大學(xué)校長(zhǎng)去世!他把這所學(xué)校,重新帶回世界高教的中心…

旅游要聞

泰安市岱岳區(qū):賞梨花 看村晚 萬(wàn)畝梨園迎客來(lái)

藝術(shù)要聞

毛澤東手箋驚現(xiàn)美國(guó)拍賣會(huì),滿紙崢嶸往事......

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版