国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè) MiniMax M2.7:AI 狠起來,連自己都卷

0
分享至

龍蝦爆火之后,全網(wǎng)的注意力都盯著「它該怎么用」——本地部署還是云端、一鍵安裝還是敲命令、要不要接微信飛書……反而沒人再認(rèn)真問那個(gè)老問題:驅(qū)動(dòng)龍蝦的那顆「大腦」,夠不夠聰明?

這倒不奇怪。OpenAI 和 Google 最近發(fā)布的幾款新模型,清一色都是 Mini、Flash 款,官方潛臺(tái)詞幾乎寫在臉上:專門給 Agent 大量消耗 Token 準(zhǔn)備的。

模型本身的能力邊界,反而成了最不被討論的話題。


一個(gè)真正適配龍蝦的模型,除了 Token 要量大管飽還實(shí)惠,更多的是模型要足夠聰明、動(dòng)手能力和學(xué)習(xí)能力足夠強(qiáng)。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「 開啟 AI 的自我進(jìn)化 」和做「 最強(qiáng)的 Cowork Agent 模型 」,既能處理代碼工作、常見的 Office 任務(wù),還能主動(dòng)學(xué)習(xí)構(gòu)建穩(wěn)定的 Agent 系統(tǒng)。


具體來說, 它能做好的工作比大多數(shù)模型要更寬 。對(duì)于寫代碼,M2.7 能真正理解一個(gè)系統(tǒng)在運(yùn)行時(shí)發(fā)生了什么,做到了 SRE(網(wǎng)站可靠性工程)級(jí)別的系統(tǒng)推理,看日志、關(guān)聯(lián)時(shí)間線、推斷根因、給出有優(yōu)先級(jí)的處理方案。新模型在 SWE-Pro 上跑了 56.2%,幾乎追平 Opus 4.6。

辦公場(chǎng)景里它已經(jīng)夠用了 。 Excel、Word、PPT 的復(fù)雜編輯和多輪修改,M2.7 在這塊有明顯提升,金融分析這類需要專業(yè)知識(shí) + 格式交付的場(chǎng)景尤其明顯。不能說它可以完全替代專業(yè)人士,但是真正進(jìn)入工作流,作為輔助完全可以。

它在多 Agent 協(xié)作里不會(huì)「斷掉」 。 這是 M2.7 專項(xiàng)打磨的能力,多角色場(chǎng)景下邊界清晰,面對(duì)包含 50+ Skills 的復(fù)雜環(huán)境,依然能保持極高的指令遵循能力。

然后是這次更新的重點(diǎn), 它開始參與優(yōu)化自己了 。 MiniMax 說 M2.7 是他們第一個(gè)深度參與迭代自己的模型,不只是「輔助迭代」,是「深度參與迭代自己」。能夠自我進(jìn)化,M2.7 可以自主迭代 Agent Harness(智能體腳手架)來勝任大部分的工作流。

實(shí)戰(zhàn)能力的提升,也讓 MiniMax M2.7 一發(fā)布就在龍蝦榜上迅速攀升,來到了最高分排行榜的第四名。


PinchBench 排行榜是為 OpenClaw 量身定做的模型評(píng)估基準(zhǔn),它測(cè)試的是大模型在 OpenClaw 真實(shí)業(yè)務(wù)場(chǎng)景下的表現(xiàn),圖中為任務(wù)成功率指標(biāo),MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我們也在 Claude Code、本地部署的龍蝦里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真實(shí)的開發(fā)過程中遇到的 Bug、枯燥的金融數(shù)據(jù),還有大量的長流程任務(wù)統(tǒng)統(tǒng)交給它。

兩天的測(cè)試下來,我們發(fā)現(xiàn)不僅軟件要為了 AI 重做,就連 AI 模型本身,除了要理解人類的用意和產(chǎn)出人類滿意的結(jié)果, 模型更需要懂得 AI 的工作方式和工作流,還得學(xué)會(huì)自己優(yōu)化自己 。

用 AI 的工作流當(dāng)人類的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 時(shí)代工作流」應(yīng)該是,AI 作為核心運(yùn)轉(zhuǎn)樞紐,去調(diào)用幾十個(gè)工具、去指揮其他 AI 隊(duì)友、甚至去優(yōu)化 AI 自己的代碼。

在測(cè)試 MiniMax M2.7 是如何自我進(jìn)化之前,我想先看看它的 AI 工作流如何。它到底是不是一個(gè)好用的 Agent 模型,還是說拿去跑個(gè) benchmark 好看,實(shí)際用起來一言難盡。

我們從知名的機(jī)器學(xué)習(xí)挑戰(zhàn)賽 Kaggle 的網(wǎng)站上下載了一份股票的歷史數(shù)據(jù),然后按照比賽的要求,告訴 MiniMax M2.7 幫我實(shí)現(xiàn)對(duì)應(yīng)的需求,即根據(jù)給定的數(shù)據(jù),進(jìn)行合適的數(shù)據(jù)處理和特征工程,為我生成一份可視化的分析報(bào)告。

整個(gè)數(shù)據(jù)集的內(nèi)容相當(dāng)龐大,有超過 3000 行的表格數(shù)據(jù),整體文件大小來到 446.35 MB。把 5 個(gè)表格數(shù)據(jù)文件下載到本地之后,我們使用接入了 MiniMax M2.7 的 Claude Code 來完成這項(xiàng)工作。


要做好這份分析,需要模型是個(gè)數(shù)據(jù)分析師完成數(shù)據(jù)清洗和整理、宏觀分析師完成對(duì)應(yīng)的金融市場(chǎng)的洞察、統(tǒng)計(jì)分析師完成初步的數(shù)學(xué)建模、算法工程師要建立對(duì)應(yīng)的模型,最后還有網(wǎng)頁工程師要交出一個(gè)可視化的方案。

面對(duì)這樣一個(gè)復(fù)雜的任務(wù),MiniMax M2.7 充分利用了我已經(jīng)安裝的各種 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格數(shù)據(jù)結(jié)構(gòu)的信息讀取,接著開始編寫 Python 代碼,自動(dòng)安裝 Pandas 庫(常用來處理表格數(shù)據(jù)),一步一步進(jìn)行。


最后,MiniMax M2.7 也交出了一份完整的可視化方案,它同時(shí)生成了多張圖片用來展示收益率分布,不同特征的重要性和類別排名,以及綜合儀表盤。


而在可視化的網(wǎng)頁里,它利用 Streamlit 庫將數(shù)據(jù)腳本直接轉(zhuǎn)成了可交互的網(wǎng)頁系統(tǒng),所有的信息都可以直接動(dòng)態(tài)查看。


這種大型的項(xiàng)目任務(wù),MiniMax 能夠順利完成,我們?nèi)粘9ぷ髦械霓k公和編程任務(wù),就更不用說了。

我們先是在手機(jī)上操作龍蝦,讓它幫我總結(jié)我放在電腦上的文件,然后要求 MiniMax M2.7 根據(jù)這份文件,幫我寫一個(gè)研究計(jì)劃 Word 文件,再整理一份相關(guān)論文的 Excel 文檔,最后是一個(gè)用來組會(huì)做匯報(bào)的 PPT 文檔,直接在手機(jī)上就能操作。


接入 MiniMax M2.7 的龍蝦能快速回應(yīng)需求


Office 三件套的處理如今是不在話下

在辦公領(lǐng)域的優(yōu)勢(shì),也讓 MiniMax M2.7 在衡量專業(yè)知識(shí)與任務(wù)交付能力的 GDPval-AA 評(píng)測(cè)中,ELO 得分達(dá)到了 1495,國產(chǎn)模型最高。

前段時(shí)間,AI 工作助手的可視化面板很火,把龍蝦放到了真實(shí)的二次元風(fēng)格辦公室里,用一句話就能安裝到自己的 OpenClaw。我們也成功讓這只 Appso 小龍蝦有了自己的家,但是如果我想要修改二次元房間布局,可以怎么做呢?交給 MiniMax。


在 OpenClaw 的可視化本地界面里,我們直接發(fā)送「我想修改這個(gè)小房子的風(fēng)格該怎么做?」,MiniMax M2.7 會(huì)自動(dòng)閱讀項(xiàng)目的代碼,然后告訴我們哪些地方是可以修改的,如何修改。


由于我輸入的要求是科技編輯部辦公室的風(fēng)格,然后它就幫我修改成了有星球大戰(zhàn)的海報(bào),還加了十幾個(gè)人坐在電腦前面碼字。

不過我們沒有在 OpenClaw 內(nèi)配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里幫我選擇了用代碼的方式來生成簡單的圖片。


接著和它聊天,我們還能根據(jù)這個(gè)風(fēng)格設(shè)計(jì)一個(gè)編輯部大亨的游戲,誰做的任務(wù)多,誰的辦公室就大,就能升級(jí)。


如果是 MiniMax 官方的 MaxClaw,是直接支持多模態(tài)的生成,可以一步到位生成視頻、音頻、圖片等,不需要配置額外的 API。

我們使用官方提供的 gif-sticker-maker Skill 生成了幾張馬斯克的表情包。云端部署的 MaxClaw 能確保運(yùn)行環(huán)境的足夠安全,但是它不允許我們像操作本地電腦一樣,任意安裝不同的庫文件。

最后在將視頻轉(zhuǎn)成 GIF 時(shí),MaxClaw 提醒我,它沒有足夠的權(quán)限將 ffmpeg(一個(gè)開源的多媒體處理庫)安裝到云端服務(wù)器上。


在 MaxClaw 內(nèi)可以直接使用 MiniMax M2.7,它會(huì)自動(dòng)調(diào)用海螺等視頻、音頻和圖片生成模型,為我們生成多媒體文件,而不需要額外配置專門的 API KEY。

點(diǎn)擊 MaxClaw 對(duì)話框下面的技能,我們就能看到所有安裝在 MaxClaw 的 Skills 詳情,并且點(diǎn)擊「問問 MaxClaw」,它會(huì)自動(dòng)編輯一條消息「告訴我 frontend-dev 能做什么,并告訴我如何使用它」,引導(dǎo)我們學(xué)習(xí)如何使用這項(xiàng) Skill。


除了 GIF 生成這個(gè) Skill,MiniMax 還提供了包括前端開發(fā)、全棧后端、安卓和 iOS 應(yīng)用開發(fā)以及創(chuàng)作驚艷視覺效果的 GLSL 著色技術(shù)等技能庫,我們可以直接在龍蝦里發(fā)送「你能幫我安裝這個(gè)項(xiàng)目里的 Skill 嗎 https://github.com/MiniMax-AI/skills」,龍蝦會(huì)自動(dòng)獲取 Skill 文檔完成安裝。


下載鏈接:https://github.com/MiniMax-AI/skills

AI 狠起來,連自己都卷

除了在日常工作和辦公領(lǐng)域上表現(xiàn)出的完整工作流,以及實(shí)際的交付能力,MiniMax M2.7 最讓我們感到特別的,還有它展現(xiàn)出的「 模型自迭代閉環(huán) 」。

MiniMax 曾提到人類研究員只需要把控大方向,把構(gòu)建系統(tǒng)的任務(wù)交給模型,它就能以解決方案架構(gòu)師的身份自主搭建開發(fā) Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一層運(yùn)行基礎(chǔ)設(shè)施。模型負(fù)責(zé)思考,harness 負(fù)責(zé)把這個(gè)「會(huì)想」的東西,變成一個(gè)能穩(wěn)定干活的系統(tǒng)。這個(gè)系統(tǒng)像是運(yùn)行層,負(fù)責(zé)讓 agent 在真實(shí)環(huán)境里穩(wěn)定運(yùn)行。


為了測(cè)試 M2.7 的極限,MiniMax 讓它去優(yōu)化某個(gè)內(nèi)部腳手架的軟件工程表現(xiàn)。結(jié)果,M2.7 全程零人工干預(yù),硬生生跑出了一個(gè)超過 100 輪的迭代循環(huán)。

它自己分析失敗軌跡,自己規(guī)劃改動(dòng),改完腳手架代碼再去跑評(píng)測(cè),最后對(duì)比結(jié)果決定是保留還是回退。在不停歇自我互搏中,它自己發(fā)現(xiàn)了最優(yōu)解,最終讓評(píng)測(cè)集上的效果飆升了 30%。

這種「AI 搞科研」的能力也在公開的測(cè)試集上得到了驗(yàn)證,MiniMax M2.7 被扔進(jìn)了全球最大的機(jī)器學(xué)習(xí)競賽 Kaggle 的 MLE Lite 測(cè)試集。


22 道高難度競賽題,M2.7 依靠內(nèi)部的短時(shí)記憶文件和自反饋機(jī)制,每跑完一輪就給自己提優(yōu)化建議。

24 小時(shí)內(nèi),它一舉拿下了 9 枚金牌、5 枚銀牌、1 枚銅牌,得牌率 66.6%。

這個(gè)成績,僅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),與 Gemini-3.1 直接打平。

當(dāng)一個(gè)模型能夠以解決方案架構(gòu)師的身份,僅用 1 人 4 天時(shí)間,零人工編碼就搭出一套包含測(cè)試和代碼審查的 Agent 系統(tǒng)時(shí),AI 研發(fā)的齒輪,大概已經(jīng)換上了自動(dòng)擋。

在極其硬核的生產(chǎn)力之外,MiniMax M2.7 的底層框架也賦予了它長程穩(wěn)定的記憶和極強(qiáng)的情商,這讓它在互動(dòng)角色扮演(Roleplay)上,比傳統(tǒng)的閑聊機(jī)器人表現(xiàn)要好上不少。

官方在 GitHub 上開源了一個(gè)多模態(tài)交互系統(tǒng) OpenRoom ,一個(gè)萬物皆可互動(dòng)的 Web GUI 空間,可以實(shí)時(shí)地讓 AI 與空間產(chǎn)生不同的交互。

AI 開始學(xué)會(huì)「自己工作」,這件事比寫好代碼更重要

體驗(yàn)下來,MiniMax M2.7 真正讓我們?cè)谝獾?,不是它?Kaggle 競賽刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足夠干凈。

而是它在試圖解決一件更底層的事: 讓 AI 真正理解工作流,并且參與到工作流的演化里 。

過去,軟件是人寫的、人用的?,F(xiàn)在,AI 開始寫軟件、改軟件、用軟件。當(dāng)一個(gè)模型能夠在沒有人工編碼的情況下,自己搭系統(tǒng)、自己測(cè)試、自己回退——「AI 研發(fā)」這件事的齒輪,某種程度上已經(jīng)換上了自動(dòng)擋。

所謂「龍蝦到底該怎么用」,我想很快就不再是一個(gè)問題——因?yàn)闆Q定這一切的,不再是我們。

而是那個(gè),開始學(xué)會(huì)自己工作的 AI。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
勝者為王!張雪辭職那年,嚴(yán)凱坦言:他很有可能會(huì)贏,但我不敢賭

勝者為王!張雪辭職那年,嚴(yán)凱坦言:他很有可能會(huì)贏,但我不敢賭

干史人
2026-04-10 22:30:03
詹姆斯背靠背出戰(zhàn)太陽!斯馬特復(fù)出海斯缺陣 肯納德傷情令人擔(dān)憂

詹姆斯背靠背出戰(zhàn)太陽!斯馬特復(fù)出海斯缺陣 肯納德傷情令人擔(dān)憂

羅說NBA
2026-04-11 06:28:56
高市不演了,東京降級(jí)對(duì)華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

高市不演了,東京降級(jí)對(duì)華關(guān)系,向全球告狀,稱中國欠日本兩筆賬

a入畫淺相思
2026-04-11 00:50:48
新華鮮報(bào)|建好分級(jí)診療“金字塔” 在家門口看好病

新華鮮報(bào)|建好分級(jí)診療“金字塔” 在家門口看好病

新華社
2026-04-09 20:49:11
4-0!英超保級(jí)亂了!熱刺跌入降級(jí)區(qū),2隊(duì)命懸一線,降級(jí)極限4選1

4-0!英超保級(jí)亂了!熱刺跌入降級(jí)區(qū),2隊(duì)命懸一線,降級(jí)極限4選1

光輝記
2026-04-11 04:57:28
全網(wǎng)催張雪換手機(jī)!榮耀真飛到重慶給他換了

全網(wǎng)催張雪換手機(jī)!榮耀真飛到重慶給他換了

大風(fēng)新聞
2026-04-10 11:36:17
14分12板,12分13板!科爾要是早點(diǎn)服軟,懷斯曼說不定真能打出來

14分12板,12分13板!科爾要是早點(diǎn)服軟,懷斯曼說不定真能打出來

移動(dòng)擋拆
2026-04-11 05:51:40
馬斯克:西方不搞電車,歐日韓集體擁抱氫能,中國電動(dòng)車真的錯(cuò)了

馬斯克:西方不搞電車,歐日韓集體擁抱氫能,中國電動(dòng)車真的錯(cuò)了

史行途
2026-04-08 15:27:19
恥辱的1-1!皇馬3場(chǎng)不勝 本輪后或被巴薩甩開9分 賽季或四大皆空

恥辱的1-1!皇馬3場(chǎng)不勝 本輪后或被巴薩甩開9分 賽季或四大皆空

我愛英超
2026-04-11 06:13:05
好消息!廣電微型機(jī)頂盒全國普及,符合條件免費(fèi)換

好消息!廣電微型機(jī)頂盒全國普及,符合條件免費(fèi)換

小柱解說游戲
2026-04-11 03:29:36
王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

王淺秋發(fā)聲!鄭麗文收獲滿滿,獲一邊倒力挺,盧秀燕改口有深意!

相思賦予誰a
2026-04-09 15:15:33
《王者榮耀世界》陷爭議!女角色皮膚被指"太清涼"

《王者榮耀世界》陷爭議!女角色皮膚被指"太清涼"

游民星空
2026-04-08 17:20:28
黃志忠牽手柯藍(lán)捧場(chǎng)張國立話劇,男方眼神不自然,拍拖15年不結(jié)婚

黃志忠牽手柯藍(lán)捧場(chǎng)張國立話劇,男方眼神不自然,拍拖15年不結(jié)婚

娛珈歪歪魚
2026-04-10 10:20:18
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
中國通用技術(shù)(集團(tuán))原總經(jīng)理助理李克全接受監(jiān)察調(diào)查

中國通用技術(shù)(集團(tuán))原總經(jīng)理助理李克全接受監(jiān)察調(diào)查

界面新聞
2026-04-10 10:01:37
美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

美國終于開始害怕?比稀土更致命王牌出手了,萬斯:中國要冷靜

混沌錄
2026-04-10 22:53:19
爸爸夢(mèng)到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

爸爸夢(mèng)到已故兒子說腳被刺扎了,立馬驅(qū)車來到孩子墓前,眼前的一幕讓人驚呆了!

張曉磊
2026-04-10 11:24:23
河南女孩被清華大學(xué)錄取,4年后畢業(yè)懵了,清華:系統(tǒng)里沒有你

河南女孩被清華大學(xué)錄取,4年后畢業(yè)懵了,清華:系統(tǒng)里沒有你

第四思維
2025-08-28 09:32:02
市值蒸發(fā)9.65億!8人小公司掏空上市巨頭,內(nèi)鬼毀掉床墊巨頭

市值蒸發(fā)9.65億!8人小公司掏空上市巨頭,內(nèi)鬼毀掉床墊巨頭

毒sir財(cái)經(jīng)
2026-04-10 16:26:57
美國下狠手!美擬全面禁止中國實(shí)驗(yàn)室檢測(cè)美版手機(jī)、電腦、相機(jī)

美國下狠手!美擬全面禁止中國實(shí)驗(yàn)室檢測(cè)美版手機(jī)、電腦、相機(jī)

粵語音樂噴泉
2026-04-10 02:33:29
2026-04-11 06:51:00
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6292文章數(shù) 26819關(guān)注度
往期回顧 全部

科技要聞

馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識(shí)

頭條要聞

73歲騎友抄近路摔倒身亡 女兒:賠償問題無法達(dá)成共識(shí)

體育要聞

17歲賺了一百萬美元,25歲被CBA裁員

娛樂要聞

黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

財(cái)經(jīng)要聞

李強(qiáng)主持召開經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)

汽車要聞

搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬起

態(tài)度原創(chuàng)

教育
數(shù)碼
時(shí)尚
家居
旅游

教育要聞

上海小升初壓軸題,求面積,難住太多人

數(shù)碼要聞

聯(lián)想推出2026款來酷斗戰(zhàn)者“戰(zhàn)7000”筆記本,7699元起

今日熱點(diǎn):陳添祥長文道歉;夏克立曾給前經(jīng)紀(jì)人傳上廁所照片……

家居要聞

復(fù)古風(fēng)格 自然簡約

旅游要聞

周末來這里!足不出滬體驗(yàn)首爾韓屋風(fēng)情

無障礙瀏覽 進(jìn)入關(guān)懷版