国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

全行業(yè)都在忙著“吃蝦”,MiniMax M2.7已經(jīng)讓蝦自己拿起筷子了

0
分享至

  • 克雷西 發(fā)自 凹非寺
    量子位 | 公眾號 QbitAI

MiniMax發(fā)布M2.5僅過去一個(gè)月,再次重磅更新。

今天他們正式官宣了全新的M2.7模型,這次它干復(fù)雜任務(wù)和Agent團(tuán)隊(duì)協(xié)作的本事更強(qiáng)了。

它的推理和工程能力也有了質(zhì)的飛躍,像生產(chǎn)線上那種讓人頭疼的故障排查,它自己就能搞定。

以前的模型最多也就是給你打打下手寫幾行代碼,現(xiàn)在的M2.7已經(jīng)是個(gè)成熟的SRE(網(wǎng)站可靠性工程)老手了——

自動(dòng)關(guān)聯(lián)監(jiān)控、精準(zhǔn)揪出Bug甚至直接寫腳本把漏洞修好,它都能一條龍包攬。

最狠的是它現(xiàn)在能自己搭建Agent Harness,把思考和干活徹底揉在了一起,直接開啟了自我進(jìn)化之路。

深度適配了OpenClaw長期記憶框架之后,無論是帶入真實(shí)感情陪你沉浸式玩角色扮演,還是應(yīng)付那種極其復(fù)雜的Office自動(dòng)化辦公需求,對它來說全都不在話下。

現(xiàn)在,M2.7已經(jīng)在MiniMax Agent和開放平臺(tái)全量上線了,大家隨時(shí)可以去體驗(yàn)一把。

最佳Cowork Agent模型

咱們先來盤一下,M2.7都有哪些硬核的亮點(diǎn)。

最基礎(chǔ)的是指令遵循和多智能體協(xié)作的躍升,面對海量Skills的復(fù)雜環(huán)境,M2.7調(diào)用得極其穩(wěn)健。

官方測試中,在包含40個(gè)復(fù)雜技能的場景下,它仍然可以保持97%的遵循率,并且在MM-Claw“龍蝦測試”里正確率達(dá)62.7%,直逼Claude Sonnet 4.6。

另外它還原生自帶多智能體協(xié)作,不用外部框架也能組建Agent Teams。模型能穩(wěn)定錨定身份并自主決策,智能體之間互相配合就能把長流程任務(wù)拆解執(zhí)行完。



順著底層執(zhí)行力往下,是代碼能力的直觀爆發(fā)。它從單純的代碼生成,拓展到了代碼重構(gòu)、防漏洞及復(fù)雜排障等高階領(lǐng)域。

在SWE-Pro測試中,它以56.22%的正確率追平GPT-5.3-Codex,端到端項(xiàng)目交付的VIBE-Pro基準(zhǔn)同樣拿下高分。

拿SRE線上排障來說,一告警它就會(huì)關(guān)聯(lián)監(jiān)控推導(dǎo)原因,對調(diào)用鏈分析并連數(shù)據(jù)庫驗(yàn)證,查出漏掉的索引文件后,甚至懂得先用非阻塞方式建索引止血再提代碼合并。

【視頻請移步公眾號查看】

切換到辦公場景,M2.7處理復(fù)雜Office文檔同樣干脆,支持Excel表格、Word文檔和PPT的復(fù)雜多輪修改。

在GDPval-AA評測中,它的ELO評分位列開源第一,并超越GPT-5.3。

以真實(shí)的某公司案例為例,丟給它年報(bào)和溝通會(huì)資料,它能自主比對研報(bào)并構(gòu)建營收預(yù)測模型。

分析完數(shù)據(jù)后,它能直接生成Excel透視表,順手寫出Word版調(diào)研報(bào)告,并基于模板排版出能直接拿來匯報(bào)的PPT,這已經(jīng)具備了一個(gè)初級分析師的水準(zhǔn)。

【視頻請移步公眾號查看】

最后在偏C端互動(dòng)的角色扮演場景中,M2.7還大幅強(qiáng)化了人設(shè)的穩(wěn)定性與對話情商。

它原生支持十種語言,跨語言交流時(shí)人格統(tǒng)一。深度適配長期記憶框架后,在賽博養(yǎng)崽等場景中展現(xiàn)出持久的身份認(rèn)同。

基于這個(gè)特點(diǎn),MiniMax官方設(shè)計(jì)并開源了一個(gè)OpenRoom交互系統(tǒng),把AI了塞進(jìn)萬物皆可互動(dòng)的Web GUI空間。

在這間賽博朋克風(fēng)的“龍蝦小屋”里,對話可以實(shí)時(shí)產(chǎn)生視覺反饋與場景交互,角色主動(dòng)與環(huán)境互動(dòng),沉浸感一整個(gè)拉滿。

【視頻請移步公眾號查看】

說了這么多,賬面實(shí)力究竟有沒有水分,接下來直接進(jìn)入真刀真槍的實(shí)測環(huán)節(jié)。

一個(gè)模型,帶動(dòng)整個(gè)“AI團(tuán)隊(duì)”

第一個(gè)登場的是多Agent原生協(xié)作測試,但這次我們不搞什么“一人公司”,而是讓一群Agent模型模擬人類玩游戲,于是直接扔給了M2.7一個(gè)“誰是臥底”的建房需求。

指令要求它不僅需要統(tǒng)籌1個(gè)主持人Agent和5個(gè)玩家Agent,還得給每個(gè)角色專門撰寫帶有獨(dú)立人設(shè)的SOUL.md文件,

最后還得手搓一個(gè)后臺(tái)程序和前端網(wǎng)頁,來調(diào)度并直觀呈現(xiàn)它們之間的游戲過程。

這個(gè)測試的刁鉆之處在于,它同時(shí)深度考驗(yàn)了模型的指令遵循能力、統(tǒng)籌規(guī)劃能力、多角色扮演穩(wěn)定性以及全棧代碼執(zhí)行力。



結(jié)果,M2.7很快就把整套方案安排得明明白白,并且整理成了一目了然的格式。



當(dāng)然,這個(gè)頁面布局有些把“玩家”的卡片放得過大了,所以我們給了些調(diào)整要求,接下來M2.7就正式開始工作了。

一開始設(shè)計(jì)的游戲界面比較簡單,但功能也是完整的,不過我們把它調(diào)整成了Minecraft風(fēng)格,最后是長這個(gè)樣子:



另一邊,主持人和5個(gè)選手的“人設(shè)”,也都配置好了。



點(diǎn)擊開始按鈕后,六個(gè)原生Agent便開始基于既定規(guī)則,在這個(gè)游戲房間里進(jìn)行順暢交流。

最終,這些選手也在主持人的帶領(lǐng)下,完全自主地跑通了整個(gè)游戲流程,并決出勝負(fù)。

【視頻請移步公眾號查看】

第二個(gè)測試,則是模擬真實(shí)生產(chǎn)環(huán)境,檢驗(yàn)M2.7在強(qiáng)工程場景下的SRE級故障排查與綜合推理能力。

這個(gè)任務(wù)也是放在龍蝦里運(yùn)行的,我們把一份“案發(fā)現(xiàn)場記錄”直接丟在了桌面的文件夾,其中包括四份復(fù)雜生產(chǎn)系統(tǒng)文件材料。

任務(wù)要求極為苛刻,它需要像資深后端架構(gòu)師那樣,找出故障的直接觸發(fā)事件,以及數(shù)據(jù)庫CPU飆升的根本原因,并當(dāng)場寫出排查命令與安全的止血代碼。



面對龐雜的系統(tǒng)材料,M2.7展現(xiàn)出極度敏銳的診斷直覺,迅速從亂麻般的日志中,精準(zhǔn)鎖定拖垮數(shù)據(jù)庫性能的真兇,給出的EXPLAIN命令完全切中要害。



最令人放心的是,它在提供緊急恢復(fù)腳本時(shí),極其專業(yè)地使用了PostgreSQL的CONCURRENTLY語法來執(zhí)行非阻塞建庫索引。

這直接證明它真真切切懂得了生產(chǎn)環(huán)境下“嚴(yán)禁鎖表”的安全紅線。



另外,M2.7還極為規(guī)矩地附上了完整的數(shù)據(jù)庫遷移文件代碼,其規(guī)范程度完全可以直接拿去提交合并請求。



整個(gè)排障流程一氣呵成,徹底展現(xiàn)了M2.7解決復(fù)雜系統(tǒng)災(zāi)難的硬核實(shí)力。

大模型開始自我進(jìn)化了

在M2.7這些讓人眼前一亮的能力背后,還有一套技術(shù)邏輯的根本性進(jìn)化。

首先一點(diǎn)是,M2.7已經(jīng)具備了自我構(gòu)建復(fù)雜Agent Harness的能力。

所謂Agent Harness,其實(shí)就是模型和現(xiàn)實(shí)電腦環(huán)境打交道的工具箱和操作臺(tái),OpenClaw就可以被理解為是Harness的一種。

再直白點(diǎn)說,以前的模型通常是人給什么工具就用什么,但現(xiàn)在M2.7已經(jīng)能自己造工具了。

拿強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)來說,研究員只要給個(gè)初始想法,M2.7就會(huì)自己把實(shí)驗(yàn)跑起來。

它會(huì)時(shí)刻盯著狀態(tài),自動(dòng)看日志、排查故障、改代碼,連提交合并請求和冒煙測試都順手干了。



而且M2.7不僅會(huì)造工具,還能主動(dòng)迭代Harness本身,給整個(gè)工具箱來一波升級。

在優(yōu)化內(nèi)部Agent Harness代碼的測試中,M2.7全程自主把控,通過反復(fù)試錯(cuò),成功摸索出了優(yōu)化路徑,讓模型在內(nèi)部評測集上的效果直接拔高了30%。

再進(jìn)一步,就是模型自己去訓(xùn)練和升級機(jī)器學(xué)習(xí)模型,這也是它能持續(xù)提升算法性能的關(guān)鍵。

M2.7靠短時(shí)記憶、自反饋和自優(yōu)化這三招,每次跑完一輪都會(huì)生成md文件記住教訓(xùn)并給下一輪指路。

把它扔進(jìn)MLE Lite這種極高難度的22道競賽題里,給足24小時(shí)讓它去自主優(yōu)化ML模型,最終它拿下了9金5銀1銅的成績。

眼下整個(gè)行業(yè)都在緊盯硅谷風(fēng)向,跟著一起瘋狂吃蝦,忙著適配OpenClaw來追趕熱度。

跟進(jìn)開源腳手架確實(shí)能快速補(bǔ)齊體驗(yàn),但這依然停留在教模型怎么用人類工具的層面。

但就在此時(shí),MiniMax已經(jīng)切入了下一個(gè)更重要的論題,也就是讓模型自己造工具搞研發(fā),甚至成為自身研發(fā)鏈條的一環(huán)

這種主動(dòng)進(jìn)化的能力,正是決定下一代大模型核心競爭力的分水嶺。

具備了這般能力的MiniMax M2.7,已經(jīng)搶先開啟了模型自我迭代的新紀(jì)元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
爆冷擊敗2號種子!中國女網(wǎng)15歲小花崛起:追趕鄭欽文王欣瑜?

爆冷擊敗2號種子!中國女網(wǎng)15歲小花崛起:追趕鄭欽文王欣瑜?

李喜林籃球絕殺
2026-03-25 17:21:56
淺色系穿搭!這個(gè)組合讓你在健身房瞬間吸引眼球!

淺色系穿搭!這個(gè)組合讓你在健身房瞬間吸引眼球!

獨(dú)角showing
2025-12-31 21:08:57
送檢4個(gè)LV包均為假!消費(fèi)者:都是在專柜買的,LV專柜回應(yīng)

送檢4個(gè)LV包均為假!消費(fèi)者:都是在專柜買的,LV專柜回應(yīng)

福建第一幫幫團(tuán)
2026-03-24 19:32:34
他曾與劉濤同床共枕4年,如今年過六旬依舊未娶,劉濤坦言很愧疚

他曾與劉濤同床共枕4年,如今年過六旬依舊未娶,劉濤坦言很愧疚

她時(shí)尚丫
2026-02-21 22:03:30
胡兵沒想到,張雪峰意外猝死僅1天,竟讓51歲瞿穎口碑再次暴漲

胡兵沒想到,張雪峰意外猝死僅1天,竟讓51歲瞿穎口碑再次暴漲

愛下廚的阿釃
2026-03-26 06:20:07
三星李在镕北京爬長城!6位保鏢貼身保護(hù),被嘲沒老婆越來越邋遢

三星李在镕北京爬長城!6位保鏢貼身保護(hù),被嘲沒老婆越來越邋遢

梅亭談
2026-03-25 14:53:04
浙江男子撿到22萬,還給失主并拒絕酬金,哪料隔天失主說他丟了27萬,讓男子賠5萬,結(jié)果大快人心!

浙江男子撿到22萬,還給失主并拒絕酬金,哪料隔天失主說他丟了27萬,讓男子賠5萬,結(jié)果大快人心!

感覺會(huì)火
2026-03-25 18:31:22
3.0T降價(jià)10.5萬!新一代奧迪A6L上市,賣32.29萬起

3.0T降價(jià)10.5萬!新一代奧迪A6L上市,賣32.29萬起

網(wǎng)上車市
2026-03-26 09:39:50
張雪峰死因:吃外賣撐住了?

張雪峰死因:吃外賣撐住了?

李萬卿
2026-03-26 10:48:19
張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

張雪峰離世1天后,才發(fā)現(xiàn)女兒名字取得暗藏深意,字字都有來頭

閱識
2026-03-26 01:27:12
張雪峰公司對聯(lián)已拆!一個(gè)月前注冊近40枚“姩菡”商標(biāo),捐款千萬

張雪峰公司對聯(lián)已拆!一個(gè)月前注冊近40枚“姩菡”商標(biāo),捐款千萬

離離言幾許
2026-03-25 15:07:06
女人其實(shí)比男人更開放、更大膽、更熱烈、更需要刺激

女人其實(shí)比男人更開放、更大膽、更熱烈、更需要刺激

加油丁小文
2026-03-24 11:55:30
大家做好長期的打算吧!

大家做好長期的打算吧!

燕梳樓頻道
2026-03-25 12:19:22
上海男籃的“李花兄弟”,回來了!

上海男籃的“李花兄弟”,回來了!

新民晚報(bào)
2026-03-26 10:37:53
張雪峰治喪工作組澄清了哪些網(wǎng)傳謠言?

張雪峰治喪工作組澄清了哪些網(wǎng)傳謠言?

可樂談情感
2026-03-26 12:05:43
中國大使參加摩洛哥國王宴會(huì),士兵闖入開槍掃射,眾人倒在血泊中

中國大使參加摩洛哥國王宴會(huì),士兵闖入開槍掃射,眾人倒在血泊中

百年歷史老號
2024-04-02 19:37:39
橫店巨變!20萬群演困境:美女泛濫懶漢遍地,降薪后路在何方?

橫店巨變!20萬群演困境:美女泛濫懶漢遍地,降薪后路在何方?

網(wǎng)絡(luò)易不易
2026-03-25 10:31:12
史上最大規(guī)模D加密破解潮!單日21款游戲被攻破

史上最大規(guī)模D加密破解潮!單日21款游戲被攻破

3DM游戲
2026-03-26 09:21:05
張雪峰遺產(chǎn)安排:他沒把財(cái)富攥自己手里,而是這樣分,曾一語成讖

張雪峰遺產(chǎn)安排:他沒把財(cái)富攥自己手里,而是這樣分,曾一語成讖

楓紅染山徑
2026-03-26 12:03:34
內(nèi)馬爾落選大名單,羅馬里奧:安帥最好小心點(diǎn),巴西不能沒他

內(nèi)馬爾落選大名單,羅馬里奧:安帥最好小心點(diǎn),巴西不能沒他

懂球帝
2026-03-25 22:26:05
2026-03-26 13:16:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12346文章數(shù) 176424關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時(shí)限4到5天

頭條要聞

伊朗議長和外長暫被移出美以清除名單 時(shí)限4到5天

體育要聞

35歲替補(bǔ)門將,憑什么入選英格蘭隊(duì)?

娛樂要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡

財(cái)經(jīng)要聞

黃仁勛:芯片公司的時(shí)代已經(jīng)結(jié)束了

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

本地
數(shù)碼
手機(jī)
旅游
公開課

本地新聞

春日吃花第三站——廣東

數(shù)碼要聞

海盜船MAKR PRO 75霍爾效應(yīng)磁軸鍵盤國行上市,1999元

手機(jī)要聞

華為全面回歸官宣!產(chǎn)品全覆蓋、麒麟全搭載,國產(chǎn)手機(jī)重回巔峰

旅游要聞

人不算多風(fēng)景極美 清明假期去這7座寶藏小城

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版