国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Opus 4.7重新登頂榜單,但強(qiáng)得多的GPT-5.5極大概率下周就發(fā)

0
分享至


新智元報(bào)道

編輯:艾倫

【新智元導(dǎo)讀】Opus 4.7 在綜合榜和代碼榜同時(shí)登頂,優(yōu)勢(shì)集中在長(zhǎng)任務(wù)執(zhí)行、工具調(diào)用和工程工作流完成率。Anthropic 借這次升級(jí)穩(wěn)住了企業(yè)級(jí) AI 市場(chǎng)里最接近預(yù)算和采購的那塊位置。

本周,Anthropic 發(fā)布 Claude Opus 4.7。

它在兩份最受關(guān)注的公開評(píng)測(cè)里重新登頂。

Artificial Analysis 的綜合智能榜單上,Opus 4.7 拿到 57 分,高于上一代 Opus 4.6 的 53 分,進(jìn)入第一梯隊(duì);


Arena.ai 最新公布的 Code Arena 結(jié)果里,Opus 4.7 排名第一,得分 1583,較 Opus 4.6 Thinking 的 1549 提升 34 分,也領(lǐng)先榜上下一家非 Anthropic 模型一大截,同時(shí)拿下 React 和 HTML 兩個(gè)子榜第一。


這輪榜單變化的意義,更像一次市場(chǎng)校準(zhǔn)。

過去兩年,大模型行業(yè)熱衷討論能力邊界,誰參數(shù)更大,誰推理更長(zhǎng),誰演示更驚艷,誰更接近那個(gè)永遠(yuǎn)在路上的 AGI。

到了 2026 年,企業(yè)客戶的判斷標(biāo)準(zhǔn)已經(jīng)換了。

客戶越來越少追問誰最像一個(gè)全科狀元,越來越多追問另一件更現(xiàn)實(shí)的事:誰能進(jìn)系統(tǒng),誰能接流程,誰能把任務(wù)穩(wěn)定做完。

Opus 4.7 這次得分上漲,恰好踩中這套新標(biāo)準(zhǔn)。

Anthropic 官方披露的幾組數(shù)據(jù),方向非常集中。


在 Anthropic 自建的 93 項(xiàng)編碼基準(zhǔn)上,Opus 4.7 相比 Opus 4.6 的任務(wù)解決率提升了 13%;

在 CursorBench 上,成績(jī)從 58% 提升到 70%;

在 Notion 的多步工作流測(cè)試?yán)铮w效果提升 14%,工具調(diào)用錯(cuò)誤下降到原來的三分之一。

Anthropic 官網(wǎng)列舉的客戶反饋也都圍繞同一類能力展開:自主推進(jìn)、少犯錯(cuò)、遇到工具失敗時(shí)還能繼續(xù)執(zhí)行。

這些數(shù)字拆開看都不算戲劇化,放在一起卻很說明問題。

Opus 4.7 的進(jìn)步集中在最難規(guī)模化、也最容易決定商業(yè)化成敗的那部分能力上:長(zhǎng)任務(wù)執(zhí)行、跨步驟銜接、工具調(diào)用穩(wěn)定性,以及在信息不足時(shí)保持克制。

單步問答的領(lǐng)先,越來越像發(fā)布會(huì)上的視覺效果;

長(zhǎng)鏈路任務(wù)里的穩(wěn)定表現(xiàn),才更接近企業(yè)愿意付錢的理由。

模型要讀代碼倉庫,要改多個(gè)文件,要處理依賴錯(cuò)誤,要在失敗后繼續(xù)往前推,還要知道什么時(shí)候該停下來。

很多系統(tǒng)的問題從來不在某一步答錯(cuò),而是流程一拉長(zhǎng)就開始松動(dòng),最后還是要人接手收尾。

Anthropic 過去一年的路線,也一直圍著這件事打。

它沒有把主要精力放在最容易被普通用戶感知的聊天體驗(yàn)上,而是持續(xù)把模型往「執(zhí)行單元」上推。

編碼、知識(shí)檢索、文檔審閱、法律研究、金融分析,這些環(huán)節(jié)容錯(cuò)率低、單位價(jià)值高,也最容易形成企業(yè)級(jí)采購。

Anthropic 官網(wǎng)這次列出的合作與反饋對(duì)象,包括 Cursor、Notion、Rakuten、CodeRabbit、Warp、Vercel、XBOW 等公司,幾乎全部對(duì)應(yīng)明確的工作流,而不是泛化的消費(fèi)級(jí)場(chǎng)景。

這也是 Opus 4.7 這輪發(fā)布最值得關(guān)注的地方。

Anthropic 搶的從來都不是最熱鬧的用戶入口,而是企業(yè)預(yù)算最集中的入口。

OpenAI 仍然擁有最強(qiáng)的公眾注意力,谷歌仍然掌握平臺(tái)和基礎(chǔ)設(shè)施優(yōu)勢(shì),開源陣營(yíng)則繼續(xù)用更低成本壓縮閉源模型的利潤(rùn)空間。

Anthropic 的路線一直更窄,也更清楚。

它想進(jìn)入的,是那些已經(jīng)能被計(jì)算 ROI 的工作環(huán)節(jié)。

模型一旦進(jìn)入代碼生成、文檔處理、金融分析、法律研究這些流程,帶來的就不是一次性驚嘆,而是可以被量化的人力替代率、時(shí)間壓縮率和錯(cuò)誤率下降。

試點(diǎn)能否轉(zhuǎn)成采購,采購能否轉(zhuǎn)成復(fù)購,通常就在這里決定。

榜首當(dāng)然重要,但它也沒有終局意味。

Arena 公布的細(xì)分結(jié)果顯示,Opus 4.7 在 Overall、Expert、Coding 等項(xiàng)目上更強(qiáng),Creative Writing 也有提升;


但在部分分類里,上一代 Opus 4.6 仍然領(lǐng)先。

這反而說明前沿模型之間的競(jìng)爭(zhēng),已經(jīng)從代際式跨越,收縮成任務(wù)結(jié)構(gòu)和能力配比的差異。

市場(chǎng)不再等待一個(gè)通吃一切的統(tǒng)一模型,而是在不同任務(wù)里尋找更適合的工具。

誰在工程任務(wù)上更強(qiáng),誰在多模態(tài)上更順,誰在價(jià)格上更有壓迫感,座次會(huì)不斷變化。

也正因?yàn)槿绱?,Opus 4.7 的時(shí)間點(diǎn)很關(guān)鍵。

它發(fā)布前后,市場(chǎng)另一條高頻話題是 OpenAI 下一代模型 GPT-5.5 的傳聞,Polymarket 上相關(guān)押注也一度升溫。



眼下這些更多還停留在預(yù)期層面。

真正能進(jìn)入企業(yè)評(píng)估流程的,仍然是已經(jīng)發(fā)布、已經(jīng)評(píng)測(cè)、已經(jīng)可以接入系統(tǒng)的模型。

Anthropic 這次并不需要證明 Opus 4.7 是未來半年里的絕對(duì)最強(qiáng)模型,它更現(xiàn)實(shí)的目標(biāo),是在下一輪更大規(guī)模的模型發(fā)布潮到來之前,把自己重新放回企業(yè)客戶和平臺(tái)方的重點(diǎn)名單里,并且給出一套足夠具體、足夠可采購的理由。

現(xiàn)在看,這套理由已經(jīng)成立。

綜合榜成績(jī)、代碼榜成績(jī)、長(zhǎng)任務(wù)能力提升、工具調(diào)用錯(cuò)誤下降,這些指標(biāo)拼在一起,構(gòu)成了一個(gè)很清楚的市場(chǎng)信號(hào):Anthropic 拿出了一款更適合進(jìn)入生產(chǎn)系統(tǒng)的旗艦?zāi)P汀?/p>

對(duì)于企業(yè)用戶來說,這種信號(hào)比任何宏大的技術(shù)敘事都更有說服力。

采購不會(huì)因?yàn)橐患夜镜墓适赂鼊?dòng)人而發(fā)生,只會(huì)因?yàn)榱硪患夜靖赡芊€(wěn)定交付結(jié)果而發(fā)生。

Anthropic 想拿下的,則是下一輪企業(yè)級(jí) AI 市場(chǎng)里更高的定價(jià)權(quán)。

參考資料:

https://x.com/ArtificialAnlys/status/2045292578434875552

https://x.com/arena/status/2045194638630560104

https://x.com/Polymarket/status/2045616553308147936

https://x.com/daniel_mac8/status/2045505817709838487

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
外媒終于承認(rèn):中東一打仗才發(fā)現(xiàn),美國這三大支柱,離倒也不遠(yuǎn)了

外媒終于承認(rèn):中東一打仗才發(fā)現(xiàn),美國這三大支柱,離倒也不遠(yuǎn)了

南宗歷史
2026-04-20 01:12:34
伊朗未證實(shí)伊美復(fù)談消息

伊朗未證實(shí)伊美復(fù)談消息

界面新聞
2026-04-19 20:45:22
笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評(píng)論區(qū)

笑麻!女子吐槽花1年裝修的新中式都說像法庭,我卻笑死在評(píng)論區(qū)

另子維愛讀史
2026-04-17 17:36:52
輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

輸給湖人后,火箭揪出最大“水貨”!杰倫-格林離隊(duì)真的太冤了

兵哥籃球故事
2026-04-19 15:21:32
6個(gè)家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

6個(gè)家庭天塌了!成都面包車追尾致6死5傷,原因公布,真相太氣人

奇思妙想草葉君
2026-04-18 23:52:46
鍾欣潼22歲清純動(dòng)人畫面罕曝光,英皇釋出Twins昔日三週年片段

鍾欣潼22歲清純動(dòng)人畫面罕曝光,英皇釋出Twins昔日三週年片段

粵睇先生
2026-04-20 00:45:03
郭冬臨現(xiàn)狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

郭冬臨現(xiàn)狀:住北京老房子,身形消瘦、臉頰凹陷,59歲無兒無女

攬星河的筆記
2026-04-17 18:36:52
隨著山東爆冷終結(jié)深圳15連勝,廣廈+北京贏球,CBA最新積分榜出爐

隨著山東爆冷終結(jié)深圳15連勝,廣廈+北京贏球,CBA最新積分榜出爐

小火箭愛體育
2026-04-19 21:59:01
這是迄今為止,我見過最美的中年女性,成熟豐腴太完美

這是迄今為止,我見過最美的中年女性,成熟豐腴太完美

動(dòng)物奇奇怪怪
2026-04-05 12:26:48
5月1日起,10類行為全國嚴(yán)查!誰碰誰倒霉

5月1日起,10類行為全國嚴(yán)查!誰碰誰倒霉

石辰搞笑日常
2026-04-19 01:06:37
每體:巴薩預(yù)計(jì)夏窗工資支出增加,且完成8000萬歐重磅轉(zhuǎn)會(huì)

每體:巴薩預(yù)計(jì)夏窗工資支出增加,且完成8000萬歐重磅轉(zhuǎn)會(huì)

懂球帝
2026-04-19 22:16:18
經(jīng)紀(jì)人霍汶希評(píng)論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

經(jīng)紀(jì)人霍汶希評(píng)論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

小徐講八卦
2026-04-19 11:17:33
愛潑斯坦文件曝光!豁免證人實(shí)錘,梅拉尼婭是誰介紹給特朗普的

愛潑斯坦文件曝光!豁免證人實(shí)錘,梅拉尼婭是誰介紹給特朗普的

豆腐腦觀察局
2026-04-20 00:15:03
200名中企工人海外務(wù)工被欠薪,向普京求援,俄方:已解約不擔(dān)責(zé)

200名中企工人海外務(wù)工被欠薪,向普京求援,俄方:已解約不擔(dān)責(zé)

杰絲聊古今
2026-04-18 15:44:36
沙媒:馬寧將賽后被沖撞寫入比賽報(bào)告,并已提交給亞足聯(lián)

沙媒:馬寧將賽后被沖撞寫入比賽報(bào)告,并已提交給亞足聯(lián)

懂球帝
2026-04-19 17:19:01
“外軍飛機(jī)就在旁邊……”南部沿海一線,飛行員最新披露!

“外軍飛機(jī)就在旁邊……”南部沿海一線,飛行員最新披露!

環(huán)球網(wǎng)資訊
2026-04-19 09:53:02
性學(xué)專家說:男人一定要記住,女人,她愛不愛你,根本不用去試探

性學(xué)專家說:男人一定要記住,女人,她愛不愛你,根本不用去試探

伊人河畔
2026-03-03 10:47:05
天呢!中年失業(yè)男求職,被HR諷刺挖苦“都41歲了,還亂投簡(jiǎn)歷…”

天呢!中年失業(yè)男求職,被HR諷刺挖苦“都41歲了,還亂投簡(jiǎn)歷…”

慧翔百科
2026-04-17 12:08:24
連入三球,吉布斯-懷特職業(yè)生涯首次上演帽子戲法

連入三球,吉布斯-懷特職業(yè)生涯首次上演帽子戲法

懂球帝
2026-04-19 22:47:08
突然“值錢了”!不少人家里都有,專家提醒:別賣!

突然“值錢了”!不少人家里都有,專家提醒:別賣!

娛樂圈見解說
2026-04-19 10:33:31
2026-04-20 01:59:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15012文章數(shù) 66787關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

頭條要聞

半年下沉22厘米 女子家中坐擁價(jià)值上億別墅卻沒法住人

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

何潤(rùn)東漲粉百萬!內(nèi)娛隔空掀桌第一人

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

家居
藝術(shù)
游戲
公開課
軍事航空

家居要聞

法式線條 時(shí)光靜淌

藝術(shù)要聞

超模施特洛耶克寫真曝光,簡(jiǎn)直美到窒息,別錯(cuò)過!

如何將ZH-1火力最大化?《戰(zhàn)艦世界》15.3版本造船廠加點(diǎn)攻略

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗逼退美掃雷艇:美方求給15分鐘撤退

無障礙瀏覽 進(jìn)入關(guān)懷版