国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

長文問答準(zhǔn)確率大漲 17% 后,Anthropic 把“不亂猜”做成了核心賣點

0
分享至


當(dāng)?shù)貢r間4 月 16 日,Anthropic 正式發(fā)布新一代旗艦?zāi)P?Claude Opus 4.7。該公司將其定位為"迄今能力最強的通用可用模型",標(biāo)志著人工智能行業(yè)競爭焦點的決定性轉(zhuǎn)變——從追求對話流暢性轉(zhuǎn)向考核自主任務(wù)執(zhí)行能力。

與兩個月前發(fā)布的 Opus 4.6 相比,新版本專為Agentic工作流設(shè)計,即需要 AI 在較長時間內(nèi)獨立運行、僅需少量人類干預(yù)的復(fù)雜任務(wù)。此次更新優(yōu)先提升高分辨率視覺感知、復(fù)雜多步軟件工程鏈穩(wěn)定性,以及長上下文檢索能力,而非單純追求推理深度(官方博客地址:https://www.anthropic.com/news/claude-opus-4-7)。

值得注意的是,Anthropic 在發(fā)布 Opus 4.7 的同時坦誠表示,這并非其最強模型——能力更強的 Claude Mythos Preview 仍處于受限測試階段。


視覺智能突破與長上下文瓶頸攻克

在企業(yè)級應(yīng)用場景的基準(zhǔn)測試中,Opus 4.7 與主要競爭對手的性能差距進(jìn)一步拉大。在 OfficeQA Pro 評測中——該評測由 Databricks 開發(fā),要求模型解析近 9 萬頁美國財政部歷史文件(涵蓋近 100 年公報、2600 萬個數(shù)字)——Opus 4.7 取得 80.6% 的得分。這一結(jié)果幾乎是谷歌 Gemini 3.1 Pro(42.9%)的兩倍,并大幅領(lǐng)先于 GPT-5.4(51.1%)。數(shù)據(jù)顯示,Anthropic 已在長上下文檢索的關(guān)鍵瓶頸上取得突破。


在 BFS 1M 測試中——該測試由 OpenAI 設(shè)計,將一張有向圖用邊列表塞滿 100 萬 token 上下文,要求模型進(jìn)行圖遍歷——Opus 4.7 從 Opus 4.6 的 41.2% 提升至 58.6%,提升幅度達(dá) 17.4 個百分點。這項指標(biāo)被視為衡量 AI 智能體(Agent)跑多步驟長任務(wù)的硬性指標(biāo)。在 Vending-Bench 2 模擬經(jīng)營測試中,Opus 4.7 最終實現(xiàn) 10,937 美元余額,較 Opus 4.6 的 8,018 美元提升 36%,展現(xiàn)出長時間工作流中的決策連貫性優(yōu)勢。


視覺智能是此版本進(jìn)步最為顯著的方面。

Opus 4.7 現(xiàn)在支持最長邊達(dá) 2,576 像素的圖像輸入,分辨率約 375 萬像素,較前代提升超過三倍。這使得模型能夠"看到"屏幕上占比低至 0.07% 的 UI 元素。在 ScreenSpot-Pro 基準(zhǔn)測試中——該基準(zhǔn)評估 AI 在 VSCode、Photoshop、AutoCAD 等專業(yè)軟件中定位特定按鈕或數(shù)據(jù)點的能力——Opus 4.7 在高分辨率模式下配合工具調(diào)用功能達(dá)到 87.6% 的成功率,而 Opus 4.6 在低分辨率下僅為 57.7%。

這種精確度不再是單純的學(xué)術(shù)探索,而是"電腦使用"(Computer Use)能力的前提。Anthropic 將圖像分辨率大幅提升的本質(zhì)目的,是讓 AI 能夠看懂軟件界面、密集表格、終端輸出、設(shè)計稿細(xì)節(jié)和代碼截圖。

未來 AI 辦公、AI 測試、AI 安全、AI 前端開發(fā)等任務(wù),都將從純文本任務(wù)轉(zhuǎn)向屏幕任務(wù)。在 SWE-bench Multimodal 測試中——該測試要求模型結(jié)合 UI 截圖和代碼一起修復(fù)前端 JavaScript bug——Opus 4.7 從 Opus 4.6 的 27.1% 提升至 34.5%,提升 7.4 個百分點。這表明視覺能力的升級直接服務(wù)于編程場景的實際需求。

Anthropic 在官方公告中特別強調(diào),Opus 4.7 在指令遵循能力上出現(xiàn)顯著提升。過往模型可能會寬松地"糊弄"指令或完全跳過部分指示,但 Opus 4.7 會嚴(yán)格按字面意思執(zhí)行指令。

這一變化帶來雙重影響:一方面,它減少了提示詞"玄學(xué)",使寫需求、定格式、列限制條件變得更加可靠;另一方面,用戶可能需要重寫舊的、更偏對話式的提示詞以避免意外輸出。許多用戶的提示詞是在舊模型"會自動補全真實意圖"的習(xí)慣上調(diào)優(yōu)出來的,而新模型的剛性可能導(dǎo)致這些舊提示詞失效。

在高級軟件工程領(lǐng)域,這種嚴(yán)謹(jǐn)性轉(zhuǎn)化為顯著提升。在 SWE-bench Verified 測試中,Opus 4.7 得分為 87.6%,Opus 4.6 為 80.8%;在更難的 SWE-bench Pro 測試中,Opus 4.7 為 64.3%,Opus 4.6 為 53.4%。這意味著用戶可以將過去需要密切監(jiān)督的高難度編碼工作交給 Opus 4.7 處理,它會在匯報結(jié)果前主動驗證自身輸出。

Opus 4.7 在使用基于文件系統(tǒng)的記憶方面表現(xiàn)更為出色。它能在長時間、多會話的工作中記住重要筆記,并將其用于開展新的任務(wù),因此新任務(wù)需要更少的前置上下文。一個能跨會話記住項目約束、用戶偏好、架構(gòu)決策和上次失敗原因的 Agent,才可能從"聰明臨時工"變成"穩(wěn)定同事"。這一特性在官方公告中并不顯眼,但可能是長期使用中最關(guān)鍵的更新。

伴隨 Opus 4.7 發(fā)布,Anthropic 還更新了 Claude Code,新增 auto mode 和/ultrareview 功能。auto mode 不是模型自動選型,而是權(quán)限選項。它允許 Claude 替用戶做一些權(quán)限決策,讓長任務(wù)少被打斷,但風(fēng)險低于完全跳過權(quán)限確認(rèn)。

這個設(shè)計針對的是 Agent 產(chǎn)品的核心矛盾:問太多,Agent 像實習(xí)生;不問,風(fēng)險又太大。auto mode 的本質(zhì),就是在"別煩我"和"別亂來"之間找平衡。/ultrareview 是一個專門的代碼審查會話,可讀取變更并指出 bug 和設(shè)計問題。

這標(biāo)志著 AI 編程正式進(jìn)入第二階段:讓 AI 自己審查 AI 自己生成的代碼。生成代碼只是開發(fā)流程的一部分,審查、測試、重構(gòu)、文檔同樣重要。如果 AI 只能做第一步,它永遠(yuǎn)只是輔助工具;如果它能參與整個流程,它才可能真正改變軟件開發(fā)的方式。

專業(yè)領(lǐng)域的經(jīng)濟(jì)價值正加速釋放

在 Structural Biology(結(jié)構(gòu)生物學(xué))基準(zhǔn)測試中,Opus 4.7 的推理得分從 Opus 4.6 的 30.9% 躍升至 74.0%,一次版本迭代實現(xiàn) 2.4 倍增長。這是所有基準(zhǔn)測試中躍升最夸張的一項。這種分子推理能力的突破表明,該模型正在從通用輔助邁向?qū)I(yè)科學(xué)研究領(lǐng)域。對于更廣泛的勞動力市場而言,模型改進(jìn)后的指令遵循能力意味著在短時間內(nèi)它更不容易產(chǎn)生"幻覺"或遺漏步驟。

在金融分析領(lǐng)域,Opus 4.7 同樣取得領(lǐng)先地位。在 Finance Agent v11 測試中,Opus 4.7 得分為 64.4%,Opus 4.6 為 60.1%。在 GDPval-AA 評估中——該評估由 Artificial Analysis 基于 OpenAI GDPval 數(shù)據(jù)集開發(fā),覆蓋 44 種知識工作職業(yè)、9 大 GDP 核心行業(yè),任務(wù)來自資深職業(yè)人士(平均 14 年經(jīng)驗)的真實交付物——Opus 4.7 獲得 1753 分的 Elo 評分,高于 Opus 4.6(1619 分)、GPT-5.4(1674 分)和 Gemini 3.1 Pro(1314 分)。

Anthropic 介紹稱,Opus 4.7 在金融分析任務(wù)上能夠生成更嚴(yán)謹(jǐn)?shù)姆治雠c建模、更專業(yè)的報告展示,并在各項任務(wù)間實現(xiàn)更緊密的整合。

在發(fā)布 Opus 4.7 的同時,Anthropic 推出了一份系統(tǒng)說明書并更新了 Cyber Verification Program(網(wǎng)絡(luò)安全驗證計劃)。該項目本質(zhì)上是對能力進(jìn)行分級:普通用戶拿到的是有護(hù)欄的 Opus,經(jīng)過驗證的安全專家才能申請更寬的網(wǎng)絡(luò)安全用途權(quán)限。值得注意的是,Anthropic 有意限制了 Opus 4.7 的高級網(wǎng)絡(luò)安全能力,使其低于 Mythos Preview 模型中的水平,以防止在進(jìn)攻性操作中的濫用。官方甚至表示,他們在訓(xùn)練過程中實驗性地削弱了這個模型的網(wǎng)絡(luò)安全能力。

Opus 4.7 被明確定位為"第一款用來測試新網(wǎng)絡(luò)安全護(hù)欄的公開模型"。Anthropic 表示,他們會從 Opus 4.7 的真實部署中學(xué)習(xí),為未來 Mythos 級別模型的廣泛發(fā)布做準(zhǔn)備。這種謹(jǐn)慎的部署策略凸顯了硅谷日益增長的緊張關(guān)系:在爭相打造能夠替代人類工作者的模型的同時,也要確保同一模型無法摧毀數(shù)字基礎(chǔ)設(shè)施。當(dāng)模型能力達(dá)到某個臨界點后,競爭邏輯從"我比你強"開始轉(zhuǎn)向"會不會出事"。

特朗普政府最近強調(diào)美國在 AI 安全方面需要發(fā)揮領(lǐng)導(dǎo)作用,Anthropic 的發(fā)布策略正是對這一政策導(dǎo)向的呼應(yīng)。公司選擇先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術(shù)上做不到,而是主動選擇不做。這種"克制"本身成了產(chǎn)品差異化的一部分。至少在發(fā)布策略上,Anthropic 給出了一種新思路:有時候"不做什么"比"能做什么"更重要。

Token 消耗激增背后的成本邏輯

效率也意味著實實在在的成本。

Opus 4.7 使用了修訂后的分詞器(tokenizer),使得相同輸入量下的 token 消耗大約增加了 10% 到 35%。雖然 Anthropic 在定價上與 Opus 4.5 和 Opus 4.6 保持一致(輸入每百萬 token 5 美元,輸出每百萬 token 25美元),但 token 密度的增加意味著高強度任務(wù)將更快消耗 API 積分。

這種隱性成本上漲是模型增加"思考"時間的代價。尤其在使用新的 Xhigh Effort 模式時——該模式位于標(biāo)準(zhǔn)處理與最大推理深度之間——模型會進(jìn)行更多內(nèi)部推理,從而提高可靠性,但也會產(chǎn)生更多輸出 token。Anthropic 在遷移指南中提醒用戶,Opus 4.7 的 token 使用可能增加,但在實際編程評估中,整體效率反而提升了。

這說明他們優(yōu)化的不是單次調(diào)用的成本,而是完成任務(wù)的總成本。一個 Agent 如果第一次就把事情做對,即使單次調(diào)用貴一點,總成本也比反復(fù)試錯要低。這是一種更成熟的產(chǎn)品思路。早期 AI 產(chǎn)品追求的是"便宜"和"快",現(xiàn)在開始追求"靠譜"。

Anthropic 新增的 x-high effort 和 task budgets(任務(wù)預(yù)算)功能,說明高端模型的使用方式正在走當(dāng)年云計算的那套邏輯。用戶買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務(wù)過程付費。

過去模型計費主要看輸入輸出長度,現(xiàn)在還要看思考的等級、任務(wù)預(yù)算、Agent 跑了幾輪、工具失敗后有沒有繼續(xù)推理。這種計費模式的演變,反映出 Agent 產(chǎn)品從"能干什么"到"能不能用"的巨大飛躍。

綜合來看,Opus 4.7 不是最強的模型,Anthropic 也沒有把它包裝成最強的模型。它是在能力、安全、成本之間的一個平衡點。至于這個平衡點是否真的平衡,需要等待市場來驗證。

可以確定的是,隨著 Opus 4.7 的發(fā)布,AI 行業(yè)競爭的核心指標(biāo)已經(jīng)改變。大模型競爭的焦點,正在從答得像不像,轉(zhuǎn)到做得完不完。只會寫一段漂亮答案,已經(jīng)不夠了。能不能把一份長文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續(xù)幾十分鐘甚至更久不跑偏,這才會決定它在日常工作里能不能真的替人扛起一片天。

這個策略能否成功,取決于市場是否認(rèn)可"謹(jǐn)慎"這個概念。如果用戶只在乎"能不能做到",那 Anthropic 的做法會顯得保守。但如果企業(yè)客戶開始重視"會不會出事",那這種分級發(fā)布、主動削弱某些能力的做法,反而可能成為競爭優(yōu)勢。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
斯諾克戰(zhàn)報!4強專業(yè)戶轟7-2,肖國棟德比逆轉(zhuǎn),張安達(dá)爆冷名將?

斯諾克戰(zhàn)報!4強專業(yè)戶轟7-2,肖國棟德比逆轉(zhuǎn),張安達(dá)爆冷名將?

劉姚堯的文字城堡
2026-04-19 07:55:54
杜蘭特傷停,火箭VS湖人G1首發(fā)陣容出爐,東契奇?zhèn)鱽砗孟?>
    </a>
        <h3>
      <a href=世界體育圈
2026-04-19 08:40:43
阿薩德沒做到的事,朱拉尼完成了,美軍全部撤離,敘利亞浴火重生

阿薩德沒做到的事,朱拉尼完成了,美軍全部撤離,敘利亞浴火重生

浪子阿邴聊體育
2026-04-18 06:15:21
泰國潑水節(jié)242人死亡,1200人受傷

泰國潑水節(jié)242人死亡,1200人受傷

每日經(jīng)濟(jì)新聞
2026-04-18 10:09:13
有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網(wǎng)友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
杜蘭特傷情傳來最新消息!跟腱斷裂是同一腿,火箭隊還在自欺欺人

杜蘭特傷情傳來最新消息!跟腱斷裂是同一腿,火箭隊還在自欺欺人

硯底沉香
2026-04-19 02:21:03
“最佳血壓”是多少?醫(yī)生:過65歲以后,血壓最好控制在這個范圍

“最佳血壓”是多少?醫(yī)生:過65歲以后,血壓最好控制在這個范圍

寶哥精彩賽事
2026-04-18 09:40:38
張本智和怒了:我是自愿退出中國籍加入日本籍,憑啥讓我滾出中國

張本智和怒了:我是自愿退出中國籍加入日本籍,憑啥讓我滾出中國

拳擊時空
2026-04-18 13:11:30
被噴用中國貨!韓國Naver宣布:全面棄用阿里Qwen編碼器

被噴用中國貨!韓國Naver宣布:全面棄用阿里Qwen編碼器

快科技
2026-04-18 10:23:13
美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領(lǐng)導(dǎo)的政府找到了許多“非常有趣”的文件

美國總統(tǒng)特朗普稱將很快發(fā)布第一批UFO文件!特朗普:我領(lǐng)導(dǎo)的政府找到了許多“非常有趣”的文件

每日經(jīng)濟(jì)新聞
2026-04-18 11:35:50
公開認(rèn)罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

公開認(rèn)罪后,人民日報對許家印稱呼變了,11字之差釋放信號不一般

云舟史策
2026-04-19 07:23:24
中國游客赴朝鮮旅游,朝鮮人滿是疑惑:中國人為何會這樣?

中國游客赴朝鮮旅游,朝鮮人滿是疑惑:中國人為何會這樣?

老特有話說
2026-04-17 16:52:59
廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

今日搞笑分享
2026-04-06 17:55:16
雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個小時,多名車友一路跟隨

雷軍挑戰(zhàn)成功!小米新SU7行駛1313公里只充1次電,連續(xù)直播15個小時,多名車友一路跟隨

極目新聞
2026-04-17 22:41:31
【國王杯】皇家社會點球戰(zhàn)勝馬競,隊史第4次奪冠

【國王杯】皇家社會點球戰(zhàn)勝馬競,隊史第4次奪冠

體壇周報
2026-04-19 08:36:32
1920年,林徽因和父親林長民,在倫敦寓所里吃西餐,顏值太高了!

1920年,林徽因和父親林長民,在倫敦寓所里吃西餐,顏值太高了!

云霄紀(jì)史觀
2026-04-14 02:18:38
再年輕也沒用!31歲美女空姐李旭怡去世,死因曝光,3年前才懷2胎

再年輕也沒用!31歲美女空姐李旭怡去世,死因曝光,3年前才懷2胎

哄動一時啊
2026-04-18 14:35:19
照母山近十年首個豪宅開盤,兩小時宣告售罄?現(xiàn)場驚爆大瓜

照母山近十年首個豪宅開盤,兩小時宣告售罄?現(xiàn)場驚爆大瓜

小樹聊房
2026-04-18 21:54:43
伊朗石油買不到,俄石油不準(zhǔn)買,美媒吐槽印度:又一次被美國背刺

伊朗石油買不到,俄石油不準(zhǔn)買,美媒吐槽印度:又一次被美國背刺

大光觀察
2026-04-19 09:00:10
曾經(jīng)嫁給葉劍英兒子,自己創(chuàng)造出獨特名媛圈的趙欣瑜,如今怎樣了

曾經(jīng)嫁給葉劍英兒子,自己創(chuàng)造出獨特名媛圈的趙欣瑜,如今怎樣了

大眼妹妹
2026-04-18 22:07:20
2026-04-19 09:28:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經(jīng)科技媒體
132461文章數(shù) 862104關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

頭條要聞

女子與情人在車上發(fā)生關(guān)系后被殺 還被灌農(nóng)藥偽造殉情

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

手機
時尚
本地
數(shù)碼
游戲

手機要聞

華為Pura X Max:被曝24日開賣!華為Pura 90:發(fā)售日成謎!

選對發(fā)型,真的能少走很多變美彎路

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

數(shù)碼要聞

首款驍龍8 Gen5小平板!OPPO Pad Mini下周發(fā)

讓老粥批直呼“計劃有變”的歲獸代理人,到底是什么東西?

無障礙瀏覽 進(jìn)入關(guān)懷版