国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最強(qiáng)牛馬狙擊編程之王,OpenAI和Anthropic深夜同發(fā)大招

0
分享至


本文來自微信公眾號:字母AI,作者:苗正,題圖來自:AI生成

2026年的這一天注定會被寫入AI發(fā)展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發(fā)布。

兩家公司似乎都憋著一口氣,要在同一個時間節(jié)點上交出自己的答卷。

“撞車”的背后,是一場關(guān)于資本、技術(shù)和市場話語權(quán)的較量。

就在兩周前,英偉達(dá)剛剛宣布向Anthropic投資100億美元,這筆錢讓Anthropic的估值飆升到3500億美元。

消息傳出后不到72小時,英偉達(dá)轉(zhuǎn)身又向OpenAI注資200億美元。

黃仁勛的算盤打得很清楚:兩邊都押注,誰贏都不虧。

但對Anthropic和OpenAI來說,這不只是拿到錢那么簡單。

兩家公司都計劃在2026年下半年到2027年左右啟動上市程序,現(xiàn)在正是證明自己技術(shù)實力、爭奪市場定價權(quán)的關(guān)鍵時刻。

投資人要看的不是PPT上的承諾,而是能拿出手的產(chǎn)品。

誰的模型更強(qiáng),誰在實際應(yīng)用中更有說服力,誰就能在IPO時要到更高的價格,拿到更多的籌碼。

一山容不得二虎,Anthropic和OpenAI必須得讓對方明白,誰才是老大。

因此,這種產(chǎn)品節(jié)奏不是巧合,而是卡好了表的對轟。

兩家公司都清楚,在這個時間點上,每一次產(chǎn)品發(fā)布都是一次融資路演,每一個技術(shù)突破都會直接影響投資人的判斷和市場的預(yù)期。

不過從產(chǎn)品本身來看,兩家公司確實都拿出了真本事。

Claude Opus 4.6

Anthropic這次對 Claude Opus 系列的升級,核心放在了“更聰明地思考”這件事上。

Opus 4.6最顯著的變化是它學(xué)會了“adaptive thinking”,模型會根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整思考深度。在困難問題上花更多時間思考,而在簡單任務(wù)上快速通過。

在代碼能力方面,Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。


這個測試專門考察AI在終端環(huán)境下的操作能力。模型需要知道什么時候該用哪個命令,如何組合不同的工具,以及怎么從錯誤信息里找到問題所在。

這就像是考察一個程序員會不會熟練使用各種開發(fā)工具。不只是寫代碼,還要會調(diào)試、會部署、會看日志找bug。

更重要的是,Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數(shù)字意味著模型可以一次性處理相當(dāng)于兩本中等厚度小說的文本量。

在長文本處理的測試中,Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%,而上一代的Sonnet 4.5只有 18.5%。

簡單一點來理解,就是給模型一大堆文檔,然后問它一個需要綜合多處信息才能回答的問題。

以前的模型看著看著就“忘了”前面的內(nèi)容,或者找不到關(guān)鍵信息。Opus 4.6能在海量文本里準(zhǔn)確定位需要的信息,而且不會因為文檔太長就表現(xiàn)下降。

在知識工作能力的評測GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出約144Elo分,比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領(lǐng)域的實際工作任務(wù),比如制作財務(wù)分析報告、起草法律文件、做市場調(diào)研等。


Anthropic還在產(chǎn)品層面做了不少配套更新。

Claude Code現(xiàn)在支持“agent teams”功能,可以同時啟動多個AI代理,讓它們各自負(fù)責(zé)不同的子任務(wù),然后自動協(xié)調(diào)工作。

對于那些大型的代碼庫,這個功能特別有用,可以把工作拆分給不同的代理并行處理。

在辦公軟件集成方面,Anthropic推出了Claude in PowerPoint的研究預(yù)覽版,并大幅升級了Claude in Excel。

現(xiàn)在Claude可以直接在Excel里處理更復(fù)雜的任務(wù),支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里,Claude 能讀懂現(xiàn)有的版式、字體和母版設(shè)計,然后按照這個風(fēng)格創(chuàng)建新的幻燈片。

就是讓AI真正進(jìn)入你日常工作的工具里。不用來回復(fù)制粘貼,直接在Excel或PowerPoint的側(cè)邊欄跟Claude對話,它就能幫你改表格、做圖表、生成演示文稿。

而且它會學(xué)習(xí)你的風(fēng)格,做出來的東西不會顯得格格不入。

在API層面,Anthropic引入了“effort”參數(shù),提供低、中、高、最高四個檔位。

開發(fā)者可以根據(jù)任務(wù)的復(fù)雜度選擇合適的檔位,在成本、速度和質(zhì)量之間找平衡。還有“context compaction”功能,當(dāng)對話接近上下文窗口限制時,會自動總結(jié)并替換較早的內(nèi)容,讓長時間運行的任務(wù)不會因為超出限制而中斷。

可以理解為給開發(fā)者更多的控制權(quán)。

簡單任務(wù)用低檔位,省錢又快;復(fù)雜任務(wù)用高檔位,保證質(zhì)量。對話太長了系統(tǒng)會自動壓縮前面的內(nèi)容,這樣就能一直聊下去。

在安全性方面,Anthropic這次做了他們有史以來最全面的安全評估。

Opus 4.6在自動化行為審計中顯示出較低的不當(dāng)行為率,包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

由于 Opus 4.6在網(wǎng)絡(luò)安全方面的能力有顯著提升,Anthropic專門開發(fā)了六個新的網(wǎng)絡(luò)安全“探針”來檢測潛在的濫用行為。

同時,他們也在用這個模型幫助開源軟件查找和修補(bǔ)漏洞,希望讓防御方也能用上AI的力量。

Advancing Finance:金融領(lǐng)域的深度應(yīng)用

Anthropic專門發(fā)布了一篇文章,詳細(xì)介紹Claude Opus 4.6在金融領(lǐng)域的應(yīng)用。

在金融工作中,專業(yè)人士需要AI做三件事:研究、分析和創(chuàng)建交付物。Opus 4.6在這三個維度上都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。

在研究能力上,Opus 4.6在BrowseComp和DeepSearchQA兩個基準(zhǔn)測試中都有提升。

這兩個測試考察的是模型從大量非結(jié)構(gòu)化數(shù)據(jù)中提取特定信息的能力。

對金融分析師來說,這意味著可以把一堆公司財報、行業(yè)報告、新聞文章扔給AI,然后問一個很具體的問題,AI能給出針對性的答案,而不是泛泛的總結(jié)。

你丟給它一份財報,以前問AI“這家公司的盈利能力如何”,它可能給你的是一大段話,然后再把財報內(nèi)容復(fù)述一遍。

現(xiàn)在它能直接告訴你關(guān)鍵指標(biāo)是什么,跟行業(yè)平均水平比怎么樣,有哪些風(fēng)險因素。

在分析能力上,Opus 4.6在 Finance Agent這個外部基準(zhǔn)測試中達(dá)到60.7%的準(zhǔn)確率,比Opus 4.5提升了5.47個百分點。

在稅務(wù)評估TaxEval 上,Opus 4.6也達(dá)到了76%的業(yè)內(nèi)最高水平。

Anthropic用一個商業(yè)盡職調(diào)查任務(wù)做了對比,他們讓Claude Opus 4.6去評估一個潛在的收購目標(biāo)。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

但是Opus 4.6的首次輸出在結(jié)構(gòu)、內(nèi)容和格式上都比Opus4.5更接近可以直接使用的標(biāo)準(zhǔn)。

也就是說,現(xiàn)在做出來的東西你小改一下就能用。這對于需要快速產(chǎn)出報告、演示文稿的金融從業(yè)者來說,效率提升是實實在在的。

Anthropic的內(nèi)部“真實世界金融”評估涵蓋了約50個投資和財務(wù)分析用例,包括電子表格、幻燈片和文檔的生成與審閱。

這些是投資銀行、私募股權(quán)、公開市場投資和企業(yè)財務(wù)領(lǐng)域分析師的常見任務(wù)。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點。

配合Cowork這個新功能,金融團(tuán)隊可以同時啟動多個分析任務(wù)。Cowork讓Claude可以訪問你指定的本地文件夾,直接在里面讀取、編輯和創(chuàng)建文件。

對金融團(tuán)隊來說,這意味著可以一次性布置幾個分析任務(wù),同時監(jiān)督 Claude 創(chuàng)建每個交付物的過程,確保符合自己的標(biāo)準(zhǔn)。

GPT-5.3 Codex:自己訓(xùn)練自己的模型

在Claude Opus 4.6發(fā)布的幾十分鐘后,奧特曼突然發(fā)了一條X,宣布GPT-5.3 Codex。


我在這里也是代表字母AI,給奧特曼和阿莫迪一點面子,給他們分別點了喜歡和轉(zhuǎn)發(fā)。

GPT-5.3 Codex最牛的地方在于,它能像真人同事一樣干活,而且可以邊干活邊跟你商量。

以前的AI是“你說一句我做一句”,GPT-5.3 Codex是“有問題隨時問你”。

你給它一個復(fù)雜任務(wù),它能自己琢磨幾個小時甚至幾天,中途還會主動跟你匯報進(jìn)度、問你意見,你隨時可以插話調(diào)整方向。

有意思的是,OpenAI用GPT-5.3 Codex的早期版本來幫忙開發(fā)后續(xù)版本。也就是說,讓AI幫著調(diào)試AI的訓(xùn)練過程、修bug、優(yōu)化系統(tǒng),OpenAI團(tuán)隊說這讓開發(fā)速度快得驚人。

GPT-5.3 Codex在多個基準(zhǔn)測試中創(chuàng)造了新的行業(yè)紀(jì)錄。在SWE-Bench Pro上,它達(dá)到了56.8%的準(zhǔn)確率,這是一個嚴(yán)格的真實世界軟件工程評估。

與只測試Python的SWE-bench Verified不同,SWE-Bench Pro涵蓋四種編程語言,更抗污染、更具挑戰(zhàn)性、更多樣化,也更貼近行業(yè)實際。

在Terminal-Bench 2.0上,GPT-5.3 Codex達(dá)到77.3%,遠(yuǎn)超之前的64%。

這個測試衡量的是代碼代理需要的終端技能,也就是在命令行環(huán)境下完成各種操作的能力。值得注意的是,GPT-5.3 Codex用的token數(shù)量比之前任何模型都少,這意味著用戶可以用同樣的成本做更多事情。

在 OSWorld-Verified 這個測試中,GPT-5.3 Codex得分 64.7%,而GPT-5.2-Codex只有38.2%。

這是一個代理計算機(jī)使用基準(zhǔn)測試,AI需要在可視化的桌面計算機(jī)環(huán)境中完成生產(chǎn)力任務(wù)。人類在這個測試中的得分約為72%,GPT-5.3 Codex已經(jīng)接近人類水平。

在網(wǎng)頁開發(fā)方面,OpenAI展示了一個對比案例:讓GPT-5.3 Codex和 GPT-5.2-Codex分別創(chuàng)建一個 SaaS 產(chǎn)品的落地頁。

GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格,讓優(yōu)惠看起來更清晰、更有意圖,而不是簡單地把年度總價乘出來。


GPT-5.3 Codex


GPT-5.2 Codex

它還做了一個自動切換的用戶評價輪播,包含三條不同的用戶評價,而不是只有一條,讓整個頁面感覺更完整、更接近可以上線的狀態(tài)。

簡單來說,就是它會考慮用戶體驗和營銷效果。不是機(jī)械地實現(xiàn)功能,而是會想“怎么做更好”。這種對細(xì)節(jié)的把握和對最終效果的理解,讓它做出來的東西更接近專業(yè)水平。

GPT-5.3 Codex的能力不僅限于編碼。

它支持軟件生命周期中的所有工作,比如調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標(biāo)分析等等。

在GDPval測試中,GPT-5.3 Codex的表現(xiàn)與GPT-5.2持平,達(dá)到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業(yè)的明確知識工作任務(wù)上的表現(xiàn),包括制作演示文稿、電子表格和其他工作產(chǎn)品。


一個有趣的細(xì)節(jié)是,兩家公司都強(qiáng)調(diào)了“自己用自己的產(chǎn)品”。Anthropic 說“我們用 Claude 來構(gòu)建 Claude”, OpenAI說“GPT-5.3 Codex在自己的開發(fā)中發(fā)揮了關(guān)鍵作用”。

這其實是最好的廣告,如果自己的工程師都不愿意用,怎么能指望別人用?

而且從技術(shù)演進(jìn)的角度看,兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉(zhuǎn)變。

它們不再滿足于生成一段文字或一段代碼,而是要能夠執(zhí)行完整的工作流程,產(chǎn)出可以直接使用的交付物。這種轉(zhuǎn)變對 AI 的要求高得多:不僅要懂技術(shù),還要懂業(yè)務(wù);不僅要能做,還要做得好;不僅要快,還要穩(wěn)。

值得注意的是,兩家公司都沒有回避 AI 能力提升帶來的風(fēng)險。Anthropic 做了“有史以來最全面的安全評估”, OpenAI 部署了“最全面的網(wǎng)絡(luò)安全防護(hù)措施”。

從用戶角度看,兩家公司的競爭是好事。不同的需求可以找到不同的解決方案,不同的工作方式可以選擇不同的工具。更重要的是,競爭會推動雙方繼續(xù)創(chuàng)新,讓AI能力的邊界不斷擴(kuò)展。

而且這兩個產(chǎn)品的發(fā)布也標(biāo)志著AI進(jìn)入了一個新階段。不再是“能不能做”的問題,而是“怎么做得更好”的問題。

本文來自微信公眾號:字母AI,作者:苗正

本內(nèi)容由作者授權(quán)發(fā)布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯(lián)系 tougao@huxiu.com。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4832957.html?f=wyxwapp

聲明:包含AI生成內(nèi)容

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
山東省泰安市政協(xié)原副主席倪慶賓被“雙開”

山東省泰安市政協(xié)原副主席倪慶賓被“雙開”

界面新聞
2026-02-25 10:34:47
離譜!回國過春節(jié),返美入境時H-b工作簽證被吊銷,遣返回國

離譜!回國過春節(jié),返美入境時H-b工作簽證被吊銷,遣返回國

大洛杉磯LA
2026-02-25 06:37:36
AI會增加人類智商!清華大學(xué)專家:未來10年一周只需工作2天 工資還會變高

AI會增加人類智商!清華大學(xué)專家:未來10年一周只需工作2天 工資還會變高

快科技
2026-02-25 09:51:29
哈登0罰20分創(chuàng)隊史最老紀(jì)錄!騎士賽季首勝尼克斯 米切爾23分

哈登0罰20分創(chuàng)隊史最老紀(jì)錄!騎士賽季首勝尼克斯 米切爾23分

醉臥浮生
2026-02-25 11:14:21
2026年開始,房地產(chǎn)將迎來“拋售潮”?內(nèi)行人:房價可能超乎想象

2026年開始,房地產(chǎn)將迎來“拋售潮”?內(nèi)行人:房價可能超乎想象

貓叔東山再起
2026-02-25 08:30:06
女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認(rèn)出對方車牌,確認(rèn)后互相打招呼

女子高速堵車走國道偶遇10年沒見過面的初戀,一眼認(rèn)出對方車牌,確認(rèn)后互相打招呼

大象新聞
2026-02-24 18:44:05
老人狂買26萬元金條!揚(yáng)州一金店員工暗中報警

老人狂買26萬元金條!揚(yáng)州一金店員工暗中報警

環(huán)球網(wǎng)資訊
2026-02-25 07:45:08
2月24日起,中國出口美國關(guān)稅將從20%降至10%

2月24日起,中國出口美國關(guān)稅將從20%降至10%

壹航運
2026-02-25 09:45:06
李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見露臉

李亞鵬年初六到陳光標(biāo)家做客!為陳環(huán)保送行,陳光標(biāo)妻子罕見露臉

離離言幾許
2026-02-22 23:36:16
女子坐動車因個人原因誤車,改簽失敗后起訴鐵路部門索賠,法院:未按時乘車,又未在有效期內(nèi)辦理改簽導(dǎo)致車票失效,后果應(yīng)自行承擔(dān)

女子坐動車因個人原因誤車,改簽失敗后起訴鐵路部門索賠,法院:未按時乘車,又未在有效期內(nèi)辦理改簽導(dǎo)致車票失效,后果應(yīng)自行承擔(dān)

瀟湘晨報
2026-02-25 11:35:05
央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

央視發(fā)聲!重慶烤全羊瘋狂宰客,官方曝光作案手段,老板麻煩大了

天天熱點見聞
2026-02-25 05:42:55
戰(zhàn)爭風(fēng)險不斷升高!美軍重兵集結(jié)中東,“數(shù)十年來最大規(guī)?!?>
    </a>
        <h3>
      <a href=環(huán)球網(wǎng)資訊
2026-02-25 06:53:10
苦等17年!南京知名爛尾地標(biāo),有望復(fù)活!

苦等17年!南京知名爛尾地標(biāo),有望復(fù)活!

科學(xué)發(fā)掘
2026-02-25 07:54:08
母親剛過世,姨媽來電:你媽每月給我2500生活費得繼續(xù)給,我笑了

母親剛過世,姨媽來電:你媽每月給我2500生活費得繼續(xù)給,我笑了

小影的娛樂
2026-02-24 20:06:50
鄭麗文提統(tǒng)一方案!大陸破格批準(zhǔn),臺海局勢或迎重大轉(zhuǎn)折

鄭麗文提統(tǒng)一方案!大陸破格批準(zhǔn),臺海局勢或迎重大轉(zhuǎn)折

林子說事
2026-02-25 04:59:54
宇樹機(jī)器人去年只賣了5500多臺,普通家庭基本沒有買的

宇樹機(jī)器人去年只賣了5500多臺,普通家庭基本沒有買的

爆角追蹤
2026-02-25 10:08:50
默茨還沒在北京入座,德國對華鷹派先攤牌了,中方恐將以1敵27國

默茨還沒在北京入座,德國對華鷹派先攤牌了,中方恐將以1敵27國

奇奇圈
2026-02-25 09:24:46
離婚才幾年,楊穎這是怎么了?

離婚才幾年,楊穎這是怎么了?

文刀萬
2026-02-24 17:40:03
緊急預(yù)警!81款耳機(jī)全淪陷,你戴的不是耳機(jī),是“慢性毒藥”?

緊急預(yù)警!81款耳機(jī)全淪陷,你戴的不是耳機(jī),是“慢性毒藥”?

戧詞奪理
2026-02-23 15:20:41
河南二次通報平頂山事件,這對囂張夫妻三天就被批捕了

河南二次通報平頂山事件,這對囂張夫妻三天就被批捕了

林中木白
2026-02-25 09:08:10
2026-02-25 13:20:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
25764文章數(shù) 687494關(guān)注度
往期回顧 全部

科技要聞

蘋果MacBook Pro要加觸摸屏了,還帶靈動島

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會看特朗普的笑話

體育要聞

曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

本地
健康
旅游
公開課
軍事航空

本地新聞

津南好·四時總相宜

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

非遺鬧春年味濃 河南商城文旅喜迎“開門紅”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版