網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

最強(qiáng)牛馬狙擊編程之王，OpenAI和Anthropic深夜同發(fā)大招

2026-02-06 08:43:30　來源: 字母榜

北京舉報

分享至

2026年的這一天注定會被寫入AI發(fā)展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發(fā)布。

兩家公司似乎都憋著一口氣，要在同一個時間節(jié)點(diǎn)上交出自己的答卷。

“撞車”的背后，是一場關(guān)于資本、技術(shù)和市場話語權(quán)的較量。

就在兩周前，英偉達(dá)剛剛宣布向Anthropic投資100億美元，這筆錢讓Anthropic的估值飆升到3500億美元。

消息傳出后不到72小時，英偉達(dá)轉(zhuǎn)身又向OpenAI注資200億美元。

黃仁勛的算盤打得很清楚：兩邊都押注，誰贏都不虧。

但對Anthropic和OpenAI來說，這不只是拿到錢那么簡單。

兩家公司都計(jì)劃在2026年下半年到2027年左右啟動上市程序，現(xiàn)在正是證明自己技術(shù)實(shí)力、爭奪市場定價權(quán)的關(guān)鍵時刻。

投資人要看的不是PPT上的承諾，而是能拿出手的產(chǎn)品。

誰的模型更強(qiáng)，誰在實(shí)際應(yīng)用中更有說服力，誰就能在IPO時要到更高的價格，拿到更多的籌碼。

一山容不得二虎，Anthropic和OpenAI必須得讓對方明白，誰才是老大。

因此，這種產(chǎn)品節(jié)奏不是巧合，而是卡好了表的對轟。

兩家公司都清楚，在這個時間點(diǎn)上，每一次產(chǎn)品發(fā)布都是一次融資路演，每一個技術(shù)突破都會直接影響投資人的判斷和市場的預(yù)期。

不過從產(chǎn)品本身來看，兩家公司確實(shí)都拿出了真本事。

Claude Opus 4.6

Anthropic這次對 Claude Opus 系列的升級，核心放在了“更聰明地思考”這件事上。

Opus 4.6最顯著的變化是它學(xué)會了“adaptive thinking”，模型會根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整思考深度。在困難問題上花更多時間思考，而在簡單任務(wù)上快速通過。

在代碼能力方面，Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。

這個測試專門考察AI在終端環(huán)境下的操作能力。模型需要知道什么時候該用哪個命令，如何組合不同的工具，以及怎么從錯誤信息里找到問題所在。

這就像是考察一個程序員會不會熟練使用各種開發(fā)工具。不只是寫代碼，還要會調(diào)試、會部署、會看日志找bug。

更重要的是，Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數(shù)字意味著模型可以一次性處理相當(dāng)于兩本中等厚度小說的文本量。

在長文本處理的測試中，Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%，而上一代的Sonnet 4.5只有 18.5%。

簡單一點(diǎn)來理解，就是給模型一大堆文檔，然后問它一個需要綜合多處信息才能回答的問題。

以前的模型看著看著就“忘了”前面的內(nèi)容，或者找不到關(guān)鍵信息。Opus 4.6能在海量文本里準(zhǔn)確定位需要的信息，而且不會因?yàn)槲臋n太長就表現(xiàn)下降。

在知識工作能力的評測GDPval-AA 上，Opus 4.6比OpenAI的GPT-5.2高出約144Elo分，比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領(lǐng)域的實(shí)際工作任務(wù)，比如制作財(cái)務(wù)分析報告、起草法律文件、做市場調(diào)研等。

Anthropic還在產(chǎn)品層面做了不少配套更新。

Claude Code現(xiàn)在支持“agent teams”功能，可以同時啟動多個AI代理，讓它們各自負(fù)責(zé)不同的子任務(wù)，然后自動協(xié)調(diào)工作。

對于那些大型的代碼庫，這個功能特別有用，可以把工作拆分給不同的代理并行處理。

在辦公軟件集成方面，Anthropic推出了Claude in PowerPoint的研究預(yù)覽版，并大幅升級了Claude in Excel。

現(xiàn)在Claude可以直接在Excel里處理更復(fù)雜的任務(wù)，支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里，Claude 能讀懂現(xiàn)有的版式、字體和母版設(shè)計(jì)，然后按照這個風(fēng)格創(chuàng)建新的幻燈片。

就是讓AI真正進(jìn)入你日常工作的工具里。不用來回復(fù)制粘貼，直接在Excel或PowerPoint的側(cè)邊欄跟Claude對話，它就能幫你改表格、做圖表、生成演示文稿。

而且它會學(xué)習(xí)你的風(fēng)格，做出來的東西不會顯得格格不入。

在API層面，Anthropic引入了“effort”參數(shù)，提供低、中、高、最高四個檔位。

開發(fā)者可以根據(jù)任務(wù)的復(fù)雜度選擇合適的檔位，在成本、速度和質(zhì)量之間找平衡。還有“context compaction”功能，當(dāng)對話接近上下文窗口限制時，會自動總結(jié)并替換較早的內(nèi)容，讓長時間運(yùn)行的任務(wù)不會因?yàn)槌鱿拗贫袛唷?/p>

可以理解為給開發(fā)者更多的控制權(quán)。

簡單任務(wù)用低檔位，省錢又快；復(fù)雜任務(wù)用高檔位，保證質(zhì)量。對話太長了系統(tǒng)會自動壓縮前面的內(nèi)容，這樣就能一直聊下去。

在安全性方面，Anthropic這次做了他們有史以來最全面的安全評估。

Opus 4.6在自動化行為審計(jì)中顯示出較低的不當(dāng)行為率，包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

由于 Opus 4.6在網(wǎng)絡(luò)安全方面的能力有顯著提升，Anthropic專門開發(fā)了六個新的網(wǎng)絡(luò)安全“探針”來檢測潛在的濫用行為。

同時，他們也在用這個模型幫助開源軟件查找和修補(bǔ)漏洞，希望讓防御方也能用上AI的力量。

Advancing Finance：

金融領(lǐng)域的深度應(yīng)用

Anthropic專門發(fā)布了一篇文章，詳細(xì)介紹Claude Opus 4.6在金融領(lǐng)域的應(yīng)用。

在金融工作中，專業(yè)人士需要AI做三件事：研究、分析和創(chuàng)建交付物。Opus 4.6在這三個維度上都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。

在研究能力上，Opus 4.6在BrowseComp和DeepSearchQA兩個基準(zhǔn)測試中都有提升。

這兩個測試考察的是模型從大量非結(jié)構(gòu)化數(shù)據(jù)中提取特定信息的能力。

對金融分析師來說，這意味著可以把一堆公司財(cái)報、行業(yè)報告、新聞文章扔給AI，然后問一個很具體的問題，AI能給出針對性的答案，而不是泛泛的總結(jié)。

你丟給它一份財(cái)報，以前問AI“這家公司的盈利能力如何”，它可能給你的是一大段話，然后再把財(cái)報內(nèi)容復(fù)述一遍。

現(xiàn)在它能直接告訴你關(guān)鍵指標(biāo)是什么，跟行業(yè)平均水平比怎么樣，有哪些風(fēng)險因素。

在分析能力上，Opus 4.6在 Finance Agent這個外部基準(zhǔn)測試中達(dá)到60.7%的準(zhǔn)確率，比Opus 4.5提升了5.47個百分點(diǎn)。

在稅務(wù)評估TaxEval 上，Opus 4.6也達(dá)到了76%的業(yè)內(nèi)最高水平。

Anthropic用一個商業(yè)盡職調(diào)查任務(wù)做了對比，他們讓Claude Opus 4.6去評估一個潛在的收購目標(biāo)。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

但是Opus 4.6的首次輸出在結(jié)構(gòu)、內(nèi)容和格式上都比Opus4.5更接近可以直接使用的標(biāo)準(zhǔn)。

也就是說，現(xiàn)在做出來的東西你小改一下就能用。這對于需要快速產(chǎn)出報告、演示文稿的金融從業(yè)者來說，效率提升是實(shí)實(shí)在在的。

Anthropic的內(nèi)部“真實(shí)世界金融”評估涵蓋了約50個投資和財(cái)務(wù)分析用例，包括電子表格、幻燈片和文檔的生成與審閱。

這些是投資銀行、私募股權(quán)、公開市場投資和企業(yè)財(cái)務(wù)領(lǐng)域分析師的常見任務(wù)。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點(diǎn)。

配合Cowork這個新功能，金融團(tuán)隊(duì)可以同時啟動多個分析任務(wù)。Cowork讓Claude可以訪問你指定的本地文件夾，直接在里面讀取、編輯和創(chuàng)建文件。

對金融團(tuán)隊(duì)來說，這意味著可以一次性布置幾個分析任務(wù)，同時監(jiān)督 Claude 創(chuàng)建每個交付物的過程，確保符合自己的標(biāo)準(zhǔn)。

GPT-5.3 Codex：

自己訓(xùn)練自己的模型

在Claude Opus 4.6發(fā)布的幾十分鐘后，奧特曼突然發(fā)了一條X，宣布GPT-5.3 Codex。

我在這里也是代表字母AI，給奧特曼和阿莫迪一點(diǎn)面子，給他們分別點(diǎn)了喜歡和轉(zhuǎn)發(fā)。

GPT-5.3 Codex最牛的地方在于，它能像真人同事一樣干活，而且可以邊干活邊跟你商量。

以前的AI是“你說一句我做一句”，GPT-5.3 Codex是“有問題隨時問你”。

你給它一個復(fù)雜任務(wù)，它能自己琢磨幾個小時甚至幾天，中途還會主動跟你匯報進(jìn)度、問你意見，你隨時可以插話調(diào)整方向。

有意思的是，OpenAI用GPT-5.3 Codex的早期版本來幫忙開發(fā)后續(xù)版本。也就是說，讓AI幫著調(diào)試AI的訓(xùn)練過程、修bug、優(yōu)化系統(tǒng)，OpenAI團(tuán)隊(duì)說這讓開發(fā)速度快得驚人。

GPT-5.3 Codex在多個基準(zhǔn)測試中創(chuàng)造了新的行業(yè)紀(jì)錄。在SWE-Bench Pro上，它達(dá)到了56.8%的準(zhǔn)確率，這是一個嚴(yán)格的真實(shí)世界軟件工程評估。

與只測試Python的SWE-bench Verified不同，SWE-Bench Pro涵蓋四種編程語言，更抗污染、更具挑戰(zhàn)性、更多樣化，也更貼近行業(yè)實(shí)際。

在Terminal-Bench 2.0上，GPT-5.3 Codex達(dá)到77.3%，遠(yuǎn)超之前的64%。

這個測試衡量的是代碼代理需要的終端技能，也就是在命令行環(huán)境下完成各種操作的能力。值得注意的是，GPT-5.3 Codex用的token數(shù)量比之前任何模型都少，這意味著用戶可以用同樣的成本做更多事情。

在 OSWorld-Verified 這個測試中，GPT-5.3 Codex得分 64.7%，而GPT-5.2-Codex只有38.2%。

這是一個代理計(jì)算機(jī)使用基準(zhǔn)測試，AI需要在可視化的桌面計(jì)算機(jī)環(huán)境中完成生產(chǎn)力任務(wù)。人類在這個測試中的得分約為72%，GPT-5.3 Codex已經(jīng)接近人類水平。

在網(wǎng)頁開發(fā)方面,OpenAI展示了一個對比案例：讓GPT-5.3 Codex和 GPT-5.2-Codex分別創(chuàng)建一個 SaaS 產(chǎn)品的落地頁。

GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格，讓優(yōu)惠看起來更清晰、更有意圖，而不是簡單地把年度總價乘出來。

GPT-5.3 Codex

GPT-5.2 Codex

它還做了一個自動切換的用戶評價輪播，包含三條不同的用戶評價，而不是只有一條，讓整個頁面感覺更完整、更接近可以上線的狀態(tài)。

簡單來說，就是它會考慮用戶體驗(yàn)和營銷效果。不是機(jī)械地實(shí)現(xiàn)功能，而是會想“怎么做更好”。這種對細(xì)節(jié)的把握和對最終效果的理解，讓它做出來的東西更接近專業(yè)水平。

GPT-5.3 Codex的能力不僅限于編碼。

它支持軟件生命周期中的所有工作，比如調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標(biāo)分析等等。

在GDPval測試中，GPT-5.3 Codex的表現(xiàn)與GPT-5.2持平，達(dá)到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業(yè)的明確知識工作任務(wù)上的表現(xiàn)，包括制作演示文稿、電子表格和其他工作產(chǎn)品。

一個有趣的細(xì)節(jié)是，兩家公司都強(qiáng)調(diào)了“自己用自己的產(chǎn)品”。Anthropic 說“我們用 Claude 來構(gòu)建 Claude”， OpenAI說“GPT-5.3 Codex在自己的開發(fā)中發(fā)揮了關(guān)鍵作用”。

這其實(shí)是最好的廣告，如果自己的工程師都不愿意用，怎么能指望別人用？

而且從技術(shù)演進(jìn)的角度看，兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉(zhuǎn)變。

它們不再滿足于生成一段文字或一段代碼，而是要能夠執(zhí)行完整的工作流程，產(chǎn)出可以直接使用的交付物。這種轉(zhuǎn)變對 AI 的要求高得多：不僅要懂技術(shù)，還要懂業(yè)務(wù)；不僅要能做，還要做得好；不僅要快，還要穩(wěn)。

值得注意的是，兩家公司都沒有回避 AI 能力提升帶來的風(fēng)險。Anthropic 做了“有史以來最全面的安全評估”， OpenAI 部署了“最全面的網(wǎng)絡(luò)安全防護(hù)措施”。

從用戶角度看，兩家公司的競爭是好事。不同的需求可以找到不同的解決方案，不同的工作方式可以選擇不同的工具。更重要的是，競爭會推動雙方繼續(xù)創(chuàng)新，讓AI能力的邊界不斷擴(kuò)展。

而且這兩個產(chǎn)品的發(fā)布也標(biāo)志著AI進(jìn)入了一個新階段。不再是“能不能做”的問題，而是“怎么做得更好”的問題。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.