国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

最強(qiáng)牛馬狙擊編程之王,OpenAI和Anthropic深夜同發(fā)大招

0
分享至



2026年的這一天注定會被寫入AI發(fā)展史。

Claude Opus 4.6和GPT-5.3 Codex在相隔不到一個小時的時間里先后發(fā)布。

兩家公司似乎都憋著一口氣,要在同一個時間節(jié)點(diǎn)上交出自己的答卷。

“撞車”的背后,是一場關(guān)于資本、技術(shù)和市場話語權(quán)的較量。

就在兩周前,英偉達(dá)剛剛宣布向Anthropic投資100億美元,這筆錢讓Anthropic的估值飆升到3500億美元。

消息傳出后不到72小時,英偉達(dá)轉(zhuǎn)身又向OpenAI注資200億美元。

黃仁勛的算盤打得很清楚:兩邊都押注,誰贏都不虧。

但對Anthropic和OpenAI來說,這不只是拿到錢那么簡單。

兩家公司都計(jì)劃在2026年下半年到2027年左右啟動上市程序,現(xiàn)在正是證明自己技術(shù)實(shí)力、爭奪市場定價權(quán)的關(guān)鍵時刻。

投資人要看的不是PPT上的承諾,而是能拿出手的產(chǎn)品。

誰的模型更強(qiáng),誰在實(shí)際應(yīng)用中更有說服力,誰就能在IPO時要到更高的價格,拿到更多的籌碼。

一山容不得二虎,Anthropic和OpenAI必須得讓對方明白,誰才是老大。

因此,這種產(chǎn)品節(jié)奏不是巧合,而是卡好了表的對轟。

兩家公司都清楚,在這個時間點(diǎn)上,每一次產(chǎn)品發(fā)布都是一次融資路演,每一個技術(shù)突破都會直接影響投資人的判斷和市場的預(yù)期。

不過從產(chǎn)品本身來看,兩家公司確實(shí)都拿出了真本事。

01

Claude Opus 4.6

Anthropic這次對 Claude Opus 系列的升級,核心放在了“更聰明地思考”這件事上。

Opus 4.6最顯著的變化是它學(xué)會了“adaptive thinking”,模型會根據(jù)任務(wù)的復(fù)雜程度自動調(diào)整思考深度。在困難問題上花更多時間思考,而在簡單任務(wù)上快速通過。

在代碼能力方面,Opus 4.6在Terminal-Bench 2.0這個評測中拿到了最高分。



這個測試專門考察AI在終端環(huán)境下的操作能力。模型需要知道什么時候該用哪個命令,如何組合不同的工具,以及怎么從錯誤信息里找到問題所在。

這就像是考察一個程序員會不會熟練使用各種開發(fā)工具。不只是寫代碼,還要會調(diào)試、會部署、會看日志找bug。

更重要的是,Opus 4.6是Anthropic第一個提供100萬token上下文窗口的Opus級別模型。這個數(shù)字意味著模型可以一次性處理相當(dāng)于兩本中等厚度小說的文本量。

在長文本處理的測試中,Opus 4.6在MRCR v2的8-needle 1M 變體上得分76%,而上一代的Sonnet 4.5只有 18.5%。

簡單一點(diǎn)來理解,就是給模型一大堆文檔,然后問它一個需要綜合多處信息才能回答的問題。

以前的模型看著看著就“忘了”前面的內(nèi)容,或者找不到關(guān)鍵信息。Opus 4.6能在海量文本里準(zhǔn)確定位需要的信息,而且不會因?yàn)槲臋n太長就表現(xiàn)下降。

在知識工作能力的評測GDPval-AA 上,Opus 4.6比OpenAI的GPT-5.2高出約144Elo分,比自己的前代Opus 4.5高出190分。這個測試涵蓋了金融、法律等領(lǐng)域的實(shí)際工作任務(wù),比如制作財(cái)務(wù)分析報告、起草法律文件、做市場調(diào)研等。



Anthropic還在產(chǎn)品層面做了不少配套更新。

Claude Code現(xiàn)在支持“agent teams”功能,可以同時啟動多個AI代理,讓它們各自負(fù)責(zé)不同的子任務(wù),然后自動協(xié)調(diào)工作。

對于那些大型的代碼庫,這個功能特別有用,可以把工作拆分給不同的代理并行處理。

在辦公軟件集成方面,Anthropic推出了Claude in PowerPoint的研究預(yù)覽版,并大幅升級了Claude in Excel。

現(xiàn)在Claude可以直接在Excel里處理更復(fù)雜的任務(wù),支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式化等功能。在 PowerPoint 里,Claude 能讀懂現(xiàn)有的版式、字體和母版設(shè)計(jì),然后按照這個風(fēng)格創(chuàng)建新的幻燈片。

就是讓AI真正進(jìn)入你日常工作的工具里。不用來回復(fù)制粘貼,直接在Excel或PowerPoint的側(cè)邊欄跟Claude對話,它就能幫你改表格、做圖表、生成演示文稿。

而且它會學(xué)習(xí)你的風(fēng)格,做出來的東西不會顯得格格不入。

在API層面,Anthropic引入了“effort”參數(shù),提供低、中、高、最高四個檔位。

開發(fā)者可以根據(jù)任務(wù)的復(fù)雜度選擇合適的檔位,在成本、速度和質(zhì)量之間找平衡。還有“context compaction”功能,當(dāng)對話接近上下文窗口限制時,會自動總結(jié)并替換較早的內(nèi)容,讓長時間運(yùn)行的任務(wù)不會因?yàn)槌鱿拗贫袛唷?/p>

可以理解為給開發(fā)者更多的控制權(quán)。

簡單任務(wù)用低檔位,省錢又快;復(fù)雜任務(wù)用高檔位,保證質(zhì)量。對話太長了系統(tǒng)會自動壓縮前面的內(nèi)容,這樣就能一直聊下去。

在安全性方面,Anthropic這次做了他們有史以來最全面的安全評估。

Opus 4.6在自動化行為審計(jì)中顯示出較低的不當(dāng)行為率,包括欺騙、阿諛奉承、鼓勵用戶妄想和配合濫用等。

由于 Opus 4.6在網(wǎng)絡(luò)安全方面的能力有顯著提升,Anthropic專門開發(fā)了六個新的網(wǎng)絡(luò)安全“探針”來檢測潛在的濫用行為。

同時,他們也在用這個模型幫助開源軟件查找和修補(bǔ)漏洞,希望讓防御方也能用上AI的力量。

02

Advancing Finance:

金融領(lǐng)域的深度應(yīng)用

Anthropic專門發(fā)布了一篇文章,詳細(xì)介紹Claude Opus 4.6在金融領(lǐng)域的應(yīng)用。

在金融工作中,專業(yè)人士需要AI做三件事:研究、分析和創(chuàng)建交付物。Opus 4.6在這三個維度上都達(dá)到了業(yè)內(nèi)領(lǐng)先水平。

在研究能力上,Opus 4.6在BrowseComp和DeepSearchQA兩個基準(zhǔn)測試中都有提升。

這兩個測試考察的是模型從大量非結(jié)構(gòu)化數(shù)據(jù)中提取特定信息的能力。

對金融分析師來說,這意味著可以把一堆公司財(cái)報、行業(yè)報告、新聞文章扔給AI,然后問一個很具體的問題,AI能給出針對性的答案,而不是泛泛的總結(jié)。

你丟給它一份財(cái)報,以前問AI“這家公司的盈利能力如何”,它可能給你的是一大段話,然后再把財(cái)報內(nèi)容復(fù)述一遍。

現(xiàn)在它能直接告訴你關(guān)鍵指標(biāo)是什么,跟行業(yè)平均水平比怎么樣,有哪些風(fēng)險因素。

在分析能力上,Opus 4.6在 Finance Agent這個外部基準(zhǔn)測試中達(dá)到60.7%的準(zhǔn)確率,比Opus 4.5提升了5.47個百分點(diǎn)。

在稅務(wù)評估TaxEval 上,Opus 4.6也達(dá)到了76%的業(yè)內(nèi)最高水平。

Anthropic用一個商業(yè)盡職調(diào)查任務(wù)做了對比,他們讓Claude Opus 4.6去評估一個潛在的收購目標(biāo)。這種工作通常需要一個資深分析師花兩到三周時間才能完成。

但是Opus 4.6的首次輸出在結(jié)構(gòu)、內(nèi)容和格式上都比Opus4.5更接近可以直接使用的標(biāo)準(zhǔn)。

也就是說,現(xiàn)在做出來的東西你小改一下就能用。這對于需要快速產(chǎn)出報告、演示文稿的金融從業(yè)者來說,效率提升是實(shí)實(shí)在在的。

Anthropic的內(nèi)部“真實(shí)世界金融”評估涵蓋了約50個投資和財(cái)務(wù)分析用例,包括電子表格、幻燈片和文檔的生成與審閱。

這些是投資銀行、私募股權(quán)、公開市場投資和企業(yè)財(cái)務(wù)領(lǐng)域分析師的常見任務(wù)。Opus 4.6比幾個月前的Sonnet 4.5提升了超過23個百分點(diǎn)。

配合Cowork這個新功能,金融團(tuán)隊(duì)可以同時啟動多個分析任務(wù)。Cowork讓Claude可以訪問你指定的本地文件夾,直接在里面讀取、編輯和創(chuàng)建文件。

對金融團(tuán)隊(duì)來說,這意味著可以一次性布置幾個分析任務(wù),同時監(jiān)督 Claude 創(chuàng)建每個交付物的過程,確保符合自己的標(biāo)準(zhǔn)。

03

GPT-5.3 Codex:

自己訓(xùn)練自己的模型

在Claude Opus 4.6發(fā)布的幾十分鐘后,奧特曼突然發(fā)了一條X,宣布GPT-5.3 Codex。



我在這里也是代表字母AI,給奧特曼和阿莫迪一點(diǎn)面子,給他們分別點(diǎn)了喜歡和轉(zhuǎn)發(fā)。

GPT-5.3 Codex最牛的地方在于,它能像真人同事一樣干活,而且可以邊干活邊跟你商量。

以前的AI是“你說一句我做一句”,GPT-5.3 Codex是“有問題隨時問你”。

你給它一個復(fù)雜任務(wù),它能自己琢磨幾個小時甚至幾天,中途還會主動跟你匯報進(jìn)度、問你意見,你隨時可以插話調(diào)整方向。

有意思的是,OpenAI用GPT-5.3 Codex的早期版本來幫忙開發(fā)后續(xù)版本。也就是說,讓AI幫著調(diào)試AI的訓(xùn)練過程、修bug、優(yōu)化系統(tǒng),OpenAI團(tuán)隊(duì)說這讓開發(fā)速度快得驚人。

GPT-5.3 Codex在多個基準(zhǔn)測試中創(chuàng)造了新的行業(yè)紀(jì)錄。在SWE-Bench Pro上,它達(dá)到了56.8%的準(zhǔn)確率,這是一個嚴(yán)格的真實(shí)世界軟件工程評估。

與只測試Python的SWE-bench Verified不同,SWE-Bench Pro涵蓋四種編程語言,更抗污染、更具挑戰(zhàn)性、更多樣化,也更貼近行業(yè)實(shí)際。

在Terminal-Bench 2.0上,GPT-5.3 Codex達(dá)到77.3%,遠(yuǎn)超之前的64%。

這個測試衡量的是代碼代理需要的終端技能,也就是在命令行環(huán)境下完成各種操作的能力。值得注意的是,GPT-5.3 Codex用的token數(shù)量比之前任何模型都少,這意味著用戶可以用同樣的成本做更多事情。

在 OSWorld-Verified 這個測試中,GPT-5.3 Codex得分 64.7%,而GPT-5.2-Codex只有38.2%。

這是一個代理計(jì)算機(jī)使用基準(zhǔn)測試,AI需要在可視化的桌面計(jì)算機(jī)環(huán)境中完成生產(chǎn)力任務(wù)。人類在這個測試中的得分約為72%,GPT-5.3 Codex已經(jīng)接近人類水平。

在網(wǎng)頁開發(fā)方面,OpenAI展示了一個對比案例:讓GPT-5.3 Codex和 GPT-5.2-Codex分別創(chuàng)建一個 SaaS 產(chǎn)品的落地頁。

GPT-5.3 Codex自動把年度套餐顯示為折扣后的月度價格,讓優(yōu)惠看起來更清晰、更有意圖,而不是簡單地把年度總價乘出來。



GPT-5.3 Codex



GPT-5.2 Codex

它還做了一個自動切換的用戶評價輪播,包含三條不同的用戶評價,而不是只有一條,讓整個頁面感覺更完整、更接近可以上線的狀態(tài)。

簡單來說,就是它會考慮用戶體驗(yàn)和營銷效果。不是機(jī)械地實(shí)現(xiàn)功能,而是會想“怎么做更好”。這種對細(xì)節(jié)的把握和對最終效果的理解,讓它做出來的東西更接近專業(yè)水平。

GPT-5.3 Codex的能力不僅限于編碼。

它支持軟件生命周期中的所有工作,比如調(diào)試、部署、監(jiān)控、編寫產(chǎn)品需求文檔、編輯文案、用戶研究、測試、指標(biāo)分析等等。

在GDPval測試中,GPT-5.3 Codex的表現(xiàn)與GPT-5.2持平,達(dá)到70.9%的勝率或平局率。這個測試衡量的是模型在 44 個職業(yè)的明確知識工作任務(wù)上的表現(xiàn),包括制作演示文稿、電子表格和其他工作產(chǎn)品。



一個有趣的細(xì)節(jié)是,兩家公司都強(qiáng)調(diào)了“自己用自己的產(chǎn)品”。Anthropic 說“我們用 Claude 來構(gòu)建 Claude”, OpenAI說“GPT-5.3 Codex在自己的開發(fā)中發(fā)揮了關(guān)鍵作用”。

這其實(shí)是最好的廣告,如果自己的工程師都不愿意用,怎么能指望別人用?

而且從技術(shù)演進(jìn)的角度看,兩個模型都代表了 AI 從“回答問題”到“完成工作”的轉(zhuǎn)變。

它們不再滿足于生成一段文字或一段代碼,而是要能夠執(zhí)行完整的工作流程,產(chǎn)出可以直接使用的交付物。這種轉(zhuǎn)變對 AI 的要求高得多:不僅要懂技術(shù),還要懂業(yè)務(wù);不僅要能做,還要做得好;不僅要快,還要穩(wěn)。

值得注意的是,兩家公司都沒有回避 AI 能力提升帶來的風(fēng)險。Anthropic 做了“有史以來最全面的安全評估”, OpenAI 部署了“最全面的網(wǎng)絡(luò)安全防護(hù)措施”。

從用戶角度看,兩家公司的競爭是好事。不同的需求可以找到不同的解決方案,不同的工作方式可以選擇不同的工具。更重要的是,競爭會推動雙方繼續(xù)創(chuàng)新,讓AI能力的邊界不斷擴(kuò)展。

而且這兩個產(chǎn)品的發(fā)布也標(biāo)志著AI進(jìn)入了一個新階段。不再是“能不能做”的問題,而是“怎么做得更好”的問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

第5外援來了!朱芳雨親自官宣,杜鋒又撿到寶了,廣東爭冠穩(wěn)了?

萌蘭聊個球
2026-02-25 10:49:31
李維嘉重返公眾視野,獨(dú)居生活狀態(tài)令人驚訝!

李維嘉重返公眾視野,獨(dú)居生活狀態(tài)令人驚訝!

舞指飛揚(yáng)
2026-02-25 09:31:33
收評:全股民做好準(zhǔn)備!A股變盤點(diǎn)來了,不出意外明天將這樣走

收評:全股民做好準(zhǔn)備!A股變盤點(diǎn)來了,不出意外明天將這樣走

財(cái)經(jīng)大拿
2026-02-25 13:40:13
巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運(yùn)量成致命一擊

巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運(yùn)量成致命一擊

始于初見見
2026-02-25 07:43:24
德國總理默茨抵達(dá)北京開始訪華,高規(guī)格經(jīng)貿(mào)代表團(tuán)隨行

德國總理默茨抵達(dá)北京開始訪華,高規(guī)格經(jīng)貿(mào)代表團(tuán)隨行

揚(yáng)子晚報
2026-02-25 11:18:35
NBA|克尼佩爾創(chuàng)最快200記三分,哈登又添“最老紀(jì)錄”

NBA|克尼佩爾創(chuàng)最快200記三分,哈登又添“最老紀(jì)錄”

澎湃新聞
2026-02-25 15:26:27
3億煙民都供不起了?虧損原因是?有員工10年公積金高達(dá)96萬?

3億煙民都供不起了?虧損原因是?有員工10年公積金高達(dá)96萬?

貓叔東山再起
2026-02-25 12:20:03
歐冠16強(qiáng)已定12席:英超6隊(duì)全入圍!去年亞軍出局 意甲或全軍覆沒

歐冠16強(qiáng)已定12席:英超6隊(duì)全入圍!去年亞軍出局 意甲或全軍覆沒

我愛英超
2026-02-25 06:26:28
陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

陳慧琳全家福刷屏!倆兒子身高超180,外甥多似舅果然是真的

照亮你的前行之路
2026-02-25 09:32:24
一箱油可橫跨北美 本田新型小飛機(jī)賣爆:購買意向達(dá)產(chǎn)能10倍

一箱油可橫跨北美 本田新型小飛機(jī)賣爆:購買意向達(dá)產(chǎn)能10倍

快科技
2026-02-24 08:21:03
換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

換掉原女主,陳麗君救了吳京《鏢人》!看了面試,才明白為何選她

頭號電影院
2026-02-23 13:09:53
伊朗外長:希望在最短時間內(nèi)與美國達(dá)成公平協(xié)議

伊朗外長:希望在最短時間內(nèi)與美國達(dá)成公平協(xié)議

每日經(jīng)濟(jì)新聞
2026-02-25 07:26:59
春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

春節(jié)旅行,看完三亞賬單我沉默了:一家三口10天,燒掉一年血汗錢

夜深愛雜談
2026-02-24 22:41:54
春節(jié)高速免費(fèi)最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點(diǎn)”失敗交了幾百元通行費(fèi)

春節(jié)高速免費(fèi)最后1分鐘:有人壓哨通過省下1000多元,也有車主從蕭山上高速后“卡點(diǎn)”失敗交了幾百元通行費(fèi)

都市快報橙柿互動
2026-02-24 09:16:26
倆月了,一個也沒賣到中國去

倆月了,一個也沒賣到中國去

觀察者網(wǎng)
2026-02-25 08:55:04
芯片還沒量產(chǎn),先產(chǎn)300個“臺積寶寶”!這產(chǎn)能太驚人!

芯片還沒量產(chǎn),先產(chǎn)300個“臺積寶寶”!這產(chǎn)能太驚人!

達(dá)文西看世界
2026-02-24 20:28:49
WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

WTT再爆大冷!3大世界冠軍被淘汰,日本大潰敗,國乒新星2-3出局

籃球看比賽
2026-02-24 15:15:56
開油車的笑了,開電車的慌了?2026油電新政實(shí)錘,稅費(fèi)規(guī)則全變了

開油車的笑了,開電車的慌了?2026油電新政實(shí)錘,稅費(fèi)規(guī)則全變了

蜉蝣說
2026-02-25 09:20:25
天安門廣場上的國家博物館將在北京豐臺建分館

天安門廣場上的國家博物館將在北京豐臺建分館

澎湃新聞
2026-02-25 12:54:27
在國安局食堂吃飯時,無意發(fā)現(xiàn)打菜的師傅,竟是我追蹤的千面間諜

在國安局食堂吃飯時,無意發(fā)現(xiàn)打菜的師傅,竟是我追蹤的千面間諜

千秋文化
2026-02-19 10:43:29
2026-02-25 15:39:00
字母榜 incentive-icons
字母榜
讓未來不止于大。
2246文章數(shù) 8043關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

頭條要聞

中方就涉烏克蘭問題的決議草案投棄權(quán)票 中國代表發(fā)聲

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

GEO亂象:誰為AI營銷的泡沫買單?

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

數(shù)碼
本地
時尚
公開課
軍事航空

數(shù)碼要聞

當(dāng)耳機(jī)帶了AMOLED屏 當(dāng)貝Air1深度評測:是時尚耳飾 更是地表最強(qiáng) AI 耳機(jī)

本地新聞

津南好·四時總相宜

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

俄烏沖突四周年:和平談判希望渺茫

無障礙瀏覽 進(jìn)入關(guān)懷版