国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,ChatGPT 和 Claude 同時大更新,不會給 AI 當(dāng)老板的打工人要被淘汰

0
分享至

就在剛剛,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣,同時甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果說昨晚之前,我們還在討論「怎么寫好 Prompt 輔助工作」;那么今天凌晨,我們可能被迫要學(xué)會「如何作為老板去管理 AI 員工」。


AI 造 AI,順便接管你的電腦

就在昨天,Sam Altman 剛在 X 平臺上凡爾賽了一把 Codex 的「百萬活躍用戶」里程碑。短短一天后,OpenAI 再次乘勝追擊,扔出王炸——GPT-5.3-Codex。

技術(shù)文檔里藏著一句極具分量的話:「這是我們第一個在創(chuàng)造自己的過程中,發(fā)揮了關(guān)鍵作用的模型。」

說人話就是:AI 已經(jīng)學(xué)會了自己寫代碼、自己找 Bug,甚至開始自己訓(xùn)練下一代的 AI 了。這種自我進(jìn)化能力,也直接體現(xiàn)在了一連串跑分?jǐn)?shù)據(jù)上。


還記得那個模擬人類操作電腦的 OSWorld-Verified 基準(zhǔn)測試嗎?前代模型只有 38.2% 的準(zhǔn)確率,連及格線都夠不上。

但這次,GPT-5.3-Codex 直接跳漲到了 64.7%!


要知道,人類的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩鼠標(biāo)、切屏、操作軟件,只剩下一層窗戶紙的距離。

而在 Terminal-Bench 2.0(命令行操作)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠(yuǎn)遠(yuǎn)甩在身后。


知名 SWE-Bench Pro 基準(zhǔn)測試覆蓋四種編程語言,不僅抗污染,還全是真實世界的硬核工程難題。

GPT-5.3-Codex 在這里不僅拿下了 SOTA(最高水平),而且用的 Token 比以往任何模型都少。這意味著什么?意味著它不僅干活猛,解決問題的路徑還比人類更短、更省錢。

OpenAI 甚至展示了它獨立構(gòu)建的能力:

在幾天內(nèi),它從零構(gòu)建了一款包含多張地圖的賽車游戲 v2,順手還搞定了一款管理氧氣系統(tǒng)的深海潛水游戲。


最讓我印象深刻的是 GPT-5.3-Codex 對模糊意圖的理解。

在構(gòu)建「Quiet KPI」落地頁時,它自動把「年度計劃」換算成了「打折后的月付價格」,甚至還貼心地自動補(bǔ)充了用戶評價輪播——這一切,都不需要你下指令。


OpenAI 的野心已經(jīng)寫在臉上了:以前微軟常說 AI 將會成為人類的副駕駛(Copilot),但現(xiàn)在 AI 更想做那個能掌控方向盤、甚至能自己修車的司機(jī)。

對了,還有一個有趣的細(xì)節(jié)。

此前外界盛傳 OpenAI 對英偉達(dá)的 AI 芯片頗有微詞,但這次官方博客特地強(qiáng)調(diào):GPT-5.3-Codex 的設(shè)計、訓(xùn)練和部署都在 NVIDIA GB200 NVL72 系統(tǒng)上完成。

這一波高情商的「感謝英偉達(dá)」,屬實是給足了黃仁勛面子。


告別「金魚記憶」Claude 迎來絕地反擊

在 GPT-5.3-Codex 發(fā)布的前后腳,Anthropic 也端出了自己的春節(jié)大禮包。

壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。

相比于 OpenAI 在「行動力」上的激進(jìn),Anthropic 今天發(fā)布的 Claude Opus 4.6 則是在「思考力」和「可用性」上死磕。


很多企業(yè)用戶都有一個名為 Context Rot(上下文腐蝕)的痛點:號稱支持 200k 上下文,但塞進(jìn)去的數(shù)據(jù)一多,AI 就開始顧頭不顧尾。

這次,Claude Opus 4.6 拿出的數(shù)據(jù)簡直是「降維打擊」。

在 MRCR v2(長文本大海撈針)測試中,Claude Opus 4.6 的召回率高達(dá) 76%。

作為對比,上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說,這是一個從基本不可用到「高可靠」的質(zhì)變。

這是 Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。



這意味著什么?意味著你可以把幾百頁的財報、幾十萬字的代碼庫直接扔給它,它不僅能讀完,還能精準(zhǔn)地告訴你第 342 頁腳注里的那個數(shù)字有問題。

更讓打工人眼前一亮的是它的生產(chǎn)力功能。

一方面,Anthropic 這回直接把 Claude 塞進(jìn)了 Excel 和 PowerPoint。它能根據(jù) Excel 數(shù)據(jù)直接生成 PPT,不僅保留排版風(fēng)格,連字體和模板都能對齊。在 Claude Cowork 協(xié)作環(huán)境中,它甚至能進(jìn)行自主多任務(wù)處理。

另一方面,Anthropic 順勢在 Claude Code 中推出了實驗性的 Agent Teams 功能,讓普通開發(fā)者也能體驗這種「指揮千軍萬馬」的感覺:

  • 角色分工:你可以指定一個 Claude Session 擔(dān)任 Team Lead(組長),它不干臟活累活,專門負(fù)責(zé)拆解任務(wù)、分配工單、合并代碼;其他的 Session 則是隊友(Teammates),各自領(lǐng)任務(wù)去干。
  • 獨立作戰(zhàn):每個隊友都有獨立的上下文窗口(不用擔(dān)心 Token 爆炸),它們甚至能背著你互相發(fā)消息(Inter-agent messaging),討論技術(shù)細(xì)節(jié),最后只把結(jié)果匯報給組長。
  • 并行賽馬:這東西有什么用?想象一下查一個頑固 Bug,你可以生成 5 個 Agent,分別驗證 5 種不同的假設(shè),像「賽馬」一樣并行排雷;或者在 Code Review 時,讓一個隊友扮「安全專家」查漏洞,一個扮「架構(gòu)師」看性能,互不干擾。

為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗:Agent Teams(智能體團(tuán)隊)。

他沒有親自寫代碼,而是扔了 2 萬美元 的 API 額度,讓 16 個 Claude Opus 4.6 組成一個「全自動軟件開發(fā)團(tuán)隊」。

結(jié)果在短短兩周內(nèi),這群 AI 自主進(jìn)行了 2000 多個編程會話,從零手寫了一個 10 萬行代碼的 C 語言編譯器(基于 Rust)。


這個 AI 寫的編譯器,還成功編譯了 Linux 6.9 內(nèi)核(涵蓋 x86、ARM 和 RISC-V 架構(gòu)),甚至跑通了 Doom 游戲。

雖然它還不夠完美(比如生成的代碼效率不如 GCC),但這個案例也表明我們不再是和 AI 一起編程,而是看著一個 AI 團(tuán)隊自主協(xié)作、查錯、推進(jìn)項目。

此外,它還學(xué)會了 Adaptive Thinking(自適應(yīng)推理),能根據(jù)難度自己決定「想多久」。加上新增的「智能強(qiáng)度」控制,你可以在 Low 到 Max 四檔之間切換。

定價方面,Anthropic 這次很良心,維持在每百萬 Token $5/$25 的基礎(chǔ)定價。看來是為了搶占企業(yè)級市場,鐵了心要和 OpenAI 卷到底。

一個是激進(jìn)天才,一個是靠譜老牛

知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」(Vibe Check),他的評價非常精準(zhǔn):

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一個才華橫溢但偶爾跳脫的天才。在測試中,它直接解決了一個讓 iOS 團(tuán)隊卡了兩個月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會「過度自信」,一本正經(jīng)地胡說八道。如果你需要突破性的靈感,選它。

GPT-5.3-Codex 是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一個經(jīng)驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級錯誤,穩(wěn)健得讓人心安。

雖然在創(chuàng)造性任務(wù)上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和運(yùn)維任務(wù)中,它是最高效的老黃牛。如果你需要穩(wěn)定交付,選它。


時間步入 2026 年,我們的角色開始發(fā)生變化。

在這個時間節(jié)點,對于普通用戶而言,最大的變化莫過于此:Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開始浮出水面。

當(dāng) ChatGPT 可以自主修 Bug 甚至操作你的終端,當(dāng) Claude 可以一次性吞吐 100 萬字并精準(zhǔn)定位細(xì)節(jié)時,我們不再需要像教小學(xué)生一樣,把指令拆解得碎碎念。

我們需要做的,是學(xué)會如何以「管理者」的身份,去定義目標(biāo)、審核結(jié)果、以及——決定在什么時候,把什么任務(wù)交給哪位「員工」。

這就是 2026 年的新職場:你的團(tuán)隊里混入了一群硅基天才,而你是唯一的碳基老板。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
快可電子:越南工廠年產(chǎn)能約3000萬套接線盒,美國工廠年產(chǎn)能約1000萬套接線盒

快可電子:越南工廠年產(chǎn)能約3000萬套接線盒,美國工廠年產(chǎn)能約1000萬套接線盒

每日經(jīng)濟(jì)新聞
2026-02-27 17:18:15
沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

沉默整整9天,毛寧一錘定音,中美戰(zhàn)機(jī)已交手,美方要見中國代表

丁羂解說
2026-02-26 14:31:05
歐冠16強(qiáng)抽簽出爐附賽程:皇馬vs曼城!晉級懸念不大 8強(qiáng)基本如下

歐冠16強(qiáng)抽簽出爐附賽程:皇馬vs曼城!晉級懸念不大 8強(qiáng)基本如下

小火箭愛體育
2026-02-27 20:54:30
說斷就斷!泰山隊取消登山計劃,文旅集團(tuán)一刀砍斷了球隊20年脊梁

說斷就斷!泰山隊取消登山計劃,文旅集團(tuán)一刀砍斷了球隊20年脊梁

體壇小鵬
2026-02-27 16:53:47
福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時間在室內(nèi)…

福建流落在柬埔寨的吳某楨工作細(xì)節(jié)流出:大部分工作時間在室內(nèi)…

小嵩
2026-01-10 19:34:08
6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

6年了,郭麒麟的反擊幾乎斷送了朱亞文的演藝生涯

小熊侃史
2025-12-25 11:24:12
《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

《鏢人》破10億只是開始,吳京、沈騰、周星馳要掀起一波新高潮了

小丸子的娛樂圈
2026-02-27 17:57:58
離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

離婚7年,39歲楊冪高調(diào)宣布喜訊,和前夫劉愷威已經(jīng)拉開距離

洲洲影視娛評
2026-02-27 13:23:45
韓旭WNBL總決賽首秀16+6+3,山貓不敵火焰大比分0-1落后

韓旭WNBL總決賽首秀16+6+3,山貓不敵火焰大比分0-1落后

懂球帝
2026-02-27 13:10:08
荷蘭嘗到甜頭,準(zhǔn)備再次對華虎口奪食,已經(jīng)盯上“下一個安世”?

荷蘭嘗到甜頭,準(zhǔn)備再次對華虎口奪食,已經(jīng)盯上“下一個安世”?

健身狂人
2026-02-27 17:28:19
“專科男生古茗8小時”事件,被全網(wǎng)嘲笑:無知的人連裝都不會裝

“??颇猩跑?小時”事件,被全網(wǎng)嘲笑:無知的人連裝都不會裝

妍妍教育日記
2026-02-26 20:37:12
被中方反制后,日本一片哀嚎,高市態(tài)度大變,開始勸中國冷靜了?

被中方反制后,日本一片哀嚎,高市態(tài)度大變,開始勸中國冷靜了?

星星會墜落
2026-02-28 08:50:37
WTT大滿貫女單4強(qiáng)名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

WTT大滿貫女單4強(qiáng)名單揭曉,張本美和橫掃晉級,王曼昱逆轉(zhuǎn)

呂彍極限手工
2026-02-27 10:11:18
印度91歲僧人78年不吃不喝?軍方在其房間裝上監(jiān)控,最終發(fā)現(xiàn)真相

印度91歲僧人78年不吃不喝?軍方在其房間裝上監(jiān)控,最終發(fā)現(xiàn)真相

談史論天地
2026-02-22 06:31:28
梅西太無奈!被球迷抱摔,5人沖場比賽中斷3分鐘,友誼賽變鬧劇

梅西太無奈!被球迷抱摔,5人沖場比賽中斷3分鐘,友誼賽變鬧劇

奧拜爾
2026-02-27 11:03:22
德國賽第4日:國羽8勝1負(fù)!翁泓陽慘遭逆轉(zhuǎn),混雙獨苗挑落世界第7

德國賽第4日:國羽8勝1負(fù)!翁泓陽慘遭逆轉(zhuǎn),混雙獨苗挑落世界第7

釘釘陌上花開
2026-02-28 07:11:13
升級版的仙人跳,比戴綠帽子還憋屈

升級版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
白崇禧女兒潛回大陸,住旅館結(jié)賬時,服務(wù)員卻說:你的賬不用結(jié)了

白崇禧女兒潛回大陸,住旅館結(jié)賬時,服務(wù)員卻說:你的賬不用結(jié)了

優(yōu)趣紀(jì)史記
2026-02-27 02:58:54
大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

大家斷崖式衰老都是在多少歲? 網(wǎng)友的回答很扎心了,滿是無奈

另子維愛讀史
2025-12-26 16:31:13
新疆24歲產(chǎn)婦誕下5胞胎,體重最輕的870克,網(wǎng)友:補(bǔ)貼拿到手軟了

新疆24歲產(chǎn)婦誕下5胞胎,體重最輕的870克,網(wǎng)友:補(bǔ)貼拿到手軟了

云舟史策
2026-02-27 23:22:43
2026-02-28 09:56:49
愛范兒 incentive-icons
愛范兒
消費(fèi)科技第一媒體
38469文章數(shù) 2600999關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時刻 信號已經(jīng)很明顯了

體育要聞

一場必須要贏的比賽,男籃何止擊敗了裁判

娛樂要聞

郭晶晶霍啟剛現(xiàn)身香港藝術(shù)節(jié)盡顯恩愛

財經(jīng)要聞

沈明高提共富建議 百姓持科技股國家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

教育
時尚
本地
公開課
軍事航空

教育要聞

剛剛!考研,出分?。ǜ綒v年國家線)

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

本地新聞

津南好·四時總相宜

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美國11架F-22隱形戰(zhàn)機(jī)抵達(dá)以色列

無障礙瀏覽 進(jìn)入關(guān)懷版