国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

剛剛,ChatGPT 和 Claude 同時(shí)大更新,不會(huì)給 AI 當(dāng)老板的打工人要被淘汰

0
分享至

就在剛剛,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 像約好了一樣,同時(shí)甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果說(shuō)昨晚之前,我們還在討論怎么寫(xiě)好 Prompt 輔助工作;那么今天過(guò)后,我們可能需要學(xué)會(huì)如何作為老板去管理 AI 員工。


AI 造 AI,順便接管你的電腦

就在昨天,Sam Altman 剛在 X 平臺(tái)上凡爾賽了一把 Codex 的「百萬(wàn)活躍用戶(hù)」里程碑。短短一天后,OpenAI 再次乘勝追擊,扔出王炸——

GPT-5.3-Codex。

技術(shù)文檔里藏著一句極具分量的話(huà):「這是我們第一個(gè)在創(chuàng)造自己的過(guò)程中,發(fā)揮了關(guān)鍵作用的模型?!?/p>

說(shuō)人話(huà)就是:AI 已經(jīng)學(xué)會(huì)了自己寫(xiě)代碼、自己找 Bug,甚至開(kāi)始自己訓(xùn)練下一代的 AI 了。這種自我進(jìn)化能力,也直接體現(xiàn)在了一連串跑分?jǐn)?shù)據(jù)上。

還記得那個(gè)模擬人類(lèi)操作電腦的 OSWorld-Verified 基準(zhǔn)測(cè)試嗎?前代模型只有 38.2% 的準(zhǔn)確率,連及格線(xiàn)都?jí)虿簧稀5@次,GPT-5.3-Codex 直接跳漲到了 64.7%。


要知道,人類(lèi)的平均水平也就 72%。這意味著,AI 距離像你一樣熟練地甩鼠標(biāo)、切屏、操作軟件,只剩下一層窗戶(hù)紙的距離。

而在 Terminal-Bench 2.0(命令行操作基準(zhǔn)測(cè)試)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠(yuǎn)遠(yuǎn)甩在身后。


在覆蓋四種編程語(yǔ)言,不僅抗污染,還全是真實(shí)世界的硬核工程難題的 SWE-Bench Pro 基準(zhǔn)測(cè)試中, GPT-5.3-Codex 也表現(xiàn)出了 SOTA 水準(zhǔn), 而且用的 Token 比以往任何模型都少。


OpenAI 甚至展示了它獨(dú)立構(gòu)建的能力:

在幾天內(nèi),它從零構(gòu)建了一款包含多張地圖的賽車(chē)游戲 v2,順手還搞定了一款管理氧氣系統(tǒng)的深海潛水游戲。


最讓我印象深刻的是 GPT-5.3-Codex 對(duì)模糊意圖的理解。

在構(gòu)建落地頁(yè)時(shí),它自動(dòng)把年度計(jì)劃換算成了打折后的月付價(jià)格,甚至還貼心地自動(dòng)補(bǔ)充了用戶(hù)評(píng)價(jià)輪播——這一切,都不需要你下指令。


OpenAI 的野心已經(jīng)寫(xiě)在臉上了:以前微軟常說(shuō) AI 將會(huì)成為人類(lèi)的副駕駛(Copilot),但現(xiàn)在 AI 更想做那個(gè)能掌控方向盤(pán)、甚至能自己修車(chē)的司機(jī)。

對(duì)了,還有一個(gè)有趣的細(xì)節(jié)。

此前外界盛傳 OpenAI 對(duì)英偉達(dá)的 AI 芯片頗有微詞,但這次官方博客特地強(qiáng)調(diào):GPT-5.3-Codex 的設(shè)計(jì)、訓(xùn)練和部署都在 NVIDIA GB200 NVL72 系統(tǒng)上完成。

這一波高情商的「感謝英偉達(dá)」,屬實(shí)是給足了黃仁勛面子。


告別「金魚(yú)記憶」Claude 迎來(lái)絕地反擊

在 GPT-5.3-Codex 發(fā)布的前后腳,Anthropic 也端出了自己的春節(jié)大禮包。

壞消息是,大家期待的 Claude「中杯」Sonnet 模型沒(méi)有更新;但好消息是,Anthropic 直接端出了「超大杯」—— Claude Opus 4.6。


相比于 OpenAI 在行動(dòng)力上的激進(jìn),Anthropic 今天發(fā)布的 Claude Opus 4.6 則是在思考力和可靠性上死磕。


很多企業(yè)用戶(hù)都有一個(gè)名為 Context Rot(上下文腐蝕)的痛點(diǎn):號(hào)稱(chēng)支持 200k 上下文,但塞進(jìn)去的數(shù)據(jù)一多,AI 就開(kāi)始顧頭不顧尾。

這次,Claude Opus 4.6 拿出的數(shù)據(jù)簡(jiǎn)直是「降維打擊」。

在 MRCR v2(長(zhǎng)文本大海撈針)測(cè)試中,Claude Opus 4.6 的召回率高達(dá) 76%。

作為對(duì)比,上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說(shuō),這是一個(gè)從基本不可用到高可靠的質(zhì)變。

這是因?yàn)?Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。



這意味著什么?意味著你可以把幾百頁(yè)的財(cái)報(bào)、幾十萬(wàn)字的代碼庫(kù)直接扔給它,它不僅能讀完,還能精準(zhǔn)地告訴你第 342 頁(yè)腳注里的那個(gè)數(shù)字有問(wèn)題。

此外,它現(xiàn)在還支持最高 128k 的輸出 Token。什么概念?你可以讓它一次性寫(xiě)完長(zhǎng)篇研報(bào)或復(fù)雜的代碼庫(kù),而不用因?yàn)樽謹(jǐn)?shù)限制被迫截?cái)唷?/p>

除了記性好,Opus 4.6 這次還在智商上實(shí)現(xiàn)了碾壓:

在 GDPval-AA(一項(xiàng)針對(duì)金融、法律等高經(jīng)濟(jì)價(jià)值任務(wù)的評(píng)估)中,Opus 4.6 的 Elo 得分比業(yè)界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。

在復(fù)雜的多學(xué)科推理測(cè)試 Humanity's Last Exam 中,它領(lǐng)先所有前沿模型。

在測(cè)試尋找互聯(lián)網(wǎng)「難找信息」能力的 BrowseComp 中,它同樣表現(xiàn)最優(yōu)。


通過(guò)這些數(shù)據(jù),Anthropic 似乎在傳遞一個(gè)信號(hào):如果你要寫(xiě)代碼,去隔壁找 OpenAI;如果你要處理復(fù)雜的商業(yè)決策、法律文書(shū)或金融分析,Claude 才是唯一的選擇。

更讓打工人眼前一亮的是它的生產(chǎn)力功能。

一方面,Anthropic 這回直接把 Claude 塞進(jìn)了 Excel 和 PowerPoint。它能根據(jù) Excel 數(shù)據(jù)直接生成 PPT,不僅保留排版風(fēng)格,連字體和模板都能對(duì)齊。 在 Claude Cowork 協(xié)作環(huán)境中,它甚至能進(jìn)行自主多任務(wù)處理。


另一方面,Anthropic 順勢(shì)在 Claude Code 中推出了實(shí)驗(yàn)性的 Agent Teams 功能,讓普通開(kāi)發(fā)者也能體驗(yàn)這種「指揮千軍萬(wàn)馬」的感覺(jué):

角色分工:你可以指定一個(gè) Claude Session 擔(dān)任 Team Lead(組長(zhǎng)),它不干臟活累活,專(zhuān)門(mén)負(fù)責(zé)拆解任務(wù)、分配工單、合并代碼;其他的 Session 則是隊(duì)友(Teammates),各自領(lǐng)任務(wù)去干。

獨(dú)立作戰(zhàn):每個(gè)隊(duì)友都有獨(dú)立的上下文窗口(不用擔(dān)心 Token 爆炸),它們甚至能背著你互相發(fā)消息(Inter-agent messaging),討論技術(shù)細(xì)節(jié),最后只把結(jié)果匯報(bào)給組長(zhǎng)。

并行賽馬:這東西有什么用?想象一下查一個(gè)頑固 Bug,你可以生成 5 個(gè) Agent,分別驗(yàn)證 5 種不同的假設(shè),像「賽馬」一樣并行排雷;或者在 Code Review 時(shí),讓一個(gè)隊(duì)友扮「安全專(zhuān)家」查漏洞,一個(gè)扮「架構(gòu)師」看性能,互不干擾。

為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個(gè)瘋狂的實(shí)驗(yàn):Agent Teams(智能體團(tuán)隊(duì))。

他沒(méi)有親自寫(xiě)代碼,而是扔了 2 萬(wàn)美元 的 API 額度,讓 16 個(gè) Claude Opus 4.6 組成一個(gè)「全自動(dòng)軟件開(kāi)發(fā)團(tuán)隊(duì)」。

結(jié)果在短短兩周內(nèi),這群 AI 自主進(jìn)行了 2000 多個(gè)編程會(huì)話(huà),從零手寫(xiě)了一個(gè) 10 萬(wàn)行代碼的 C 語(yǔ)言編譯器(基于 Rust)。


這個(gè) AI 寫(xiě)的編譯器,還成功編譯了 Linux 6.9 內(nèi)核(涵蓋 x86、ARM 和 RISC-V 架構(gòu)),甚至跑通了 Doom 游戲。

雖然它還不夠完美(比如生成的代碼效率不如 GCC),但這個(gè)案例也表明我們不再是和 AI 一起編程,而是看著一個(gè) AI 團(tuán)隊(duì)自主協(xié)作、查錯(cuò)、推進(jìn)項(xiàng)目。

此外,它還學(xué)會(huì)了 Adaptive Thinking(自適應(yīng)推理),能根據(jù)難度自己決定「想多久」。加上新增的「智能強(qiáng)度」控制,你可以在 Low 到 Max 四檔之間切換。

定價(jià)方面,Anthropic 這次很良心,維持在每百萬(wàn) Token $5/$25 的基礎(chǔ)定價(jià)??磥?lái)是為了搶占企業(yè)級(jí)市場(chǎng),鐵了心要和 OpenAI 卷到底。


一個(gè)是激進(jìn)天才,一個(gè)是靠譜老牛

知名 AI 評(píng)測(cè)人 Dan Shipper 在第一時(shí)間搞了個(gè)「盲測(cè)」(Vibe Check),他的評(píng)價(jià)非常精準(zhǔn):

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一個(gè)才華橫溢但偶爾跳脫的天才。在測(cè)試中,它直接解決了一個(gè)讓 iOS 團(tuán)隊(duì)卡了兩個(gè)月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會(huì)「過(guò)度自信」,一本正經(jīng)地胡說(shuō)八道。如果你需要突破性的靈感,選它。


GPT-5.3-Codex 則是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一個(gè)經(jīng)驗(yàn)豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級(jí)錯(cuò)誤,穩(wěn)健得讓人心安。

雖然在創(chuàng)造性任務(wù)上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和運(yùn)維任務(wù)中,它是最高效的老黃牛。


當(dāng)然,比起選擇哪款模型,更重要的是,當(dāng) ChatGPT 可以自主修 Bug 甚至操作你的終端,當(dāng) Claude 可以一次性吞吐海量文檔并精準(zhǔn)定位細(xì)節(jié)時(shí),Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開(kāi)始浮出水面。

我們不再需要像教小學(xué)生一樣,把指令拆解得碎碎念。相反,我們需要做的,是學(xué)會(huì)如何以管理者的身份,去定義目標(biāo)、審核結(jié)果、以及決定在什么時(shí)候,把什么任務(wù)交給哪位 AI 員工。

這就是 2026 年的新職場(chǎng)。你的團(tuán)隊(duì)里混入了一群硅基天才,而你是唯一的碳基老板。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱(chēng)」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒(méi)有自己作品

騰訊關(guān)閉天美蒙特利爾工作室!成立5年沒(méi)有自己作品

游民星空
2026-02-23 09:21:23
徹底撕破臉,巴拿馬強(qiáng)闖港口辦公區(qū),驅(qū)逐中企員工,一點(diǎn)后路不留

徹底撕破臉,巴拿馬強(qiáng)闖港口辦公區(qū),驅(qū)逐中企員工,一點(diǎn)后路不留

石江月
2026-02-24 17:14:46
權(quán)志龍?jiān)偃翎呏袊?guó)春節(jié),女星鄧家佳跟風(fēng),被網(wǎng)友罵后刪博了事

權(quán)志龍?jiān)偃翎呏袊?guó)春節(jié),女星鄧家佳跟風(fēng),被網(wǎng)友罵后刪博了事

錢(qián)小刀娛樂(lè)
2026-02-22 21:54:09
雨水成為常客,廣東局部將有暴雨

雨水成為常客,廣東局部將有暴雨

新快報(bào)新聞
2026-02-24 19:47:14
BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬(wàn),新能源車(chē)企卻換了一種打法

BBA春節(jié)檔掀史上最猛降價(jià)潮,寶馬7系狂降27萬(wàn),新能源車(chē)企卻換了一種打法

金融界
2026-02-24 18:07:07
打伊朗前,美國(guó)找到中國(guó),特朗普知道:他錯(cuò)一步,中國(guó)就不戰(zhàn)而勝

打伊朗前,美國(guó)找到中國(guó),特朗普知道:他錯(cuò)一步,中國(guó)就不戰(zhàn)而勝

頭條爆料007
2026-02-24 14:44:25
奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

奧運(yùn)會(huì)為什么發(fā)避孕套?難道運(yùn)動(dòng)員都帶伴侶嗎?看完你就明白了!

南權(quán)先生
2026-02-13 15:17:51
中美俄意見(jiàn)一致,寧可讓日本從地球上消失,也堅(jiān)決不允許它擁核!

中美俄意見(jiàn)一致,寧可讓日本從地球上消失,也堅(jiān)決不允許它擁核!

老范談史
2026-02-23 20:33:48
古董相機(jī)價(jià)格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費(fèi)用暴漲成主因

古董相機(jī)價(jià)格暴漲翻10倍 根本搶不到 業(yè)內(nèi)人士:芯片短缺和物流費(fèi)用暴漲成主因

快科技
2026-02-24 11:31:04
美國(guó)深夜收到消息:中國(guó)發(fā)兩條公告,亞洲震動(dòng),日本右翼陷入癲狂

美國(guó)深夜收到消息:中國(guó)發(fā)兩條公告,亞洲震動(dòng),日本右翼陷入癲狂

東極妙嚴(yán)
2026-02-24 15:24:06
吳石夫人王碧奎晚年自述,寧在臺(tái)流浪不返大陸,居美國(guó)訴心底真意

吳石夫人王碧奎晚年自述,寧在臺(tái)流浪不返大陸,居美國(guó)訴心底真意

嘮叨說(shuō)歷史
2026-02-02 18:45:08
兩萬(wàn)元朝鮮五天行:我花三個(gè)月工資,買(mǎi)了一堂最值錢(qián)的課

兩萬(wàn)元朝鮮五天行:我花三個(gè)月工資,買(mǎi)了一堂最值錢(qián)的課

世界圈
2026-02-24 19:32:57
火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

火箭大勝爵士升西部第三:杜蘭特18+12助攻加盟新高 小賈31+9

醉臥浮生
2026-02-24 12:54:22
中國(guó)家庭的“六大閑置”,我家就占了3個(gè),再有錢(qián)也別跟風(fēng)買(mǎi)回家

中國(guó)家庭的“六大閑置”,我家就占了3個(gè),再有錢(qián)也別跟風(fēng)買(mǎi)回家

家居設(shè)計(jì)師蘇哥
2025-12-31 14:04:57
不出意外!2026年3月起,房子、車(chē)子、存款或?qū)⒂瓉?lái)重大改變

不出意外!2026年3月起,房子、車(chē)子、存款或?qū)⒂瓉?lái)重大改變

財(cái)經(jīng)保探長(zhǎng)
2026-02-23 19:40:52
沒(méi)有時(shí)間參加!美國(guó)女子冰球隊(duì)婉拒總統(tǒng)好意,拒絕特朗普邀約

沒(méi)有時(shí)間參加!美國(guó)女子冰球隊(duì)婉拒總統(tǒng)好意,拒絕特朗普邀約

全景體育V
2026-02-24 14:03:05
突發(fā)!武漢知名寶馬4s店被申請(qǐng)破產(chǎn)!

突發(fā)!武漢知名寶馬4s店被申請(qǐng)破產(chǎn)!

三農(nóng)老歷
2026-02-24 22:06:15
中國(guó)男籃,郭士強(qiáng)任命新一任隊(duì)長(zhǎng)

中國(guó)男籃,郭士強(qiáng)任命新一任隊(duì)長(zhǎng)

體育哲人
2026-02-24 20:23:42
美國(guó)深夜收到消息:中國(guó)發(fā)兩條公告,亞洲震動(dòng),日本右翼陷入癲狂

美國(guó)深夜收到消息:中國(guó)發(fā)兩條公告,亞洲震動(dòng),日本右翼陷入癲狂

徐云流浪中國(guó)
2026-02-24 15:05:50
張藝謀:第一次見(jiàn)她,我對(duì)她說(shuō),你等著我們來(lái)找你,不要亂演電影

張藝謀:第一次見(jiàn)她,我對(duì)她說(shuō),你等著我們來(lái)找你,不要亂演電影

秀語(yǔ)千尋
2026-02-22 19:28:42
2026-02-25 00:11:00
AppSo incentive-icons
AppSo
讓智能手機(jī)更好用的秘密
6125文章數(shù) 26774關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強(qiáng)吻動(dòng)作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車(chē)要聞

入門(mén)即滿(mǎn)配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

健康
親子
手機(jī)
教育
公開(kāi)課

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車(chē)上班嗎?

親子要聞

我嫁中國(guó)生了3個(gè)孩子,每天帶娃堪比春晚!

手機(jī)要聞

蘋(píng)果發(fā)布iOS 26.4 Beta 2系統(tǒng)更新,液態(tài)玻璃設(shè)計(jì)有新變化!

教育要聞

因?yàn)楹⒆觽兊囊粋€(gè)疑問(wèn),這堂課上了8個(gè)月

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版