網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

貼臉對打Opus 4.5！最新Codex自己寫自己，網(wǎng)友實(shí)測“放手”8小時不崩

2026-02-06 15:25:16　來源: AI前線

北京舉報(bào)

分享至

作者｜木子

OpenAI 和 Anthropic，這回真是貼臉對打。

Claude Opus 4.6 發(fā)布還不到半小時，GPT-5.3-Codex 直接上線，沒有鋪墊，沒有預(yù)熱。

這不是小修小補(bǔ)，而是 OpenAI 目前最強(qiáng)的Agent 化編程模型。

對此，網(wǎng)友又搬出了一張經(jīng)典的圖：

有意思的是，OpenAI 自己承認(rèn)：Codex 團(tuán)隊(duì)在開發(fā) GPT-5.3 的過程中，使用早期版本，來調(diào)試自己的訓(xùn)練、管理自己部署、診斷測試結(jié)果和評估——簡而言之，就是AI 自己參與開發(fā)了自己。

如果說過去的 Codex 更像一個高效的編碼助手，那 GPT-5.3-Codex，可謂“能在電腦上完成幾乎全部專業(yè)工作”的通用 Agent。

有多通用？——它不只是寫代碼，還能長期運(yùn)行任務(wù)、調(diào)用工具、操作終端、管理部署流程；也就是說，從研發(fā)到上線，幾乎整條鏈路都能自己接住。

用 OpenAI 聯(lián)創(chuàng)兼總裁 Greg Brockman 的話來說，就是軟件開發(fā)正在經(jīng)歷一次復(fù)興，而 Agent 成為了“第一入口”。

他們定了一個挺激進(jìn)的目標(biāo)：對任何技術(shù)任務(wù)，人類第一反應(yīng)應(yīng)該是“和 Agent 交互”，而不是打開編輯器或終端。

奪多項(xiàng) SOTA，網(wǎng)友實(shí)測長聯(lián)路

穩(wěn)定性超過 Opus 4.5

那么，GPT-5.3-Codex 到底好用嗎，有多好用？

先拿最直觀的Benchmark 跑分說話。

最明顯變化，是它在終端環(huán)境的實(shí)際執(zhí)行能力變強(qiáng)了。在 Terminal-Bench 2.0 上，GPT-5.3-Codex 拿到77.3%，相比 GPT-5.2-Codex 直接抬高了將近 13 個百分點(diǎn)。

Terminal-Bench 2.0 測的不是“會不會寫代碼”，而是專門衡量Agent 能否真的在終端環(huán)境完成真實(shí)工程任務(wù)：敲命令、調(diào)工具、多步驟執(zhí)行、出錯再修。

換句話說，這個指標(biāo)考的是工程現(xiàn)場表現(xiàn)，而不是像 SWE-Bench 那樣的單純刷題表現(xiàn)。

有意思的是，Claude Opus 4.6 也跑了 Terminal-Bench 2.0，成績是 65.4%，GPT-5.3-Codex 的得分比它高出了 12%。

除此之外，GPT-5.3-Codex 的提升主要還有：

計(jì)算機(jī)操作能力，翻倍級提升。它在 OSWorld 得分 64.7%，而上一代 GPT-5.2-Codex 得分才 38.2%。
大家現(xiàn)在很關(guān)心的網(wǎng)絡(luò)安全能力，它在 Cybersecurity CTF 得分 77.6%，比上一代 GPT-5.2-Codex 提升了約 10%。
輸出準(zhǔn)確率上，GPT-5.3-Codex 對于不同輸出 token 數(shù)量，準(zhǔn)確率始終高于 GPT-5.2-Codex 和 GPT-5.2

有網(wǎng)友問 GPT-5.3-Codex 和 Claude Code 誰更好用，Gork 是這樣的回答的（Doge）：

一位叫 Matt Shumer 的小哥（下文簡稱 Matt 哥）也迅速親測了一把 GPT-5.3-Codex，他也是 Github for prompts 的創(chuàng)建者。

Matt 哥看起來對測評結(jié)果還挺滿意的，他甚至還給這篇 Blog 起了個霸氣的標(biāo)題：《完全自主時代已到來》。

他在 Blog 中興奮地寫到：這是他第一次敢把任務(wù)丟給模型，然后他真的走開幾個小時（甚至 8+ 小時），模型都不會中途崩潰、漂移或降智。

Matt 哥指出，GPT-5.3-Codex 不只是寫代碼，它還會自己補(bǔ)全模糊信息、自己做架構(gòu)判斷、自己修 Bug、自己部署、自己看日志，然后一直改到測試全綠。只要給它清晰的驗(yàn)證標(biāo)準(zhǔn)，它可以連續(xù)跑幾個小時都不跑偏。

而讓他最欣喜的，不是模型“更聰明”，而是判斷力：當(dāng)指令有歧義時，這個 AI 模型選的路徑，往往就是他本人也會選的那條，而不是那種看起來最快、但后患無窮的“捷徑”。

你只要把 pass/fail 講清楚，它就能一直迭代、一直修，直到測試全綠才停。另外，你告訴它怎么判定對錯，講得越明確，它就越能自己閉環(huán)，不需要人在中途不停糾偏。

而且它是真能把閉環(huán)跑完整：改代碼、push、部署、打開線上鏈接、tail 日志——哪里出錯就繼續(xù)修到能用為止。

Matt 哥舉了個例子，他給了 Railway CLI 這類部署工具的權(quán)限，讓模型自己把“上線”這一步做完，然后用線上反饋繼續(xù)修，直到真的可用。

除此之外，GPT-5.3-Codex 還挺會利用等待時間：命令在跑著，它就去補(bǔ)文檔、補(bǔ)上下文、順手修點(diǎn)邊角問題，但又不會亂改一堆你沒讓它碰的東西。

也就是說，這個模型解決了跟多人在用 Agent 去 Vibe Coding 時的“心腹大患”：它非?！岸执纭?，會做有幫助的事，但不越界、不亂改。

Matt 哥指出，關(guān)于長鏈路任務(wù)穩(wěn)定性，GPT-5.3-Codex 的表現(xiàn)明顯好于 Opus 4.5。雖然它比 Opus 4.5 慢，但也更穩(wěn)。

另外，多 Agent 也終于不再像聊天表演了：Matt 哥認(rèn)為，GPT-5.3-Codex 真的能把任務(wù)切成幾個并行工作流，每個 Agent 各盯一塊，整體推進(jìn)更快、也更不容易漏東西。

不過，GPT-5.3-Codex 的缺點(diǎn)，或者說為了“穩(wěn)”而付出的代價(jià)，也很明顯：它真的慢。而且過程播報(bào)偶爾會斷掉、更不適合拿來設(shè)計(jì) prompt/agent 架構(gòu)。

但如果你要的是“別出錯、別跑偏、別讓我盯著”，那終于像那么回事了。更確切地說：它不一定是“最好玩”的那種模型，但在“復(fù)雜、長時間、約束多、最好一次做對”的活上，它能讓使用者足夠安心。

OpenAI 總裁：

Agent正重構(gòu)軟件開發(fā)

前文提到，OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman 發(fā)了一條帖子，說軟件開發(fā)正在經(jīng)歷一次“復(fù)興”，而 Agent 正在變成工程師的“第一入口”。

在他看來，像 GPT-5.3-Codex 這樣的模型，已經(jīng)強(qiáng)到可以在長時間、復(fù)雜約束下，獨(dú)立把一整條工程鏈路跑完：從寫代碼到調(diào)試、部署，再到持續(xù)迭代。

當(dāng)模型能力已經(jīng)到這個程度，問題就不再只是“要不要用”，而是公司是否準(zhǔn)備好把流程、代碼結(jié)構(gòu)甚至團(tuán)隊(duì)協(xié)作方式一起改掉。

這條帖子更像是一份內(nèi)部轉(zhuǎn)型說明書，里面講的不只是模型變強(qiáng)了，而是當(dāng)默認(rèn)入口變成 Agent 之后，工程組織該怎么自處。完整內(nèi)容如下：

軟件開發(fā)正在我們眼前經(jīng)歷一次復(fù)興。

如果你最近還沒有用這些工具，你很可能低估了自己錯過了什么。自去年 12 月以來，像 Codex 這樣的工具能力出現(xiàn)了階躍式提升。

昨天有幾位 OpenAI 的優(yōu)秀工程師告訴我，自 12 月以來，他們的工作方式已經(jīng)發(fā)生了根本變化。此前，他們只能用 Codex 寫單元測試；而現(xiàn)在，它幾乎寫了全部代碼，還承擔(dān)了大量運(yùn)維和調(diào)試工作。并不是每個人都完成了這種轉(zhuǎn)變，但通常阻礙他們的并不是模型能力本身。

現(xiàn)在，每家公司都面臨同樣的機(jī)會。而要駕馭它，就像當(dāng)年面對云計(jì)算或互聯(lián)網(wǎng)一樣，需要認(rèn)真思考。這篇文章分享了 OpenAI 當(dāng)前如何將團(tuán)隊(duì)重構(gòu)為“Agent 化軟件開發(fā)”的實(shí)踐。我們?nèi)栽趯W(xué)習(xí)和迭代，但這是我們目前的思路：

第一步，我們希望在 3 月 31 日前做到：

1）對于任何技術(shù)任務(wù)，人類的第一選擇工具是與 Agent 交互，而不是打開編輯器或終端。

2）人類默認(rèn)使用 Agent 的方式必須經(jīng)過明確的安全評估，同時足夠高效，使大多數(shù)工作流程無需額外審批。

為了實(shí)現(xiàn)這一目標(biāo)，我們幾周前向團(tuán)隊(duì)提出了以下建議：

1、花時間真正去嘗試這些工具。很多人已經(jīng)在 Codex 5.2 上有了驚艷體驗(yàn)，但也有不少人因?yàn)槊β颠€沒嘗試，或者陷入“它真的能做 X 嗎”的懷疑，而不是直接試一試。

為團(tuán)隊(duì)指定一名“Agent 負(fù)責(zé)人”，專門思考如何把 Agent 融入團(tuán)隊(duì)工作流。
在內(nèi)部渠道分享經(jīng)驗(yàn)和問題。
舉辦一次公司范圍內(nèi)的 Codex Hackathon。

2、創(chuàng)建 skills 和 AGENTS.md 文件。

為每個項(xiàng)目維護(hù)一個 AGENTS.md，當(dāng) Agent 出錯或卡住時及時更新。
把你讓 Codex 執(zhí)行的能力抽象為 skills，并提交到共享倉庫。

3、盤點(diǎn)并開放內(nèi)部工具。

列出團(tuán)隊(duì)依賴的工具，并確保有人負(fù)責(zé)將其改造成 Agent 可訪問（例如提供 CLI 或 MCP Server 接口）。

4、讓代碼庫結(jié)構(gòu)“Agent 優(yōu)先”。

寫運(yùn)行快速的測試。
構(gòu)建高質(zhì)量的組件接口。

5、拒絕“垃圾代碼”。

大規(guī)模管理 AI 生成代碼是一個新問題，需要新的流程與規(guī)范。
確保每一段合并代碼都有明確的人工負(fù)責(zé)人。
審查標(biāo)準(zhǔn)至少與人類寫的代碼一樣嚴(yán)格。

6、建設(shè)基礎(chǔ)設(shè)施。

不僅要記錄最終提交的代碼，還要記錄 Agent 的執(zhí)行軌跡。
建立可觀測性系統(tǒng)與統(tǒng)一工具管理機(jī)制。

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/gdb/status/2019566641491963946

https://shumer.dev/gpt53-codex-review

聲明：本文為 AI 前線整理，不代表平臺觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產(chǎn)業(yè)落地，從技術(shù)前沿到行業(yè)應(yīng)用，全面覆蓋 AI 與軟件開發(fā)核心賽道！集結(jié)全球技術(shù)先鋒，拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn)，探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能，獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察，高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn)，搶占 2026 智能升級發(fā)展先機(jī)！

今日薦文

你也「在看」嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.