国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

貼臉對打Opus 4.5!最新Codex自己寫自己,網(wǎng)友實(shí)測“放手”8小時不崩

0
分享至


作者 | 木子

OpenAI 和 Anthropic,這回真是貼臉對打。

Claude Opus 4.6 發(fā)布還不到半小時,GPT-5.3-Codex 直接上線,沒有鋪墊,沒有預(yù)熱。

這不是小修小補(bǔ),而是 OpenAI 目前最強(qiáng)的Agent 化編程模型。


對此,網(wǎng)友又搬出了一張經(jīng)典的圖:


有意思的是,OpenAI 自己承認(rèn):Codex 團(tuán)隊(duì)在開發(fā) GPT-5.3 的過程中,使用早期版本,來調(diào)試自己的訓(xùn)練、管理自己部署、診斷測試結(jié)果和評估——簡而言之,就是AI 自己參與開發(fā)了自己。


如果說過去的 Codex 更像一個高效的編碼助手,那 GPT-5.3-Codex,可謂“能在電腦上完成幾乎全部專業(yè)工作”的通用 Agent。

有多通用?——它不只是寫代碼,還能長期運(yùn)行任務(wù)、調(diào)用工具、操作終端、管理部署流程;也就是說,從研發(fā)到上線,幾乎整條鏈路都能自己接住。

用 OpenAI 聯(lián)創(chuàng)兼總裁 Greg Brockman 的話來說,就是軟件開發(fā)正在經(jīng)歷一次復(fù)興,而 Agent 成為了“第一入口”。

他們定了一個挺激進(jìn)的目標(biāo):對任何技術(shù)任務(wù),人類第一反應(yīng)應(yīng)該是“和 Agent 交互”,而不是打開編輯器或終端。


奪多項(xiàng) SOTA,網(wǎng)友實(shí)測長聯(lián)路

穩(wěn)定性超過 Opus 4.5

那么,GPT-5.3-Codex 到底好用嗎,有多好用?

先拿最直觀的Benchmark 跑分說話。

最明顯變化,是它在終端環(huán)境的實(shí)際執(zhí)行能力變強(qiáng)了。在 Terminal-Bench 2.0 上,GPT-5.3-Codex 拿到77.3%,相比 GPT-5.2-Codex 直接抬高了將近 13 個百分點(diǎn)。


Terminal-Bench 2.0 測的不是“會不會寫代碼”,而是專門衡量Agent 能否真的在終端環(huán)境完成真實(shí)工程任務(wù):敲命令、調(diào)工具、多步驟執(zhí)行、出錯再修。

換句話說,這個指標(biāo)考的是工程現(xiàn)場表現(xiàn),而不是像 SWE-Bench 那樣的單純刷題表現(xiàn)。

有意思的是,Claude Opus 4.6 也跑了 Terminal-Bench 2.0,成績是 65.4%,GPT-5.3-Codex 的得分比它高出了 12%

除此之外,GPT-5.3-Codex 的提升主要還有:

  • 計(jì)算機(jī)操作能力,翻倍級提升。它在 OSWorld 得分 64.7%,而上一代 GPT-5.2-Codex 得分才 38.2%。

  • 大家現(xiàn)在很關(guān)心的網(wǎng)絡(luò)安全能力,它在 Cybersecurity CTF 得分 77.6%,比上一代 GPT-5.2-Codex 提升了約 10%。

  • 輸出準(zhǔn)確率上,GPT-5.3-Codex 對于不同輸出 token 數(shù)量,準(zhǔn)確率始終高于 GPT-5.2-Codex 和 GPT-5.2


有網(wǎng)友問 GPT-5.3-Codex 和 Claude Code 誰更好用,Gork 是這樣的回答的(Doge):


一位叫 Matt Shumer 的小哥(下文簡稱 Matt 哥)也迅速親測了一把 GPT-5.3-Codex,他也是 Github for prompts 的創(chuàng)建者。

Matt 哥看起來對測評結(jié)果還挺滿意的,他甚至還給這篇 Blog 起了個霸氣的標(biāo)題:《完全自主時代已到來》。

他在 Blog 中興奮地寫到:這是他第一次敢把任務(wù)丟給模型,然后他真的走開幾個小時(甚至 8+ 小時),模型都不會中途崩潰、漂移或降智。


Matt 哥指出,GPT-5.3-Codex 不只是寫代碼,它還會自己補(bǔ)全模糊信息、自己做架構(gòu)判斷、自己修 Bug、自己部署、自己看日志,然后一直改到測試全綠。只要給它清晰的驗(yàn)證標(biāo)準(zhǔn),它可以連續(xù)跑幾個小時都不跑偏。

而讓他最欣喜的,不是模型“更聰明”,而是判斷力:當(dāng)指令有歧義時,這個 AI 模型選的路徑,往往就是他本人也會選的那條,而不是那種看起來最快、但后患無窮的“捷徑”。

你只要把 pass/fail 講清楚,它就能一直迭代、一直修,直到測試全綠才停。另外,你告訴它怎么判定對錯,講得越明確,它就越能自己閉環(huán),不需要人在中途不停糾偏。

而且它是真能把閉環(huán)跑完整:改代碼、push、部署、打開線上鏈接、tail 日志——哪里出錯就繼續(xù)修到能用為止。

Matt 哥舉了個例子,他給了 Railway CLI 這類部署工具的權(quán)限,讓模型自己把“上線”這一步做完,然后用線上反饋繼續(xù)修,直到真的可用。

除此之外,GPT-5.3-Codex 還挺會利用等待時間:命令在跑著,它就去補(bǔ)文檔、補(bǔ)上下文、順手修點(diǎn)邊角問題,但又不會亂改一堆你沒讓它碰的東西。

也就是說,這個模型解決了跟多人在用 Agent 去 Vibe Coding 時的“心腹大患”:它非?!岸执纭?,會做有幫助的事,但不越界、不亂改。

Matt 哥指出,關(guān)于長鏈路任務(wù)穩(wěn)定性,GPT-5.3-Codex 的表現(xiàn)明顯好于 Opus 4.5。雖然它比 Opus 4.5 慢,但也更穩(wěn)。

另外,多 Agent 也終于不再像聊天表演了:Matt 哥認(rèn)為,GPT-5.3-Codex 真的能把任務(wù)切成幾個并行工作流,每個 Agent 各盯一塊,整體推進(jìn)更快、也更不容易漏東西。

不過,GPT-5.3-Codex 的缺點(diǎn),或者說為了“穩(wěn)”而付出的代價(jià),也很明顯:它真的慢。而且過程播報(bào)偶爾會斷掉、更不適合拿來設(shè)計(jì) prompt/agent 架構(gòu)。

但如果你要的是“別出錯、別跑偏、別讓我盯著”,那終于像那么回事了。更確切地說:它不一定是“最好玩”的那種模型,但在“復(fù)雜、長時間、約束多、最好一次做對”的活上,它能讓使用者足夠安心。

OpenAI 總裁:

Agent正重構(gòu)軟件開發(fā)

前文提到,OpenAI 聯(lián)合創(chuàng)始人兼總裁 Greg Brockman 發(fā)了一條帖子,說軟件開發(fā)正在經(jīng)歷一次“復(fù)興”,而 Agent 正在變成工程師的“第一入口”。

在他看來,像 GPT-5.3-Codex 這樣的模型,已經(jīng)強(qiáng)到可以在長時間、復(fù)雜約束下,獨(dú)立把一整條工程鏈路跑完:從寫代碼到調(diào)試、部署,再到持續(xù)迭代。

當(dāng)模型能力已經(jīng)到這個程度,問題就不再只是“要不要用”,而是公司是否準(zhǔn)備好把流程、代碼結(jié)構(gòu)甚至團(tuán)隊(duì)協(xié)作方式一起改掉。

這條帖子更像是一份內(nèi)部轉(zhuǎn)型說明書,里面講的不只是模型變強(qiáng)了,而是當(dāng)默認(rèn)入口變成 Agent 之后,工程組織該怎么自處。完整內(nèi)容如下:

軟件開發(fā)正在我們眼前經(jīng)歷一次復(fù)興。

如果你最近還沒有用這些工具,你很可能低估了自己錯過了什么。自去年 12 月以來,像 Codex 這樣的工具能力出現(xiàn)了階躍式提升。

昨天有幾位 OpenAI 的優(yōu)秀工程師告訴我,自 12 月以來,他們的工作方式已經(jīng)發(fā)生了根本變化。此前,他們只能用 Codex 寫單元測試;而現(xiàn)在,它幾乎寫了全部代碼,還承擔(dān)了大量運(yùn)維和調(diào)試工作。并不是每個人都完成了這種轉(zhuǎn)變,但通常阻礙他們的并不是模型能力本身。

現(xiàn)在,每家公司都面臨同樣的機(jī)會。而要駕馭它,就像當(dāng)年面對云計(jì)算或互聯(lián)網(wǎng)一樣,需要認(rèn)真思考。這篇文章分享了 OpenAI 當(dāng)前如何將團(tuán)隊(duì)重構(gòu)為“Agent 化軟件開發(fā)”的實(shí)踐。我們?nèi)栽趯W(xué)習(xí)和迭代,但這是我們目前的思路:

第一步,我們希望在 3 月 31 日前做到:

1)對于任何技術(shù)任務(wù),人類的第一選擇工具是與 Agent 交互,而不是打開編輯器或終端。

2)人類默認(rèn)使用 Agent 的方式必須經(jīng)過明確的安全評估,同時足夠高效,使大多數(shù)工作流程無需額外審批。

為了實(shí)現(xiàn)這一目標(biāo),我們幾周前向團(tuán)隊(duì)提出了以下建議:

1、花時間真正去嘗試這些工具。很多人已經(jīng)在 Codex 5.2 上有了驚艷體驗(yàn),但也有不少人因?yàn)槊β颠€沒嘗試,或者陷入“它真的能做 X 嗎”的懷疑,而不是直接試一試。

  • 為團(tuán)隊(duì)指定一名“Agent 負(fù)責(zé)人”,專門思考如何把 Agent 融入團(tuán)隊(duì)工作流。

  • 在內(nèi)部渠道分享經(jīng)驗(yàn)和問題。

  • 舉辦一次公司范圍內(nèi)的 Codex Hackathon。

2、創(chuàng)建 skills 和 AGENTS.md 文件。

  • 為每個項(xiàng)目維護(hù)一個 AGENTS.md,當(dāng) Agent 出錯或卡住時及時更新。

  • 把你讓 Codex 執(zhí)行的能力抽象為 skills,并提交到共享倉庫。

3、盤點(diǎn)并開放內(nèi)部工具。

  • 列出團(tuán)隊(duì)依賴的工具,并確保有人負(fù)責(zé)將其改造成 Agent 可訪問(例如提供 CLI 或 MCP Server 接口)。

4、讓代碼庫結(jié)構(gòu)“Agent 優(yōu)先”。

  • 寫運(yùn)行快速的測試。

  • 構(gòu)建高質(zhì)量的組件接口。

5、拒絕“垃圾代碼”。

  • 大規(guī)模管理 AI 生成代碼是一個新問題,需要新的流程與規(guī)范。

  • 確保每一段合并代碼都有明確的人工負(fù)責(zé)人。

  • 審查標(biāo)準(zhǔn)至少與人類寫的代碼一樣嚴(yán)格。

6、建設(shè)基礎(chǔ)設(shè)施。

  • 不僅要記錄最終提交的代碼,還要記錄 Agent 的執(zhí)行軌跡。

  • 建立可觀測性系統(tǒng)與統(tǒng)一工具管理機(jī)制。

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/gdb/status/2019566641491963946

https://shumer.dev/gpt53-codex-review

聲明:本文為 AI 前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

InfoQ 2026 全年會議規(guī)劃已上線!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級發(fā)展先機(jī)!

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全網(wǎng)催開門的上?!昂幽纤灏遍_業(yè)排起長隊(duì),老板提前賣光下班,顧客:排隊(duì)半小時喝到胡辣湯,最后一鍋包子免費(fèi)送出

全網(wǎng)催開門的上海“河南水煎包”開業(yè)排起長隊(duì),老板提前賣光下班,顧客:排隊(duì)半小時喝到胡辣湯,最后一鍋包子免費(fèi)送出

極目新聞
2026-03-08 15:09:11
湖人收獲2喜1憂!未來6戰(zhàn)4場卡位戰(zhàn)太關(guān)鍵,東詹想爭冠需學(xué)黃蜂了

湖人收獲2喜1憂!未來6戰(zhàn)4場卡位戰(zhàn)太關(guān)鍵,東詹想爭冠需學(xué)黃蜂了

小路看球
2026-03-08 15:20:35
山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結(jié)局如何?

山西王閻錫山的妹妹,沒來得及跟哥哥逃到臺灣,她的結(jié)局如何?

老范談史
2026-03-03 17:43:41
地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

地中海又傳來一聲巨響,俄6萬噸巨輪慘遭擊沉,普京:絕不輕饒!

閱識
2026-03-07 18:13:39
蔣介石日記:重慶談判放走毛澤東的真實(shí)原因,背后有這兩點(diǎn)考量

蔣介石日記:重慶談判放走毛澤東的真實(shí)原因,背后有這兩點(diǎn)考量

鶴羽說個事
2026-03-06 19:19:42
失眠多是肝火旺,建議常吃這個菜,每周吃三次,清肝火助睡眠

失眠多是肝火旺,建議常吃這個菜,每周吃三次,清肝火助睡眠

江江食研社
2026-03-07 17:30:09
Netflix宣布不續(xù)約,強(qiáng)調(diào)“本就如此”,哈梅夫婦的金主還是走了

Netflix宣布不續(xù)約,強(qiáng)調(diào)“本就如此”,哈梅夫婦的金主還是走了

聰明的橙子hj
2026-03-08 15:46:23
開眼了:用坐牢換日本在留卡……

開眼了:用坐牢換日本在留卡……

日本物語
2026-03-07 20:34:46
陳永貴副手郭鳳蓮的現(xiàn)狀:兒子都是億萬富翁,大兒子掏3000萬修廟

陳永貴副手郭鳳蓮的現(xiàn)狀:兒子都是億萬富翁,大兒子掏3000萬修廟

兵鑒史
2026-03-07 02:19:39
美國在伊拉克打了7年,消耗了3萬億美元,從伊拉克獲得了什么?

美國在伊拉克打了7年,消耗了3萬億美元,從伊拉克獲得了什么?

流云隨風(fēng)去遠(yuǎn)方
2026-03-05 05:41:30
9分鐘一臺車:硬核閃充技術(shù)樹立行業(yè)新標(biāo)桿,比亞迪這回玩真的

9分鐘一臺車:硬核閃充技術(shù)樹立行業(yè)新標(biāo)桿,比亞迪這回玩真的

大劉說說
2026-03-07 15:49:10
我國收回南海最大島礁,面積超8400平方公里,還找到一大“寶藏”

我國收回南海最大島礁,面積超8400平方公里,還找到一大“寶藏”

瑩瑩的歷史說
2026-03-08 13:03:23
伊朗最昂貴誤判,令人想起中國付出上萬億代價(jià)的悲?。?>
    </a>
        <h3>
      <a href=伊朗最昂貴誤判,令人想起中國付出上萬億代價(jià)的悲劇! 華人星光
2026-03-07 11:39:48
教育部明確:高校須增設(shè)一門必修課

教育部明確:高校須增設(shè)一門必修課

麥可思研究
2026-03-08 18:04:41
CBA外援縮減人數(shù)!重回6年前,遼籃吃到紅利,上海、廣廈受限

CBA外援縮減人數(shù)!重回6年前,遼籃吃到紅利,上海、廣廈受限

體壇大事記
2026-03-07 16:28:12
時尚還是擦邊?內(nèi)褲外露的米蘭時裝周,這審美真欣賞不來

時尚還是擦邊?內(nèi)褲外露的米蘭時裝周,這審美真欣賞不來

一盅情懷
2026-03-08 17:45:52
伊朗宣布新導(dǎo)彈!普京援伊計(jì)劃被發(fā)現(xiàn),美防長冒火,白盯中國8天

伊朗宣布新導(dǎo)彈!普京援伊計(jì)劃被發(fā)現(xiàn),美防長冒火,白盯中國8天

閱盡天下大事
2026-03-08 01:03:40
8年謎團(tuán)終破!張柏芝三胎生父線索曝光,最大贏家是被冤的謝霆鋒

8年謎團(tuán)終破!張柏芝三胎生父線索曝光,最大贏家是被冤的謝霆鋒

秋姐居
2026-03-03 17:48:27
10萬公里才看透:1.5T和2.0L的差距,根本不是動力那么簡單

10萬公里才看透:1.5T和2.0L的差距,根本不是動力那么簡單

劉哥談體育
2026-03-08 12:51:08
海港1-2爆冷負(fù)河南原因曝光,吳磊賽后點(diǎn)評精準(zhǔn)

海港1-2爆冷負(fù)河南原因曝光,吳磊賽后點(diǎn)評精準(zhǔn)

許穩(wěn)很機(jī)智
2026-03-08 14:42:08
2026-03-08 19:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1347文章數(shù) 133關(guān)注度
往期回顧 全部

科技要聞

OpenClaw最大的推手是閑魚和小紅書

頭條要聞

美軍精銳空降師4000余人進(jìn)入待命 被指或要推地面戰(zhàn)

頭條要聞

美軍精銳空降師4000余人進(jìn)入待命 被指或要推地面戰(zhàn)

體育要聞

大傷后被交易,他說:22歲的我已經(jīng)死了

娛樂要聞

周迅新戀情曝光,李亞鵬等人已成過去

財(cái)經(jīng)要聞

油價(jià)要失控?

汽車要聞

9分鐘充飽 全新騰勢Z9GT首搭閃充技術(shù)26.98萬起

態(tài)度原創(chuàng)

旅游
親子
家居
游戲
公開課

旅游要聞

兩會文旅·熱點(diǎn)觀察 | 場景上新、科技賦能、賽事驅(qū)動:兩會文旅話題熱背后的群眾視角與期待

親子要聞

63歲產(chǎn)女后續(xù),剖腹產(chǎn)當(dāng)天出院,經(jīng)濟(jì)實(shí)力不一般,已托孤外甥

家居要聞

暖棕撞色 輕法奶油風(fēng)

D加密最大對手再進(jìn)化!門檻大降 生化9等大作都遭殃

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版