国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè) GPT-5.3-Codex,OpenAI 史上第一個(gè)高危模型,連 API 都還不敢給我們

0
分享至

今天凌晨發(fā)布的 GPT-5.3-Codex 可以說(shuō)是 OpenAI 對(duì)這段時(shí)間來(lái),各種本地 Agent 爆火的一記重拳回?fù)?,?dāng)然主要是對(duì) Anthropic 的反擊。

配合 OpenAI 前幾天的發(fā)布的 Codex 桌面版應(yīng)用,Skill、Cowork、Claude Code,甚至是 Openclaw,這些熱門(mén)工具能實(shí)現(xiàn)的功能,現(xiàn)在通過(guò) Codex 的外殼 + GPT-5.3-Codex 模型能力,都能做到了。


▲ 在 Codex App 內(nèi)可以直接選擇 GPT-5.3-Codex 模型,也能選擇深度思考的強(qiáng)度

和之前介紹 Cowork 的能力一樣,我們也丟了一些類(lèi)似的任務(wù)讓 Codex 來(lái)完成,像是直接處理本地文件、各種格式轉(zhuǎn)換、調(diào)用不同的 Skills 組合能力、做 Word/PPT/Excel、下載視頻、開(kāi)發(fā) App……

GPT-5.3-Codex 的表現(xiàn)確實(shí)亮眼,相比較從頭開(kāi)始安裝 Claude Code,對(duì)新人用戶來(lái)說(shuō),現(xiàn)在直接下載 Codex 會(huì)是一個(gè)更好的選擇。這也是未來(lái)模型廠商的一種趨勢(shì),一開(kāi)始大家都是從黑乎乎的命令行終端開(kāi)始做本地 Agent,接著都慢慢回歸到可視化的友好界面。

網(wǎng)上對(duì) Codex 的評(píng)價(jià)在這幾天也有了不少逆轉(zhuǎn),許多開(kāi)發(fā)者從 Claude Code 轉(zhuǎn)向 Codex,一些在國(guó)內(nèi)的獨(dú)立開(kāi)發(fā)者也表示 Codex Plus 會(huì)員就可以用,而且還不會(huì)像 Claude 那般總是無(wú)情封號(hào)。


奧特曼更是激動(dòng)的宣布,Codex 的活躍用戶已經(jīng)超過(guò) 100 萬(wàn)。在模型更新博客,也是毫不掩飾和留有余地的夸贊,

GPT-5.3-Codex 是我們第一個(gè)能夠自我構(gòu)建的模型。通過(guò)使用 5.3-Codex,我們能夠以如此快的速度發(fā)布 5.3-Codex。

跟 Claude 團(tuán)隊(duì)用兩周的時(shí)間,使用 Claude Code,100% AI 代碼,搓出一個(gè) Cowork 一樣;還有 OpenAI 去年年底發(fā)布的文章,「使用 Codex 在 28 天內(nèi)構(gòu)建 Android 版 Sora」,Agent 的時(shí)代真的來(lái)了。

用 Codex 取代我的 ChatGPT 和 Claude Code

和大多數(shù)的本地 Agent 一樣,無(wú)論是終端還是 Cowork,我們都是先選擇一個(gè)工作文件夾。在 Codex 中,我們可以創(chuàng)建多個(gè) Project,選擇對(duì)應(yīng)的文件夾,再進(jìn)一步開(kāi)始對(duì)話,Codex 把它們叫做 Threads 線程。

先用最普遍和簡(jiǎn)單的例子,我們添加了一個(gè)空的下載文件夾,然后點(diǎn)擊開(kāi)始一個(gè)線程,選擇 GPT-5.3-Codex 模型;就像在 ChatGPT 里面對(duì)話一樣,輸入指令。

要求它幫我們下載一個(gè) X 視頻,Codex 會(huì)自動(dòng)檢查可用的 Skills 來(lái)處理,接著通過(guò) yt-dlp 工具進(jìn)行下載,這個(gè)視頻有四個(gè)多小時(shí)長(zhǎng),Codex 會(huì)一直在對(duì)話框里自動(dòng)更新下載進(jìn)度。


▲GIF 圖經(jīng)過(guò)加速處理

視頻下載后,我們還可以要求它提取視頻的逐字稿,給我們一份雙語(yǔ)版本的文檔,最后讓它把整個(gè)流程打包為一個(gè) Skill,方便下次使用。


如果視頻中有一些比較有意思的片段,想要裁剪視頻,或者是把裁出來(lái)的視頻轉(zhuǎn)成 GIF 圖,在 Codex 里都能做到。

例如,我們這里下載了一個(gè)視頻,然后要求它把視頻的 5s-25s 裁剪出來(lái)成為一個(gè)新的視頻;得益于 GPT-5.3-Codex 的 Token 快速處理,整個(gè)過(guò)程不需要很長(zhǎng)時(shí)間,反而更多是取決于本地電腦的硬件解碼編碼能力。


▲ GIF 圖經(jīng)過(guò)加速處理

或者我們也可以直接要求它把視頻的前 5s 轉(zhuǎn)成一個(gè) GIF 文件,并且確保大小在 10MB 以內(nèi),幀數(shù)可以自行調(diào)整,清晰度上將寬度控制在 640px。


很快,我們就能得到對(duì)應(yīng)的 GIF 文件。更極端一點(diǎn),還能讓它把整個(gè)視頻轉(zhuǎn)成圖片,每秒 30 幀,每一幀就是一張圖。

這些對(duì)本地文件的直接處理,和 GPT-5.3-Codex 在 Terminal-Bench-2 測(cè)試集上的優(yōu)異表現(xiàn),讓 Codex 基本上能滿足各種生產(chǎn)力工具、效率工具的功能實(shí)現(xiàn)。

作為對(duì)比,同樣是剛剛發(fā)布的 Claude Opus 4.6 在 Terminal-Bench 2.0 上得分是 65.4%,GPT-5.3-Codex 是 77.3%。



▲ 圖片來(lái)源:https://x.com/neilsuperduper/status/2019486017703547309/

例如在這個(gè)文件夾中,有多張圖片,我們首先是要求它根據(jù)圖片內(nèi)容,對(duì)這些圖片文件進(jìn)行重命名,并保持文件名不超過(guò) 20 個(gè)字母,不允許使用符號(hào)。


▲ GIF 圖經(jīng)過(guò)加速

自動(dòng)修改完成后,我們還能要求他對(duì)這些圖片進(jìn)行拼接,無(wú)論是垂直拼接還是水平,調(diào)用對(duì)應(yīng)的工具,Codex 都可以做到。


和 Claude Skills 一樣,Codex 也能安裝 Skills 市場(chǎng)上豐富的技能,并且在應(yīng)用內(nèi),就已經(jīng)提供了包括 pptx、xls、word、canvas、notion 在內(nèi)的多款技能。


回到基礎(chǔ)的編程能力,升級(jí)后的 GPT-5.3-Codex 表現(xiàn)也比 GPT-5.2 要好上不少。我們直接要求它寫(xiě)一個(gè)「每日一詞」的 App。和在 ChatGPT 里面直接用 Canvas 給我們一個(gè)帶不走的網(wǎng)頁(yè)不同,Codex 能在本地從零開(kāi)始,完成項(xiàng)目,然后使用 Vercel 或 Cloudflare 等 Skills 部署到網(wǎng)頁(yè)上。

這里我們選擇的推理模式是 Extra High,超強(qiáng)推理模式,于是在每一步操作之前,GPT-5.3-Codex 都會(huì)詢問(wèn)我下一步的操作選擇,這也和 Codex 內(nèi)部能直接根據(jù)任務(wù)情況,調(diào)用不同 Skills 有關(guān),其中的頭腦風(fēng)暴 Skill,會(huì)自動(dòng)進(jìn)行不斷對(duì)話的模式。


最后,它基本上還是完成了我一開(kāi)始要求它完成的全部功能,并且還能進(jìn)一步開(kāi)發(fā) macOS、iOS,和安卓版本。

如果我們有現(xiàn)成的代碼項(xiàng)目,也可以選擇該項(xiàng)目文件夾,在 Codex 中打開(kāi),GPT-5.3-Codex 會(huì)分析項(xiàng)目存在的 Bug,并且修復(fù)它。



在過(guò)去很長(zhǎng)一段時(shí)間里,無(wú)論是工具還是模型,開(kāi)發(fā)者的首選其實(shí)都是 Anthropic 的 Sonnet/Opus 模型和 Claude Code 工具。OpenAI 在編程、尤其是長(zhǎng)代碼邏輯推理上的掉隊(duì),曾讓不少開(kāi)發(fā)者轉(zhuǎn)投陣營(yíng)。

GPT-5.3-Codex 的出現(xiàn),就是為了終結(jié)這場(chǎng)爭(zhēng)論?,F(xiàn)在 GPT-5.3-Codex 在編程基準(zhǔn)測(cè)試和實(shí)際表現(xiàn)上,不僅碾壓了自家的前代模型,也確實(shí)有把友商模型按在地上摩擦的前兆。它真正具備了編寫(xiě)、測(cè)試和推理代碼的能力。

做游戲項(xiàng)目,是這次模型介紹博客里,網(wǎng)站開(kāi)發(fā)部分主要案例,我們也讓 GPT-5.3-Codex 做了一個(gè)簡(jiǎn)單的物理彈球游戲,整體的效果雖然沒(méi)有達(dá)到我的期待,因?yàn)槲以谔崾驹~里面有說(shuō)希望這是一個(gè) RPG 的游戲,但 GPT-5.3-Codex 給我的界面還是過(guò)于簡(jiǎn)陋了。不過(guò),好在還是能玩。


我們也在 X 上找到了一些用 GPT-5.3-Codex 做的小游戲,像這個(gè)類(lèi)似超級(jí)瑪麗的收集金幣。


▲來(lái)源:https://x.com/Angaisb_/status/2019548783869325331

強(qiáng)中更有強(qiáng)中手

對(duì) Anthropic 來(lái)說(shuō),OpenAI 今天玩的這些,可能會(huì)說(shuō),這都是我們玩剩下的。無(wú)論是代碼、或者 Agent 的能力,還是開(kāi)始著手去做本地 Agent,從之前 Codex 的終端轉(zhuǎn)成現(xiàn)在的 macOS App。

在技術(shù)的領(lǐng)域,OpenAI 仿佛都是跟著 Claude 的腳步在走,Claude 深耕代碼能力,OpenAI 搞了 Sora、日?qǐng)?bào)、瀏覽器、ChatGPT agent,都沒(méi)什么水花,于是也在代碼上發(fā)力;Claude 一月初推出 Cowork,OpenAI 也緊接著在二月初發(fā)布 Codex App。


就和今天的密集發(fā)布一樣,凌晨 1:45,Claude 官方發(fā) X 推出 Claude Opus 4.6,緊接著就是 OpenAI 端上 GPT-5.3-Codex。兩款模型其實(shí)都是為了給 Agent 更強(qiáng)大的基座能力,以前是說(shuō)代碼/vibe coding,但現(xiàn)在 Agent 能做好,基本上都是「寫(xiě)代碼寫(xiě)得好」。

Opus 4.6 雖然在 SWE-Bench 上的表現(xiàn)甚至不如 Opus 4.5,并且 Terminal-Bench 2.0 上的成績(jī)也沒(méi)有 GPT-5.3-Codex 強(qiáng),但是 Opus 破天荒地把上下文長(zhǎng)度拉到了一百萬(wàn) token 的窗口。而且,這些 benchmark 的表現(xiàn)還沒(méi)有相差很多。

Claude 說(shuō),我的 Sonnet 5 還沒(méi)上來(lái),那才是真功夫。

我們?cè)诰W(wǎng)上也找了一些 Opus 4.6 最新的測(cè)試案例,有網(wǎng)友說(shuō) Claude 4.6 Opus 只是一次調(diào)用,就完全重構(gòu)了他的整個(gè)代碼庫(kù),將原來(lái)混亂的代碼「屎山」全部模塊化,并且沒(méi)有模型能像 Opus 這樣做到。


還有網(wǎng)友拿 Opus 4.6 和 4.5 進(jìn)行對(duì)比,讓兩個(gè)模型玩同一款經(jīng)營(yíng)游戲,看誰(shuí)的賬戶等級(jí)、財(cái)富和裝備更高。測(cè)試博主提到,4.6 版本在初期制定戰(zhàn)略的時(shí)間更長(zhǎng),但是做出了更好的戰(zhàn)略決策,并且在最后確實(shí)做到了遙遙領(lǐng)先。



還有網(wǎng)友也做了一個(gè)游戲,不過(guò)是一個(gè)寶可夢(mèng)的克隆版。博主提到這是他用 AI 做出來(lái)的最酷的東西。他提到,Claude Opus 4.6 思考了 1 小時(shí) 30 分鐘,使用了 11 萬(wàn)個(gè) Token,并且只迭代了三次。


▲ https://x.com/chatgpt21/status/2019679978162634930

在 CLaude 官方演示和早期用戶的反饋中,也提到了一個(gè) Opus 表現(xiàn)優(yōu)秀的案例。Opus 4.6 在一天內(nèi)自主關(guān)閉了 13 個(gè) issue,issue 即項(xiàng)目存在的待解決問(wèn)題,并將另外 12 個(gè) issue 準(zhǔn)確分派給了正確的人類(lèi)團(tuán)隊(duì)成員。

和 Kimi K2.5 的智能體蜂群一樣,Opus 4.6 也能管理一個(gè) 50 人規(guī)模組織的代碼庫(kù)。在 Claude Code 中,我們可以組建 Agent Teams,召喚出一整個(gè)隊(duì)伍的 AI,不再是一個(gè) AI 在戰(zhàn)斗。這些AI 可以有的負(fù)責(zé)寫(xiě)代碼,有的負(fù)責(zé) Review,有的負(fù)責(zé)測(cè)試,它們之間自主協(xié)作。

也有網(wǎng)友測(cè)試了 Claude Code 里面的 Agent 蜂群,提到啟用蜂群之后的 Opus 4.6,速度提升 2.5 倍,并且效果也更好。


我們現(xiàn)在的狀態(tài)就跟這張圖片一樣,雖然一山比一山高,但都繞不出這個(gè)圈。前幾個(gè)月可能是 Gemini 賺走了風(fēng)頭,一月份來(lái),應(yīng)該是 Claude,然后看樣子又要輪到 OpenAI,或者馬斯克的 Grok。


好在這個(gè)輪回的過(guò)程中,作為用戶的我們,能明顯感覺(jué)到 AI 的能力一直在變強(qiáng)。

GPT-5.3-Codex 的 API 還沒(méi)有開(kāi)放,原因是模型太強(qiáng)了,會(huì)存在很大的風(fēng)險(xiǎn),所以 OpenAI 還在考慮怎么安全地啟用 API。

Claude Opus 4.6 已經(jīng)可以在 Claude 通用聊天應(yīng)用、Claude Code、API 多種方式使用,這兩個(gè)作為今年國(guó)外御三家首發(fā)的兩款模型,非常值得一試。


未來(lái),更好的服務(wù) Agent,讓 Agent 為我們做事,還會(huì)是大模型更新的重點(diǎn)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
禍從口出!北京大爺賣(mài)豆汁爆火,稱(chēng)“摻屎提味”,小伙反手舉報(bào)!

禍從口出!北京大爺賣(mài)豆汁爆火,稱(chēng)“摻屎提味”,小伙反手舉報(bào)!

川渝視覺(jué)
2026-02-27 09:32:22
這個(gè)社會(huì)允許幼兒哭鬧的年齡是幾歲

這個(gè)社會(huì)允許幼兒哭鬧的年齡是幾歲

吐槽青年
2026-02-27 18:55:19
直降1300元!新機(jī)官宣:3月11日,正式開(kāi)售!

直降1300元!新機(jī)官宣:3月11日,正式開(kāi)售!

科技堡壘
2026-02-27 11:25:29
樊振東也沒(méi)想到,德國(guó)總理訪華僅1天,自己竟因一段采訪口碑暴漲

樊振東也沒(méi)想到,德國(guó)總理訪華僅1天,自己竟因一段采訪口碑暴漲

寒士之言本尊
2026-02-27 13:21:48
小楊阿姨仍未返崗,馬筱梅媽媽主廚,張?zhí)m說(shuō)她坐下就吃不太好意思

小楊阿姨仍未返崗,馬筱梅媽媽主廚,張?zhí)m說(shuō)她坐下就吃不太好意思

完善法
2026-02-27 17:19:17
四部門(mén)宣布:放高利貸正式入罪

四部門(mén)宣布:放高利貸正式入罪

新浪財(cái)經(jīng)
2026-02-27 17:10:34
【早報(bào)】證監(jiān)會(huì)召開(kāi)重磅會(huì)議,吳清發(fā)聲;特朗警告伊朗“有時(shí)候不得不打”

【早報(bào)】證監(jiān)會(huì)召開(kāi)重磅會(huì)議,吳清發(fā)聲;特朗警告伊朗“有時(shí)候不得不打”

財(cái)聯(lián)社
2026-02-28 07:33:07
又一衛(wèi)健委主任被抓!

又一衛(wèi)健委主任被抓!

梅斯醫(yī)學(xué)
2026-02-28 07:53:41
26歲林妙可逛廟會(huì),仍是娃娃臉,本是童星出道,長(zhǎng)大后卻無(wú)戲可拍

26歲林妙可逛廟會(huì),仍是娃娃臉,本是童星出道,長(zhǎng)大后卻無(wú)戲可拍

她時(shí)尚丫
2026-02-27 23:06:05
“最慘超女”黃雅莉:沒(méi)工作沒(méi)積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒(méi)工作沒(méi)積蓄,34歲生子后住5平米的小屋

地理三體說(shuō)
2026-01-29 21:40:34
南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

南博通報(bào)里“張某”身份的大瓜:被網(wǎng)友爆料系“徐湖平干女兒”?

穿透
2026-02-27 11:40:39
男子凌晨開(kāi)車(chē)跑高速突然聽(tīng)到“鷹眼”預(yù)警 車(chē)速急減后發(fā)現(xiàn)前方有事故現(xiàn)場(chǎng)

男子凌晨開(kāi)車(chē)跑高速突然聽(tīng)到“鷹眼”預(yù)警 車(chē)速急減后發(fā)現(xiàn)前方有事故現(xiàn)場(chǎng)

閃電新聞
2026-02-27 00:07:07
張藝謀:第一次見(jiàn)她,我對(duì)她說(shuō),你等著我們來(lái)找你,不要亂演電影

張藝謀:第一次見(jiàn)她,我對(duì)她說(shuō),你等著我們來(lái)找你,不要亂演電影

秀語(yǔ)千尋
2026-02-22 19:28:42
人民幣持續(xù)升值后,央行出手了:從20%降到0!對(duì)普通人有何影響?

人民幣持續(xù)升值后,央行出手了:從20%降到0!對(duì)普通人有何影響?

王爺說(shuō)圖表
2026-02-27 21:34:25
轟12分+關(guān)鍵三分破冰!中國(guó)男籃29歲新王牌崛起:他救了郭士強(qiáng)?

轟12分+關(guān)鍵三分破冰!中國(guó)男籃29歲新王牌崛起:他救了郭士強(qiáng)?

李喜林籃球絕殺
2026-02-27 11:15:24
嚴(yán)冰,已任佛山市“環(huán)兩江辦”常務(wù)副主任

嚴(yán)冰,已任佛山市“環(huán)兩江辦”常務(wù)副主任

南方都市報(bào)
2026-02-27 21:36:58
在學(xué)校發(fā)生的八卦能有多炸裂?網(wǎng)友:懷孕率比升學(xué)率高,不夸張

在學(xué)校發(fā)生的八卦能有多炸裂?網(wǎng)友:懷孕率比升學(xué)率高,不夸張

帶你感受人間冷暖
2026-02-05 00:30:08
1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

1971年,陜西老光棍圖便宜,娶了小自己10歲又坐過(guò)牢房的女大學(xué)生

南權(quán)先生
2026-02-26 15:38:59
中戲的招生丑聞,徹底震驚了整個(gè)藝術(shù)圈!

中戲的招生丑聞,徹底震驚了整個(gè)藝術(shù)圈!

南權(quán)先生
2026-02-24 15:52:36
8000元相親餐男子尿遁逃單!女子被迫買(mǎi)單,婚介甩鍋:與我們無(wú)關(guān)

8000元相親餐男子尿遁逃單!女子被迫買(mǎi)單,婚介甩鍋:與我們無(wú)關(guān)

今朝牛馬
2026-02-01 21:14:04
2026-02-28 11:48:49
愛(ài)范兒 incentive-icons
愛(ài)范兒
消費(fèi)科技第一媒體
38469文章數(shù) 2600999關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

頭條要聞

牛彈琴:伊朗面臨生死存亡關(guān)鍵時(shí)刻 信號(hào)已經(jīng)很明顯了

體育要聞

球隊(duì)主力全報(bào)銷(xiāo)?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車(chē)要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

時(shí)尚
教育
家居
藝術(shù)
手機(jī)

被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

教育要聞

忍無(wú)可忍!中國(guó)數(shù)學(xué)會(huì)發(fā)布聲明,很多孩子參加的競(jìng)賽可能是白忙活

家居要聞

素色肌理 品意式格調(diào)

藝術(shù)要聞

這幅草書(shū)中19個(gè)字,您能一眼看懂嗎?“徐娘半老”含義引熱議!

手機(jī)要聞

谷歌Pixel 11跑分遭曝 Tensor G6性能又拉了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版