国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.3-Codex突然登場!AI能自己造自己了

0
分享至


智東西
作者 陳駿達
編輯 心緣

智東西2月6日報道,今天,就在Claude發(fā)布Opus 4.6后的幾分鐘,OpenAI也推出了自家的最新編程模型:GPT-5.3-Codex。OpenAI號稱,這是世界上最強大的智能體(Agentic)編程模型。

GPT-5.3-Codex在SWE-Bench Pro和Terminal-Bench 2.0這兩個編程基準測試中拿到了SOTA,并在OSWorld和GDPval等智能體能力和真實世界任務測評中,較GPT-5.2-Codex實現(xiàn)一定提升。在Terminal-Bench 2.0上,GPT-5.3-Codex的得分比Claude Opus 4.6高了11.9%


不過,OpenAI參加的基準測試數(shù)量更少,也基本沒有和Claude Opus 4.6重疊的,得分只能作為參考。

為演示其編程能力,OpenAI曬出了一個由GPT-5.3-Codex打造的賽車游戲。這個游戲里有多輛賽車同時開展比拼,還配備了8張地圖,甚至還能用空格鍵使用道具,就是畫風確實有些簡陋。我們也簡單試玩了一下這個游戲,完成度還挺高的。


體驗鏈接:

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

OpenAI還透露,GPT-5.3-Codex是OpenAI首個在自我創(chuàng)建過程中發(fā)揮關鍵作用的模型。GPT-5.3-Codex的早期版本,被Codex團隊用來調(diào)試模型訓練、管理部署、診斷測試結果和評估,加速了模型的開發(fā)。

GPT-5.3-Codex其實就是GPT-5.2-Codex和GPT-5.2的結合體,具備前者的編程能力和后者的推理能力和專業(yè)知識儲備,且速度也提升了25%。

這意味著GPT-5.3-Codex不僅可以用于編程,也可用于軟件工程里的所有其他工作,比如調(diào)試、部署、監(jiān)控、測試、指標分析等。你還可以用GPT-5.3-Codex來做PPT、Excel、Word等等,從OpenAI分享的案例來看效果還不錯。


▲GPT-5.3-Codex打造的PPT(圖源:OpenAI)

與GPT-5.3-Codex同期發(fā)布的,還有OpenAI的最新的企業(yè)級智能體平臺Frontier,具備共享上下文、在反饋中學習、持續(xù)改進等能力,并支持設定清晰的權限與邊界。


▲Frontier打造的Agent(圖源:OpenAI)

目前,GPT-5.3-Codex已向付費ChatGPT用戶開放,可在Codex應用、CLI、IDE插件和Web中使用。API訪問仍需等待后續(xù)更新。Frontier現(xiàn)階段僅面向有限客戶,未來幾個月將有更廣泛的可用性。

不過,在這波發(fā)布中,與隔壁的Claude Opus 4.6相比,GPT-5.3-Codex和Frontier在討論熱度上明顯遜色一籌,發(fā)布模型的推文轉贊評數(shù)量都只有Claude Opus 4.6的不到一半,評論區(qū)中也能看到不少質(zhì)疑聲。


關心編程能力的用戶認為GPT-5.3-Codex在實際使用體驗和安全性上和Claude Opus 4.6仍有差距,而將OpenAI模型用于寫作等其他場景的用戶,則認為OpenAI不再重視他們。這顯示出OpenAI在編程等市場的產(chǎn)品號召力和社區(qū)影響力上,以及如何平衡自家的ToC和ToB業(yè)務上,仍有很長的路要走。

一、能在數(shù)百萬token代碼庫修Bug,還會給人類主動匯報工作

OpenAI稱,在GPT-5.3-Codex的幫助下,其編程工具Codex將不再只是一個“會寫和審代碼的智能體”,而是會進化為一個幾乎可以完成開發(fā)者和專業(yè)人士在計算機上能做的所有事情的智能體。

在Web開發(fā)方面,OpenAI讓GPT-5.3-Codex打造了兩個游戲,一個是此前我們看到賽車游戲,另一個則是一個潛水游戲,游戲機制類似《潛水員戴夫》。


不過,光是打造這樣一個游戲其實對如今的前沿編程模型來說已經(jīng)不難了。OpenAI還分享,在發(fā)出“修復這個 bug”、“改進游戲”等通用后續(xù)提示詞的情況下,GPT-5.3-Codex可以在數(shù)百萬token的過程中自主迭代這些游戲。

GPT-5.3-Codex在理解日常網(wǎng)站構建意圖方面明顯優(yōu)于GPT-5.2-Codex。對于簡單或描述不充分的提示,它會默認生成功能更完整、默認設置更合理的網(wǎng)站。

例如,在構建一項名為“Quiet KPI”的服務的網(wǎng)站首頁時,GPT-5.3-Codex可以自動將年付方案展示為折扣后的月價,還會自動生成包含三條不同用戶評價的輪播組件,而不是僅呈現(xiàn)單條內(nèi)容。整體頁面因此顯得更加完整、更加接近可直接上線的產(chǎn)品。


程序員、設計師、產(chǎn)品經(jīng)理和數(shù)據(jù)科學家的工作遠不止寫代碼。GPT-5.3-Codex從設計之初就支持整個軟件生命周期中的工作,包括調(diào)試、部署、監(jiān)控、編寫PRD、編輯文檔、用戶研究、測試、指標分析、以及更多專業(yè)工作。


在使用類似GDPval的自定義技能后,GPT-5.3-Codex在GDPval(一個衡量44種職業(yè)中明確知識型任務的評估)上達到了與GPT-5.2相當?shù)乃健?/p>

在考察模型計算機使用能力的OSWorld-Verified中,人類平均得分約為72%,而GPT-5.3-Codex達到了64.7%。GPT-5.3-Codex在該評測中表現(xiàn)顯著優(yōu)于以往的GPT模型。

隨著GPT-5.3-Codex的發(fā)布,Codex還提供了一個新的設置選項“工作中可引導”。開啟后,GPT-5.3-Codex會在工作過程中頻繁更新關鍵決策和進展,支持實時對話、提問、討論方案,并在執(zhí)行期間持續(xù)解釋其思路并提供反饋。這讓人類用戶可以更高效地指揮和監(jiān)督多個Agent。

OpenAI稱,得益于基礎設施和推理棧的改進,Codex用戶的GPT-5.3-Codex整體速度提升了25%。該模型開發(fā)過程中,OpenAI與英偉達展開了合作,基于GB200 NVL72系統(tǒng)設計、訓練和部署。

二、推出企業(yè)級智能體平臺,惠普、Uber已經(jīng)用上了

在智能體平臺方面,OpenAI今天發(fā)布的Frontier,要做的是幫助企業(yè)構建、部署并管理真正能干活的智能體。

OpenAI認為,當前企業(yè)在推進AI應用時面臨嚴重的數(shù)據(jù)與系統(tǒng)碎片化挑戰(zhàn)。智能體雖然被廣泛部署,卻因缺乏跨系統(tǒng)的全局視野和上下文而難以發(fā)揮實效,導致模型能力與實際部署之間存在巨大的“機會鴻溝”。

要打造能干活的智能體,OpenAI的思路是賦予智能體與人類在工作中所需的同款能力。Frontier像培養(yǎng)人類員工一樣,為AI同事提供系統(tǒng)化的“入職”支持。

比如,F(xiàn)rontier會讓智能體理解跨系統(tǒng)的業(yè)務流程、獲取執(zhí)行任務所需的工具與權限、學會判斷工作質(zhì)量,并在明確的安全邊界內(nèi)運作。該平臺可與現(xiàn)有系統(tǒng)和數(shù)據(jù)集成,支持智能體通過多種界面融入工作。


Frontier的核心能力包括連接企業(yè)內(nèi)部數(shù)據(jù)與應用,構建統(tǒng)一的業(yè)務語義層;提供開放的智能體執(zhí)行環(huán)境,支持規(guī)劃、操作與學習;內(nèi)置評估優(yōu)化機制,使AI能持續(xù)從經(jīng)驗中提升質(zhì)量;同時確保企業(yè)級安全治理,為每個智能體設定身份、權限與防護邊界。

為了讓企業(yè)更方便地管理智能體,F(xiàn)rontier提供了概覽界面,在這里可以看到活躍的智能體數(shù)量,這些智能體完成了多少任務,又用掉了多少額度。


此外,OpenAI還會派駐工程師與客戶團隊協(xié)作,將實踐經(jīng)驗與研究反饋相結合,加速落地進程。已有不少大型企業(yè)客戶采用了Frontier,比如惠普、Intuit、甲骨文、State Farm、賽默飛(Thermo Fisher)、Uber等等。

結語:OpenAI押注“AI勞動力”

這次發(fā)布中,OpenAI將其主要精力都放在了AI的生產(chǎn)力與落地能力上。無論是GPT-5.3-Codex在編程、軟件工程全流程和計算機使用能力上的強化,還是Frontier試圖為企業(yè)補齊“能干活的智能體”這一關鍵拼圖,都指向同一個方向,也就是AI真正走進生產(chǎn)環(huán)境,成為可以被管理、被信任、被規(guī)?;褂玫膭趧恿Α?/p>

如何在持續(xù)加碼企業(yè)級智能體和生產(chǎn)力場景的同時,維持開發(fā)者與普通用戶的信任感與參與感,如何在ToB的長期布局與ToC的廣泛影響力之間找到平衡,或許將成為OpenAI接下來一段時間里必須回答的關鍵問題。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
河南平頂山郟縣再通報打人事件:劉某飛夫妻涉嫌“尋釁滋事罪”被批捕

河南平頂山郟縣再通報打人事件:劉某飛夫妻涉嫌“尋釁滋事罪”被批捕

環(huán)球網(wǎng)資訊
2026-02-25 07:14:08
汪小菲官宣三胎出生:承諾會照顧好3個孩子,曬馬筱梅與兒子合照

汪小菲官宣三胎出生:承諾會照顧好3個孩子,曬馬筱梅與兒子合照

素素娛樂
2026-02-24 16:34:48
新加坡徹底涼了:中國富豪集體撤離,資本正在用腳投票

新加坡徹底涼了:中國富豪集體撤離,資本正在用腳投票

流蘇晚晴
2026-02-24 18:52:16
弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

弱冷空氣在廣東“開工”,多地有分散性零星小雨!早晚有輕霧

南方都市報
2026-02-24 11:37:04
11歲男童高速服務區(qū)被撞身亡 福建事發(fā)地交警部門回應:肇事司機已被控制

11歲男童高速服務區(qū)被撞身亡 福建事發(fā)地交警部門回應:肇事司機已被控制

極目新聞
2026-02-24 16:50:45
央視重磅官宣:殲16單機雙鎖兩架F-22,外軍隱身戰(zhàn)機嚇得再不敢來

央視重磅官宣:殲16單機雙鎖兩架F-22,外軍隱身戰(zhàn)機嚇得再不敢來

52赫茲實驗室
2026-02-23 12:43:04
2月24日俄烏最新:戰(zhàn)爭的天平開始傾斜

2月24日俄烏最新:戰(zhàn)爭的天平開始傾斜

西樓飲月
2026-02-24 21:37:50
美國官員終于意識到這件事有多嚴重了,但似乎有“難言之隱”

美國官員終于意識到這件事有多嚴重了,但似乎有“難言之隱”

環(huán)球時報國際
2026-02-24 23:55:54
聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對

聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對

老馬拉車莫少裝
2026-02-25 03:23:45
莫言文學一句話概括:否定中國革命

莫言文學一句話概括:否定中國革命

雪中風車
2026-02-24 21:37:18
李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

李連杰曬影迷耗時100小時自制海報:謝謝這位有才的朋友;此前,該作者用成龍70部電影中的人物形象制作了海報,獲大哥當面感謝

極目新聞
2026-02-24 18:36:26
文科生 72 小時殺入 GitHub 全球榜:我沒寫一行代碼,但指揮了一支 AI 軍隊

文科生 72 小時殺入 GitHub 全球榜:我沒寫一行代碼,但指揮了一支 AI 軍隊

極客公園
2026-02-24 12:13:10
天生一張娃娃臉都已經(jīng)46了,你敢想?

天生一張娃娃臉都已經(jīng)46了,你敢想?

娛樂圈見解說
2026-02-24 20:08:38
尉健行說:美國人選領導是5選1,我們選干部卻是1對1,這怎么行?

尉健行說:美國人選領導是5選1,我們選干部卻是1對1,這怎么行?

老謝談史
2026-02-24 23:20:42
宏大敘事是窮人最后的“精神鴉片”

宏大敘事是窮人最后的“精神鴉片”

浪子說
2026-02-24 22:08:10
曬曬我從“山姆”買的13件家居用品:買著貴,用著便宜,確實劃算

曬曬我從“山姆”買的13件家居用品:買著貴,用著便宜,確實劃算

三農(nóng)老歷
2026-02-24 22:03:07
俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

俄烏犧牲士兵們的平凡愿望,如今只能在AI里實現(xiàn)了

網(wǎng)易新聞出品
2026-02-24 10:00:05
未來危機!曝郭士強詢問遍旅外球員 僅余嘉豪1人馳援男籃

未來危機!曝郭士強詢問遍旅外球員 僅余嘉豪1人馳援男籃

大嘴爵爺侃球
2026-02-24 11:18:31
太無恥了,貝加爾湖慘案七人遇難,有的媒體只說“一人獲救”

太無恥了,貝加爾湖慘案七人遇難,有的媒體只說“一人獲救”

壹家言
2026-02-24 14:39:46
葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應

葡萄330元/斤,草莓360元/斤!網(wǎng)友高速上看到水果廣告牌驚呆了,種植企業(yè)回應

極目新聞
2026-02-24 12:58:13
2026-02-25 09:15:00
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11249文章數(shù) 116979關注度
往期回顧 全部

科技要聞

蘋果MacBook Pro要加觸摸屏了,還帶靈動島

頭條要聞

87歲上海老人和59歲保姆結婚 稱房子被賣遭多次打砸

頭條要聞

87歲上海老人和59歲保姆結婚 稱房子被賣遭多次打砸

體育要聞

蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個孩子

財經(jīng)要聞

春節(jié)檔"開門黑" 電影票少賣了7000萬張

汽車要聞

入門即滿配 威蘭達AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

教育
親子
藝術
健康
手機

教育要聞

弧中點運用第2講,一個視頻學明白!

親子要聞

坑弟弟,我是一把好手

藝術要聞

如果吳清源重生,他會如何與柯潔較量?

轉頭就暈的耳石癥,能開車上班嗎?

手機要聞

歐洲十大暢銷手機出爐,真是顛覆大家固有印象

無障礙瀏覽 進入關懷版