国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI深夜祭出GPT-5.4,暴擊Claude!原生操控電腦,打工人懸了

0
分享至


新智元報道

編輯:好困 桃子

【新智元導讀】OpenAI深夜突襲,GPT-5.4新王炸場!一夜之間,直接粉碎了Gemini 3.1 Pro和Claude Opus 4.6的神話。這也是頭一次,ChatGPT擁有真正「原生電腦使用」能力,辦公效率直接拉滿。而真正恐怖的地方在于,每一個維度上它都沒有短板。

被Gemini和Claude連續(xù)壓了一個月后,OpenAI終于動手了。

就在剛剛,下一代旗艦GPT-5.4正式發(fā)布!

  • ChatGPT端:GPT-5.4 Thinking與GPT-5.4 Pro全面上線

  • 開發(fā)者端:GPT-5.4接入API與Codex,并附帶極速版GPT-5.4 fast



之所以直接跳到5.4,是因為這是一次「推理+編程」的合流式跨越

成績單,直接炸裂。

  • GDPval勝率83%,叫板頂尖人類專家;

  • SWE-Bench Pro編程第一,F(xiàn)rontierMath數(shù)學第一;

  • ARC-AGI-2抽象推理跑出83.3%新高,Gemini 3.1 Pro的77.1%、Opus 4.6的68.8%,全部踩在腳下。

OpenAI這次,是真的翻身了。



左右滑動查看


更炸的是,GPT-5.4還是首個擁有「原生電腦使用」能力的通用模型。

識別UI、操控鍵鼠、在軟件和網(wǎng)頁間穿梭自如,像人一樣操作電腦。

在OSWorld-Verified上,它直接拿下75%成功率,刷爆SOTA。

上一代GPT-5.2(47.3%),人類(72.4%),一個月前剛登頂?shù)腛pus 4.6(72.7%),通通都被超了。

沒錯,AI操作電腦,已經(jīng)比人類更熟練了。


能力融合上,GPT-5.4繼承了GPT-5.3-Codex的全部編程基因,并且新增了100萬token上下文和原生工具搜索,一個模型打通推理、編程、操控全鏈路。

GPT-5.4 Thinking在思考時,你還能隨時介入調(diào)整方向,不打斷思路,一次對話直接交付結(jié)果。

看來,OpenClaw之父加入后,立馬讓ChatGPT原生「電腦操控」能力變強了!


定價方面,GPT-5.4再創(chuàng)新高,輸入價格2.5美元/百萬token,輸出價格15美元/百萬token。

Pro版本就更夸張了,輸入30美元/百萬token,輸出180美元/百萬token。



首個全能「計算機使用」通用模型

先說最炸的部分。

GPT-5.4是OpenAI首個具備原生計算機使用能力的通用模型。

它能通過Playwright等庫,編寫代碼來控制計算機,也能直接「看」屏幕截圖動用鼠標和鍵盤。

發(fā)郵件、排日程、填表格、跑流程,這些以前需要你點來點去的活兒,現(xiàn)在GPT-5.4自己都能干。

在OSWorld-Verified中,GPT-5.4直接刷出了75.0%的成功率。

要知道,就在一個月前剛登頂?shù)腃laude Opus 4.6,成績也不過72.7%。GPT-5.4一出手就把它甩開了2.3%。


在WebArena-Verified上,同時使用DOM和截圖驅(qū)動交互時,GPT-5.4成功率達67.3%,領(lǐng)先GPT-5.2的65.4%。

在另一項Online-Mind2Web測試中,GPT-5.4僅靠截圖觀察就拿下了92.8%,而ChatGPT Atlas智能體模式只有70.9%,斷崖級領(lǐng)先。

不過,GPT-5.4一切強大的執(zhí)行能力,都是建立在更強的「通用視覺感知」能力之上。

在MMMU-Pro上,GPT-5.4(不使用工具)的成功率81.2%,大幅優(yōu)于GPT-5.2(79.5%)。

視覺感知的提升,也直接轉(zhuǎn)化為更強的文檔解析能力。

在OmniDocBench上,GPT-5.4(未開啟推理強度)的平均誤差為0.109,而GPT-5.2為0.140。


更重磅的是,GPT-5.4還首次引入「原始」(original)和「高」(high)圖像輸入細節(jié)級別。

前者支持最高1024萬總像素,或最大單邊6000像素(以較低者為準)的全保真度感知;后者支持最高256萬總像素或最大單邊2048像素。

在API早期測試中,GPT-5.4在定位能力、圖像理解和點擊準確性均有大幅提升。

精通辦公三件套,干翻華爾街分析師

如果說計算機使用是「硬功夫」,那知識工作就是GPT-5.4的「軟實力」。


在GDPval基準測試中,GPT-5.4以83.0%的成績,追平甚至超越了行業(yè)內(nèi)的專業(yè)人士

上一代GPT-5.2僅有70.9%,一個版本的差距,直接拉開了12個百分點。


GDPval測試橫跨美國GDP貢獻最大的9個行業(yè)、44種職業(yè),包括銷售演示文稿、會計電子表格、急診排班表、制造圖表、短視頻等,全部都是要求AI真刀真槍地交付工作產(chǎn)出。

GPT-5.4已經(jīng)能做PPT、做Excel、排班表了,而且做得比大多數(shù)專業(yè)人士還好。


在一項模擬初級投資銀行分析師的內(nèi)部電子表格建模測試中,GPT-5.4平均得分87.3%,GPT-5.2只有68.4%。


不僅如此,人類在68.0%的情況下,更偏好GPT-5.4生成的PPT,因其美感更強、視覺更豐富、圖像使用更高效。


幻覺率暴降33%

為了讓GPT-5.4真正勝任實際工作,OpenAI在減少幻覺和事實錯誤上持續(xù)發(fā)力。

這么說吧,GPT-5.4是OpenAI迄今為止,最講求事實的模型。

在一組去標識化的、包含用戶標記事實錯誤的提示詞集中,相對于GPT-5.2,GPT-5.4單獨聲明出錯的概率降低了33%,整個回復包含任何錯誤的概率降低了18%。

推理+代碼合體,一個模型全搞定

GPT-5.4的另一個大招,完整繼承了GPT-5.3-Codex的編程能力。

這意味著,不再需要在「聰明的模型」和「能寫代碼的模型」之間來回切換。一個模型,全部搞定。

在SWE-Bench Pro測試中,GPT-5.4拿下了57.7%準確率,媲美甚至超越了GPT-5.3-Codex(56.8%)。


但真正的殺手锏不是分數(shù),而是效率。

GPT-5.4是OpenAI迄今Token效率最高的推理模型,解決相同問題所需的Token大幅減少,成本更低,速度更快。

而且在各種推理強度設置下,GPT-5.4的延遲都低于GPT-5.3-Codex。

在Codex的/fast模式下,其Token生成速度最高可提升1.5倍。同樣的智力,同樣的能力,只是快了50%。

通過API,開發(fā)者也可以使用「優(yōu)先處理」(Priority Processing)獲得同樣飛快的速度。

內(nèi)部測試中,OpenAI還發(fā)現(xiàn),GPT-5.4在復雜的前端任務上表現(xiàn)卓越。

生成的界面不僅美觀,而且功能完備程度,遠超此前任何模型。

為此,他們甚至還搞了個花活,發(fā)布了實驗性的「Playwright Interactive」技能,讓Codex能一邊構(gòu)建Web應用、一邊在瀏覽器中可視化調(diào)試測試。

  • 主題公園模擬游戲

僅憑一段提示詞,GPT-5.4就徒手搓出一個完整的經(jīng)營類游戲。

這一個全自動運行的微觀世界,瓦片路網(wǎng)、設施建造、景觀美化一應俱全。

而且,資金、客流、幸福感與評分系統(tǒng)環(huán)環(huán)相扣。

其中,Playwright充當了最嚴苛的質(zhì)檢員:從瘋狂擴建到設施拆除,從鏡頭導航到 UI 數(shù)據(jù)驗證,經(jīng)過數(shù)輪自動化高壓測試才最終交付。

傳送門:https://developers.openai.com/showcase/theme-park-builder

  • 戰(zhàn)棋RPG

經(jīng)過多輪迭代,GPT-5.4打造出一款回合制網(wǎng)格戰(zhàn)斗游戲,包含移動、行動、站位和遭遇戰(zhàn)等完整系統(tǒng)。

圖像生成負責角色和美術(shù)風格,Playwright在每一輪迭代中驗證界面交互、檢查并微調(diào)UI行為和著色器效果,直到戰(zhàn)斗手感、視覺表現(xiàn)和整體體驗全部調(diào)優(yōu)到位。

傳送門:https://developers.openai.com/showcase/turn-based-rpg

  • 金門大橋飛行體驗

同樣一段提示詞起步,GPT-5.4生成了一個可以自由飛行的超寫實3D場景——

逼真的光照、水面、霧氣、懸索、橋上行駛的車流、周圍的海岸線和城市背景,支持近距離結(jié)構(gòu)穿越和遠景風光俯瞰。

這里,Playwright化身「王牌飛行員」,開啟多角度全自動巡航測試。

它不僅驗證渲染視口的穩(wěn)定性,還通過截圖反饋協(xié)助 AI 持續(xù)校準構(gòu)圖與光影分布。 ,歷經(jīng)一小時的高頻迭代。

傳送門:https://developers.openai.com/showcase/golden-gate-flight-experience

祭出「工具搜索」,Token狂砍47%

在工具使用上,GPT-5.4的進化是多層次的。

  • 工具搜索

GPT-5.4引入了「工具搜索」功能,徹底解決了MCP工具太多,上下文爆炸的問題。

只需要一個輕量級的可用工具列表,真正需要某個工具時,它會自動查找定義并即時加載。

在Scale的MCP Atlas基準測試(250個任務,開啟全部36個MCP服務器)中,工具搜索配置在保持相同準確率的同時,將總Token使用量減少了47%。


這對于工具定義動輒數(shù)萬Token的MCP服務器來說,效率提升堪稱恐怖。

  • 智能體工具調(diào)用

在推理過程中,GPT-5.4決定「何時」以及「如何」使用工具時,更加精準。

在Toolathlon上,GPT-5.4以54.6%準確率,大幅領(lǐng)先GPT-5.3-Codex(51.9%)、GPT-5.2(45.7%),而且用的輪次更少。

智能體現(xiàn)在能順暢完成「全套流程」——

閱讀電子郵件→提取作業(yè)附件→上傳附件→對作業(yè)評分→將結(jié)果記錄到電子表格


Toolathlon:評估多步任務中現(xiàn)實世界工具和API使用能力

對于延遲敏感的場景(推理強度設為None),GPT-5.4在τ2-bench電信客服任務上也大幅領(lǐng)先。

而在開啟推理強度(xhigh)的情況下,GPT-5.4在τ2-bench上更是達到了98.9%,幾乎完美。


搜索暴漲17%,Pro版刷新紀錄

此外,GPT-5.4的智能體網(wǎng)絡搜索能力迎來了大幅升級。

上一次,在BrowseComp測試中,Claude Opus 4.6憑借84.0%的成績一騎絕塵,遠超GPT-5.2 Pro(77.9%)。

但GPT-5.4 Pro直接以89.3%實現(xiàn)了反超,標準版的82.7%也和Opus 4.6咬得很緊。


在實際使用中,這意味著GPT-5.4 Thinking更擅長回答需要從網(wǎng)絡多源頭整合信息的問題。

它能更持久地進行多輪搜索以篩選最相關(guān)的來源,尤其是「大海撈針」式的問題,并將信息綜合成條理清晰、推理嚴密的答案。

GPT-5.4 Thinking同時還改進了深度網(wǎng)絡研究能力。

特別是,針對極其具體的查詢,并且在處理需要長時間思考的問題時能更好地保持上下文。

中途可調(diào),告別推倒重來

GPT-5.4 Thinking在思考時,還可以隨意介入,也不會打斷思路。


此功能現(xiàn)已在網(wǎng)頁和Android應用上線,iOS版即將推出

更關(guān)鍵的是,你可以在它運行中途直接調(diào)整方向、補充說明,而不需要等它全部做完再推翻重來。

一次對話就能拿到想要的結(jié)果,省掉了來回拉扯的多輪溝通成本。

同時,模型在處理困難任務時能進行更深入的思考,對對話的歷史步驟保持更強的記憶感知。

OpenAI重回王座,AI格局再變天

GPT-5.4的發(fā)布,是OpenAI對Gemini 3.1 Pro和Claude Opus 4.6的一次全面反擊。

GPT-5.4的恐怖之處在于,它沒有短板。

推理、編程、視覺、工具使用、計算機操作、網(wǎng)絡搜索、知識工作,每一條線都拉到了頂尖水平。

這不是某個維度的突破,這是全維度的碾壓。

OpenAI用GPT-5.4告訴所有人:在通往AGI的路上,它依然是最不能被忽視的那個玩家。

詳細跑分:全維度碾壓

最后,附上GPT-5.4最全面的成績單。


參考資料:

https://x.com/OpenAI/status/2029620619743219811?s=20

https://developers.openai.com/api/docs/models/gpt-5.4

https://openai.com/index/introducing-gpt-5-4/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
鄭麗文24小時內(nèi)征召三女將,訪陸時間確定,兩岸必然統(tǒng)一

鄭麗文24小時內(nèi)征召三女將,訪陸時間確定,兩岸必然統(tǒng)一

王鶔吃吃喝喝
2026-03-06 18:56:07
5-0踢成1-0!中國女足半場屢失良機,進球功臣被批,小組頭名難了

5-0踢成1-0!中國女足半場屢失良機,進球功臣被批,小組頭名難了

侃球熊弟
2026-03-06 16:58:02
女子假信佛與多位高僧發(fā)生不當關(guān)系,秘密錄制5600段視頻。

女子假信佛與多位高僧發(fā)生不當關(guān)系,秘密錄制5600段視頻。

特約前排觀眾
2026-02-09 00:05:05
印度人怒了:美軍殺害的,是我們的客人!

印度人怒了:美軍殺害的,是我們的客人!

環(huán)球時報國際
2026-03-05 23:59:46
太慘烈,天津老牌設計院裁員超千人!

太慘烈,天津老牌設計院裁員超千人!

黯泉
2026-03-01 21:28:38
全球唯一明朝狀元卷,字跡如機器印刷,無一處筆誤,看完無地自容

全球唯一明朝狀元卷,字跡如機器印刷,無一處筆誤,看完無地自容

收藏大視界
2026-03-03 17:33:09
江蘇女子大年初五被公公要求離開婆家后續(xù),帶走一雙兒女等離婚

江蘇女子大年初五被公公要求離開婆家后續(xù),帶走一雙兒女等離婚

九方魚論
2026-03-06 15:18:21
火箭為何加時不敵勇士賽后杜蘭特毫不客氣說出原因 說的非常實在

火箭為何加時不敵勇士賽后杜蘭特毫不客氣說出原因 說的非常實在

籃球看比賽
2026-03-06 13:11:41
小姑子把一碗湯潑我頭上,全家都在笑,一周后她的飯店全關(guān)門停業(yè)

小姑子把一碗湯潑我頭上,全家都在笑,一周后她的飯店全關(guān)門停業(yè)

千秋文化
2026-03-02 20:56:45
殺死美以間諜、轟炸以色列國防部、摧毀星鏈設備,伊朗越殺越猛,歐洲已經(jīng)開始慌了!

殺死美以間諜、轟炸以色列國防部、摧毀星鏈設備,伊朗越殺越猛,歐洲已經(jīng)開始慌了!

頭條爆料007
2026-03-06 08:28:28
剛剛確認:最低5度以下,周末早晚一鍵回冬,浙江人注意了……

剛剛確認:最低5度以下,周末早晚一鍵回冬,浙江人注意了……

浙江天氣
2026-03-06 17:16:50
澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

澳門的賭臺,大面積關(guān)停!不是沒人去,而是被“算法”割廢的?

來科點譜
2026-03-01 09:37:46
英媒:美國利用AI打仗是“危險的轉(zhuǎn)折點”

英媒:美國利用AI打仗是“危險的轉(zhuǎn)折點”

參考消息
2026-03-06 10:10:53
人到晚年才明白:再和睦的家庭,也熬不過父母八十歲之后的年

人到晚年才明白:再和睦的家庭,也熬不過父母八十歲之后的年

大熊歡樂坊
2026-03-06 19:19:04
證監(jiān)會主席吳清:深化創(chuàng)業(yè)板改革總體方案已基本成型,將擇機發(fā)布

證監(jiān)會主席吳清:深化創(chuàng)業(yè)板改革總體方案已基本成型,將擇機發(fā)布

中國青年報
2026-03-06 17:11:04
英博對戰(zhàn)申花 大連文體頻道明日轉(zhuǎn)播

英博對戰(zhàn)申花 大連文體頻道明日轉(zhuǎn)播

半島晨報
2026-03-06 17:38:18
兩會又傳來3個良心提案,一個比一個靠譜,說到老百姓心坎里來了

兩會又傳來3個良心提案,一個比一個靠譜,說到老百姓心坎里來了

春日在捕月
2026-03-06 16:26:34
國際乒聯(lián)突然大改規(guī)則,劉國梁被牽連?國乒接連遭受暴擊

國際乒聯(lián)突然大改規(guī)則,劉國梁被牽連?國乒接連遭受暴擊

老特有話說
2026-03-05 16:18:22
山東墨龍成交額創(chuàng)上市以來新高

山東墨龍成交額創(chuàng)上市以來新高

證券時報
2026-03-06 11:23:05
如今黃河已成懸河,為啥不讓挖泥船把泥沙清走,讓黃河整體下移?

如今黃河已成懸河,為啥不讓挖泥船把泥沙清走,讓黃河整體下移?

天下十三洲獵奇
2026-03-01 00:21:41
2026-03-06 20:28:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14654文章數(shù) 66663關(guān)注度
往期回顧 全部

科技要聞

獨家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

美媒詢問中方對伊朗的支持是否涉軍事援助 外交部回應

頭條要聞

美媒詢問中方對伊朗的支持是否涉軍事援助 外交部回應

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財經(jīng)要聞

關(guān)于經(jīng)濟、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

房產(chǎn)
教育
本地
健康
公開課

房產(chǎn)要聞

傳統(tǒng)學區(qū)房熄火?2月??诙址勘鸬陌鍓K竟然是…

教育要聞

少年新聞頻道·新聞百科丨不僅“漲知識”,更為了“長腦子”

本地新聞

食味印象|一口入魂!康樂烤肉串起千年絲路香

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版