国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ChatGPT-5.4發(fā)布:和OpenClaw兼容,AI第一次比人類更會操作電腦

0
分享至

自從各大模型廠商開始以 0.1 的小版本更新模型后,模型更新的頻率越來越快了,3 月 5 日,就在 GPT-5.3 Instant 剛更新完畢后兩天,GPT-5.4 也來了。

這款模型被 OpenAI 定位為“面向專業(yè)工作的最強前沿模型”。它以 GPT-5.4 Thinking 的形式進入 ChatGPT,同時上線 API 和代碼開發(fā)平臺 Codex。此外還有一個 GPT-5.4 Pro 版本,面向需要極致復雜任務性能的用戶,僅對 ChatGPT Pro(月費 200 美元)和 Enterprise 訂閱者開放。Plus 用戶可以使用 GPT-5.4 Thinking,免費用戶則只能在系統(tǒng)自動路由時偶爾被分配到該模型。


(來源:OpenAI)

GPT-5.4 在 API 和 Codex 中支持最高 100 萬 token(標記)的上下文窗口(Context Window,即模型單次處理文本的長度上限),這是目前 OpenAI 提供的最大上下文窗口。不過超過 272,000 token 的請求,輸入價格翻倍、輸出加收 50%。標準輸入單價從 GPT-5.2 時代的每百萬 token 1.75 美元漲到了 2.50 美元,漲幅 43%。

OpenAI 給出的解釋是,模型能力更強,研究投入更大,同時推理效率更高——用更少的 token 解決同樣的問題,所以總成本未必上升。作為參考,Anthropic 的 Claude Opus 4.6 輸入價格是每百萬 token 5 美元,輸出 25 美元,GPT-5.4 Pro 的定價實際上還要更貴。


(來源:OpenAI)

跑分方面,在 OSWorld-Verified 基準測試中,GPT-5.4 的成功率達到 75.0%,遠超 GPT-5.2 的 47.3%,也超過了該測試報告的人類表現(xiàn) 72.4%。在 OpenAI 的官方演示中,通過 Playwright Interactive(一種瀏覽器自動化工具)與圖像生成結合,僅憑單條提示詞就構建出了一個主題樂園模擬游戲,涵蓋瓦片路徑布置、游樂設施建造、游客路徑尋路和實時公園指標。

在 BrowseComp(衡量 AI 代理在網(wǎng)頁上持續(xù)檢索難以定位信息的能力)上,GPT-5.4 比 GPT-5.2 提升了 17 個百分點,Pro 版本達到 89.3%。OpenAI 自己的 GDPval 測試(覆蓋美國 GDP 貢獻最大的 9 個行業(yè)、44 種職業(yè)的知識工作任務)給出了 83% 的得分,意味著在這些任務上模型的表現(xiàn)達到或超過了行業(yè)從業(yè)者水平。

在電子表格建模任務中,得分從 GPT-5.2 的 68.4% 跳到了 87.3%;人類評審者在 68% 的情況下更偏好 GPT-5.4 生成的演示文稿。


(來源:OpenAI)

這些數(shù)字背后有一個關鍵能力:原生計算機使用(Native Computer Use)。GPT-5.4 是 OpenAI 發(fā)布的第一個內置原生計算機操控能力的通用模型,可以通過編寫代碼(比如使用 Playwright 庫)來操控計算機,也可以直接根據(jù)屏幕截圖發(fā)出鼠標和鍵盤指令。這讓它能夠在軟件環(huán)境中執(zhí)行“構建 - 運行 - 驗證 - 修復”的循環(huán),完成需要跨多個應用的多步驟工作流。

另一個對開發(fā)者影響較大的新特性是 Tool Search(工具搜索)。過去,在 API 中使用工具時,所有工具的定義需要一次性塞進提示詞里,隨著工具越來越多,這造成了巨大的 token 開銷和上下文污染。GPT-5.4 引入了一個結構性的優(yōu)化:模型只接收一個輕量級工具列表,需要用到某個工具時再動態(tài)檢索其完整定義。

在 Scale 公司的 MCP Atlas 基準測試中,使用 36 個 MCP 服務器執(zhí)行 250 項任務,工具搜索將 token 消耗降低了 47%,同時保持了準確率。對于構建大型智能體(Agent)系統(tǒng)的開發(fā)者來說,這直接意味著更低的成本和更快的響應。

幻覺(Hallucination,即模型編造事實)的改善也被重點提及。OpenAI 表示,GPT-5.4 在單條聲明中出錯的概率比 GPT-5.2 降低了 33%,整體回復包含錯誤的概率降低了 18%。

不過需要注意的是,在 HealthBench 醫(yī)療健康評測中,GPT-5.4 的得分是 62.6%,反而略低于 GPT-5.2 的 63.3%。模型回復的平均長度也更長了,從 GPT-5.2 的 2,676 字符增加到 3,311 字符。更長的回復有時候意味著更全面,也有時候意味著更啰嗦,用戶體驗如何還有待觀察。

在抽象推理方面,進步幅度較為顯著。ARC-AGI-2 從 52.9% 躍升至 73.3%,Pro 版本達到 83.3%。FrontierMath Tier 4(最高難度的數(shù)學推理測試)從 18.8% 提升至 27.1%,Pro 版本為 38.0%。

一些拿到早期測試權限的用戶已經(jīng)在 X 上密集發(fā)布體驗報告。AI 創(chuàng)業(yè)者 Matt Shumer 稱自己測試 GPT-5.4 長達一周,認為其標準版配合深度思考模式的表現(xiàn)已經(jīng)超過了此前其他模型的 Pro 版本,以至于他幾乎不再需要切換到 Pro 模式。


(來源:X)

其編碼能力尤其突出,Shumer 稱在 Codex 中使用 GPT-5.4 的可靠性極高,編碼問題“基本上已經(jīng)被解決了”。Pro 版本則能攻克其他模型完全無法處理的難題,但對日常任務來說屬于“過?;鹆Α?。而且的確和 OpenAI 官方宣稱的一樣,其標準思考版本使用的推理 token 比以前更少,響應速度明顯加快。

不過 Shumer 也指出了幾個短板:前端設計品味遠不如 Claude Opus 4.6 和 Gemini 3.1 Pro;模型有時候會忽略顯而易見的現(xiàn)實世界語境,比如為他規(guī)劃旅行行程時選了一堆春假期間會被游客擠爆的地點。在 OpenClaw 中測試 GPT-5.4 時,模型經(jīng)常在任務完成之前就停下來。

OpenAI 同時宣布了一套面向金融行業(yè)的企業(yè)產(chǎn)品,核心是 ChatGPT for Excel 和 Google Sheets(測試版)。OpenAI 將其描述為 ChatGPT 直接嵌入電子表格,用于構建、分析和更新復雜的財務模型。

配套的還有與 FactSet、MSCI、Moody's 等金融數(shù)據(jù)提供商的集成,以及可復用的“Skills”(技能模板),用于盈利預覽、可比公司分析、DCF(折現(xiàn)現(xiàn)金流)分析等標準化金融工作。

在 OpenAI 內部的投資銀行基準測試中,GPT-5.4 Thinking 的表現(xiàn)從 GPT-5 時代的 43.7% 提升到了 88.0%。這組產(chǎn)品的對手毫無疑問是 Anthropic 剛推出的 Cowork 桌面工具和 Claude 的文件管理能力,以及 Google 在 Workspace 中持續(xù)深入的 AI 集成。

綜合來看,GPT-5.4 稱得上是一種在多個維度上的整合性進步。原生計算機操控、工具搜索、更大的上下文窗口、更強的推理能力,這些合在一起構成了一個更完整的“AI 工作助手”,也為 OpenClaw 這類智能體框架提供了更強的底層引擎。

日常聊天和寫郵件的改進可能體現(xiàn)在細節(jié)上,真正能感受到跨代差異的,是那些用 AI 做 PPT、建財務模型、在 Codex 里跑自動化流程的重度用戶,以及正在把 OpenClaw 當成個人數(shù)字助手的那批早期采納者。

參考資料:

1.https://openai.com/index/introducing-gpt-5-4/

2.https://x.com/mattshumer_/status/2029620518249508950

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
2次被央媒批評!張本智和:就算我本來就是日本人,也逃不了網(wǎng)暴

2次被央媒批評!張本智和:就算我本來就是日本人,也逃不了網(wǎng)暴

翰飛觀事
2026-03-05 15:30:37
萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

萬萬沒想到!兩會最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動

瀲滟晴方DAY
2026-03-05 18:42:38
美軍總結:我們最大的錯誤,以為志愿軍只是人民軍二流部隊水平

美軍總結:我們最大的錯誤,以為志愿軍只是人民軍二流部隊水平

雍親王府
2026-03-06 08:55:06
浙江17歲高中生率先發(fā)現(xiàn)新物種,聯(lián)合發(fā)文登上SCI,當事人回應質疑:父母是普通人

浙江17歲高中生率先發(fā)現(xiàn)新物種,聯(lián)合發(fā)文登上SCI,當事人回應質疑:父母是普通人

瀟湘晨報
2026-03-06 11:55:53
原來早已不是中國籍,被老外“玩膩”后回國,鄭緒嵐現(xiàn)狀令人唏噓

原來早已不是中國籍,被老外“玩膩”后回國,鄭緒嵐現(xiàn)狀令人唏噓

暖心萌阿菇?jīng)?/span>
2026-03-02 23:02:48
“人體藝術”,絕非色情!

“人體藝術”,絕非色情!

文刀萬
2026-03-06 06:05:03
上海反對上海:“兩個三十年”與新上海人的幻夢破碎

上海反對上海:“兩個三十年”與新上海人的幻夢破碎

虔青
2026-03-06 09:26:32
霍爾木茲的炮火,炸出了中國造船業(yè)的春天!

霍爾木茲的炮火,炸出了中國造船業(yè)的春天!

包不同
2026-03-06 00:54:59
獨居和空巢老人超1.3億,全國政協(xié)委員、尚品宅配李連柱:建議加快培育家庭陪伴機器人產(chǎn)業(yè)

獨居和空巢老人超1.3億,全國政協(xié)委員、尚品宅配李連柱:建議加快培育家庭陪伴機器人產(chǎn)業(yè)

時代財經(jīng)
2026-03-05 23:17:02
海來阿木雙面人生:春晚勞模遭全網(wǎng)吐槽

海來阿木雙面人生:春晚勞模遭全網(wǎng)吐槽

小椰的奶奶
2026-03-06 09:17:21
第20波打擊!以色列本土告急,美軍航母被擊中?特朗普向31國求助

第20波打擊!以色列本土告急,美軍航母被擊中?特朗普向31國求助

頭條爆料007
2026-03-06 07:35:28
曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

美家指南
2026-03-06 10:31:36
烏克蘭在地中海襲擊俄液化氣船

烏克蘭在地中海襲擊俄液化氣船

參考消息
2026-03-05 13:29:16
24小時內,美俄伊都喊話中國,世界終于看清:特朗普真正怕的是啥

24小時內,美俄伊都喊話中國,世界終于看清:特朗普真正怕的是啥

浪子阿邴聊體育
2026-03-05 09:02:03
約基奇:湖人是一支很難擊敗的對手,我們靠關鍵防守贏下比賽

約基奇:湖人是一支很難擊敗的對手,我們靠關鍵防守贏下比賽

懂球帝
2026-03-06 14:23:09
96小時內,哈梅殯葬準時舉行,普京去不了現(xiàn)場,中國做出重大承諾

96小時內,哈梅殯葬準時舉行,普京去不了現(xiàn)場,中國做出重大承諾

小嵩
2026-03-06 02:07:55
世界5大禁片,全看完的人,心理素質堪比特種兵

世界5大禁片,全看完的人,心理素質堪比特種兵

i書與房
2026-01-26 15:07:05
伊朗軍方:擊中美軍“林肯”號航母!道指盤中狂瀉千點,原油暴漲8.5%創(chuàng)近六年最大單日漲幅

伊朗軍方:擊中美軍“林肯”號航母!道指盤中狂瀉千點,原油暴漲8.5%創(chuàng)近六年最大單日漲幅

金融界
2026-03-06 08:12:10
密春雷百億帝國倒塌,董卿卻在大年初二親手下廚,是怎樣心態(tài)?

密春雷百億帝國倒塌,董卿卻在大年初二親手下廚,是怎樣心態(tài)?

南權先生
2026-03-04 15:26:24
5-0!女足亞洲杯誕生最大慘案,8強定3席,中國隊升頭名條件曝光

5-0!女足亞洲杯誕生最大慘案,8強定3席,中國隊升頭名條件曝光

侃球熊弟
2026-03-06 12:13:05
2026-03-06 14:39:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16366文章數(shù) 514711關注度
往期回顧 全部

科技要聞

獨家|除夕加班、毫無黑料!林俊旸無奈離場

頭條要聞

伊軍指揮官:這幾天只是清庫存 會亮從未公開的大殺器

頭條要聞

伊軍指揮官:這幾天只是清庫存 會亮從未公開的大殺器

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財經(jīng)要聞

黃金,牛市沒了?!

汽車要聞

710km長續(xù)航+閃充 宋Ultra EV預售15.5萬起

態(tài)度原創(chuàng)

房產(chǎn)
手機
游戲
旅游
公開課

房產(chǎn)要聞

超猛!又有2800套房源砸出,2026??诎簿臃?,徹底爆發(fā)!

手機要聞

一加15T爆料匯總!小直屏大容量電池超吸睛

全球唯一!“任天堂PS”原型機入藏電子游戲博物館

旅游要聞

【微特稿】連續(xù)6年赤字 德國科隆大教堂將收門票

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版