OpenAI發(fā)布最強專業(yè)模型GPT-5.4，自動操作電腦，插件支持AI玩轉(zhuǎn)Excel和金融分析

2026-03-06 03:51:57　來源: 華爾街見聞官方

上海舉報

分享至

更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問世才一天，美東時間5日周四，OpenAI就發(fā)布了全新的旗艦基礎模型GPT-5.4，在ChatGPT、API以及開發(fā)工具Codex中同步上線。

OpenAI稱GPT-5.4是“迄今能力最強、最高效的專業(yè)工作前沿模型”，重點面向企業(yè)辦公與復雜知識工作場景。相比此前版本，GPT-5.4的最大變化在于強化AI智能體（Agent）的能力。在API和Codex中，GPT-5.4首次實現(xiàn)了原生級“電腦操作”功能，支持智能體跨軟件執(zhí)行復雜工作流。

GPT-5.4不僅能生成文本或代碼，還首次將原生電腦操控能力引入通用模型，能直接操作電腦軟件、瀏覽網(wǎng)頁、控制鼠標和鍵盤完成任務，并可與電子表格、金融分析工具等企業(yè)應用深度整合，深度嵌入微軟Excel和谷歌表格。

在ChatGPT中，GPT-5.4支持“提前展示思維過程”，允許用戶在模型響應過程中調(diào)整任務方向，并提升了深度網(wǎng)頁搜索與長邏輯語境下的上下文保持能力。

業(yè)內(nèi)認為，GPT-5.4的一系列升級標志著AI模型正從“對話工具”走向自動化執(zhí)行任務的數(shù)字代理系統(tǒng)，進一步滲透企業(yè)生產(chǎn)力軟件與專業(yè)知識工作。

OpenAI本周四同時推出兩個版本，包括更擅長復雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro，分別面向付費用戶和高端企業(yè)用戶。

在計算機操控基準測試OSWorld-Verified中，GPT-5.4以75.0%的成功率超越人類平均水平72.4%，較前代GPT-5.2的47.3%大幅躍升。同期發(fā)布的財務服務套件顯示，GPT-5.4在OpenAI內(nèi)部投行基準測試中的得分從GPT-5的43.7%躍升至88.0%。

早期測試機構給出積極反饋。投資公司W(wǎng)alleye Capital的AI解決方案主管Daniel Swiecki表示，GPT-5.4在內(nèi)部財務和Excel評估中準確率提升了30個百分點。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”，并表示GPT-5.4已在Mercor面向?qū)I(yè)服務工作的APEX-Agents基準測試中排名第一。

通用模型中首次內(nèi)置原生電腦操控功能突破單輪問答邊界

GPT-5.4最具突破性的能力在于其原生電腦操控功能，這也是OpenAI首次在通用模型中內(nèi)置該能力。通過API和Codex，該模型可像人類一樣操控計算機，跨應用完成多步驟工作流程。

具體而言，GPT-5.4既可通過Playwright等庫編寫代碼來操控計算機，也可直接響應截圖發(fā)出鼠標和鍵盤指令，開發(fā)者還可配置自定義確認策略以適配不同風險容忍度場景。

基準測試數(shù)據(jù)支撐了這一能力的實質(zhì)性進步：在測試桌面導航能力的OSWorld-Verified中，GPT-5.4成功率達75.0%，不僅超過GPT-5.2的47.3%，也超越了人類基準水平72.4%；在瀏覽器操控測試WebArena-Verified中，成功率為67.3%，高于GPT-5.2的65.4%；在Online-Mind2Web中，僅憑截圖即實現(xiàn)92.8%的成功率。

在網(wǎng)絡搜索能力方面，BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點，GPT-5.4 Pro更以89.3%的成績創(chuàng)下該基準測試的最高評分紀錄。

地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示，在覆蓋約3萬個房產(chǎn)稅門戶的測試中，GPT-5.4首次嘗試成功率達95%，三次內(nèi)成功率達100%，相比此前的計算機操控模型（成功率約73%至79%）大幅提升，同時完成速度加快約3倍，tokens消耗減少約70%。

工具搜索機制重構大幅降低token消耗

隨著工具生態(tài)規(guī)模擴大，如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"（Tool Search）機制，從根本上改變了工具定義的傳遞方式。

此前，模型在每次請求時均需在提示詞中預加載全部工具定義，在工具數(shù)量龐大的系統(tǒng)中，這會在每次請求中額外消耗數(shù)千乃至數(shù)萬tokens，推高成本、增加延遲并稀釋上下文。新機制下，模型僅接收工具的輕量化列表，僅在實際需要使用某工具時才按需檢索其完整定義。

OpenAI以具體數(shù)據(jù)佐證效果：在使用Scale的MCP Atlas基準測試的250項任務中，啟用全部36個MCP服務器的配置下，工具搜索模式相較將全部MCP功能直接暴露于上下文的模式，在保持相同準確率的前提下，總token用量減少47%。

Zapier的CEO Wade表示，GPT-5.4在該公司橫跨數(shù)百個高級真實工作流的工具使用基準測試中表現(xiàn)優(yōu)異，"是迄今為止最具持續(xù)性的模型"。

金融與企業(yè)場景：Excel深度集成，投行任務成績翻倍

與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機構的“OpenAI金融服務”套件，核心產(chǎn)品是ChatGPT for Excel和Google Sheets（測試版）——ChatGPT將直接嵌入電子表格單元格，支持構建、分析和更新復雜財務模型。

該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴，并推出可復用的Skills功能，覆蓋盈利預覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

在內(nèi)部投行基準測試中，GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%；在模擬初級投行分析師電子表格建模任務的測試中，GPT-5.4平均得分87.3%，遠高于GPT-5.2的68.4%。

法律AI平臺Harvey的應用研究主管Niko Grupen表示，GPT-5.4在該公司BigLaw Bench評估中得分91%，"在結構化復雜交易分析、跨長篇合同保持準確性以及提供法律從業(yè)者所需的高度細節(jié)方面，目前優(yōu)于其他模型"。

知識工作與幻覺抑制：全面對標專業(yè)人士

OpenAI在多個衡量真實職場輸出的基準測試上展示了GPT-5.4的能力邊界。在GDPval測試中——該測試涵蓋44個職業(yè)的知識工作任務，包括銷售演示、會計表格、制造業(yè)圖表等真實工作產(chǎn)出——GPT-5.4在83.0%的比較中達到或超越行業(yè)專業(yè)人士水平，高于GPT-5.2的71.0%。

在演示文稿質(zhì)量評估中，人類評審在68.0%的情況下更偏好GPT-5.4的輸出，原因包括更強的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應用。

在幻覺和事實錯誤控制方面，OpenAI表示GPT-5.4是其"迄今最具事實準確性的模型"：在用戶此前標記過事實錯誤的去標識化提示詞測試集上，GPT-5.4的單項陳述錯誤率較GPT-5.2降低33%，完整回應中出現(xiàn)任意錯誤的概率降低18%。

在編程能力方面，GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu)，且在各推理強度設置下延遲更低。Codex的/fast模式可為GPT-5.4帶來最高1.5倍的token生成速度提升，該模式使用相同模型與相同智能，僅在速度層面進行優(yōu)化。GitHub首席產(chǎn)品官Mario Rodriguez表示，GPT-5.4在邏輯推理及執(zhí)行復雜多步驟工具依賴工作流方面表現(xiàn)突出，"是企業(yè)第一天就應該采用的模型"。

兩個版本分層覆蓋不同用戶需求上下文窗口最高100萬token

GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場景，GPT-5.4 Pro則專為最復雜任務設計，追求性能上限。

在ChatGPT端，GPT-5.4 Thinking從本周四起向Plus（月費20美元）、Team及Pro用戶開放，取代此前的GPT-5.2 Thinking，GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役。

GPT-5.4 Pro僅限Pro（月費200美元）及Enterprise計劃用戶使用。免費用戶亦可在系統(tǒng)自動路由時有限接觸GPT-5.4。企業(yè)和教育計劃用戶可通過管理員設置提前開啟訪問權限。

在API端，GPT-5.4以gpt-5.4標識符提供，GPT-5.4 Pro以gpt-5.4-pro提供，兩者均可在Codex開發(fā)平臺使用。API最大輸出為12.8萬token，與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口，是OpenAI迄今提供的最大上下文容量，適合跨步驟長鏈路任務的規(guī)劃、執(zhí)行與驗證。

定價高于前代，效率提升部分抵消成本增加

在API定價上，GPT-5.4的價格相較GPT-5.2有所上調(diào)。具體如下：

GPT-5.4：輸入2.50美元/百萬token，輸出15美元/百萬token（GPT5.2的定價為輸入1.75美元/百萬token、輸出14美元/百萬token）
GPT-5.4 Pro：輸入30美元/百萬token，輸出180美元/百萬token（GPT5.2 Pro為輸入21美元/百萬token、輸出168美元/百萬token）
Batch及Flex定價享半價優(yōu)惠，Priority（優(yōu)先）處理則按標準價格的兩倍計費

值得注意的是，當單次輸入超過27.2萬token時，超出部分將按兩倍標準費率計費。在Codex中，默認壓縮上限為27.2萬token，開發(fā)者可手動上調(diào)上限以處理更大提示詞，超出部分方觸發(fā)較高計費。

OpenAI對較高定價給出三點解釋：一是在編程、計算機操控、深度研究、高級文檔生成及工具調(diào)用等復雜任務上能力更強；二是來自研究路線圖的重大技術進步；三是更高效的推理機制在相同任務上消耗更少推理tokens，一定程度上抵消了單價上升的影響。OpenAI同時表示，即便提價，GPT-5.4的定價仍低于同等能力的競品前沿模型。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.