国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布最強專業(yè)模型GPT-5.4,自動操作電腦,插件支持AI玩轉(zhuǎn)Excel和金融分析

0
分享至

更快更有判斷力的GPT-5系列模型GPT-5.3 Instant問世才一天,美東時間5日周四,OpenAI就發(fā)布了全新的旗艦基礎模型GPT-5.4,在ChatGPT、API以及開發(fā)工具Codex中同步上線。

OpenAI稱GPT-5.4是“迄今能力最強、最高效的專業(yè)工作前沿模型”,重點面向企業(yè)辦公與復雜知識工作場景。相比此前版本,GPT-5.4的最大變化在于強化AI智能體(Agent)的能力。在API和Codex中,GPT-5.4首次實現(xiàn)了原生級“電腦操作”功能,支持智能體跨軟件執(zhí)行復雜工作流。

GPT-5.4不僅能生成文本或代碼,還首次將原生電腦操控能力引入通用模型,能直接操作電腦軟件、瀏覽網(wǎng)頁、控制鼠標和鍵盤完成任務,并可與電子表格、金融分析工具等企業(yè)應用深度整合,深度嵌入微軟Excel和谷歌表格。

在ChatGPT中,GPT-5.4支持“提前展示思維過程”,允許用戶在模型響應過程中調(diào)整任務方向,并提升了深度網(wǎng)頁搜索與長邏輯語境下的上下文保持能力。

業(yè)內(nèi)認為,GPT-5.4的一系列升級標志著AI模型正從“對話工具”走向自動化執(zhí)行任務的數(shù)字代理系統(tǒng),進一步滲透企業(yè)生產(chǎn)力軟件與專業(yè)知識工作。

OpenAI本周四同時推出兩個版本,包括更擅長復雜推理的GPT-5.4 Thinking以及高性能的GPT-5.4 Pro,分別面向付費用戶和高端企業(yè)用戶。

在計算機操控基準測試OSWorld-Verified中,GPT-5.4以75.0%的成功率超越人類平均水平72.4%,較前代GPT-5.2的47.3%大幅躍升。同期發(fā)布的財務服務套件顯示,GPT-5.4在OpenAI內(nèi)部投行基準測試中的得分從GPT-5的43.7%躍升至88.0%。


早期測試機構(gòu)給出積極反饋。投資公司W(wǎng)alleye Capital的AI解決方案主管Daniel Swiecki表示,GPT-5.4在內(nèi)部財務和Excel評估中準確率提升了30個百分點。AI人才平臺Mercor的CEO Brendan Foody稱其為該公司“迄今嘗試過的最佳模型”,并表示GPT-5.4已在Mercor面向?qū)I(yè)服務工作的APEX-Agents基準測試中排名第一。

通用模型中首次內(nèi)置原生電腦操控功能 突破單輪問答邊界

GPT-5.4最具突破性的能力在于其原生電腦操控功能,這也是OpenAI首次在通用模型中內(nèi)置該能力。通過API和Codex,該模型可像人類一樣操控計算機,跨應用完成多步驟工作流程。

具體而言,GPT-5.4既可通過Playwright等庫編寫代碼來操控計算機,也可直接響應截圖發(fā)出鼠標和鍵盤指令,開發(fā)者還可配置自定義確認策略以適配不同風險容忍度場景。

基準測試數(shù)據(jù)支撐了這一能力的實質(zhì)性進步:在測試桌面導航能力的OSWorld-Verified中,GPT-5.4成功率達75.0%,不僅超過GPT-5.2的47.3%,也超越了人類基準水平72.4%;在瀏覽器操控測試WebArena-Verified中,成功率為67.3%,高于GPT-5.2的65.4%;在Online-Mind2Web中,僅憑截圖即實現(xiàn)92.8%的成功率。

在網(wǎng)絡搜索能力方面,BrowseComp測試顯示GPT-5.4較GPT-5.2提升17個百分點,GPT-5.4 Pro更以89.3%的成績創(chuàng)下該基準測試的最高評分紀錄。


地產(chǎn)科技公司Mainstay的CEO Dod Fraser表示,在覆蓋約3萬個房產(chǎn)稅門戶的測試中,GPT-5.4首次嘗試成功率達95%,三次內(nèi)成功率達100%,相比此前的計算機操控模型(成功率約73%至79%)大幅提升,同時完成速度加快約3倍,tokens消耗減少約70%。

工具搜索機制重構(gòu) 大幅降低token消耗

隨著工具生態(tài)規(guī)模擴大,如何高效管理工具調(diào)用成為制約代理系統(tǒng)落地的瓶頸。GPT-5.4在API中引入"工具搜索"(Tool Search)機制,從根本上改變了工具定義的傳遞方式。

此前,模型在每次請求時均需在提示詞中預加載全部工具定義,在工具數(shù)量龐大的系統(tǒng)中,這會在每次請求中額外消耗數(shù)千乃至數(shù)萬tokens,推高成本、增加延遲并稀釋上下文。新機制下,模型僅接收工具的輕量化列表,僅在實際需要使用某工具時才按需檢索其完整定義。

OpenAI以具體數(shù)據(jù)佐證效果:在使用Scale的MCP Atlas基準測試的250項任務中,啟用全部36個MCP服務器的配置下,工具搜索模式相較將全部MCP功能直接暴露于上下文的模式,在保持相同準確率的前提下,總token用量減少47%。


Zapier的CEO Wade表示,GPT-5.4在該公司橫跨數(shù)百個高級真實工作流的工具使用基準測試中表現(xiàn)優(yōu)異,"是迄今為止最具持續(xù)性的模型"。

金融與企業(yè)場景:Excel深度集成,投行任務成績翻倍

與GPT-5.4同步發(fā)布的還有面向企業(yè)和金融機構(gòu)的“OpenAI金融服務”套件,核心產(chǎn)品是ChatGPT for Excel和Google Sheets(測試版)——ChatGPT將直接嵌入電子表格單元格,支持構(gòu)建、分析和更新復雜財務模型。

該套件還整合了FactSet、MSCI、Third Bridge和Moody's等數(shù)據(jù)合作伙伴,并推出可復用的Skills功能,覆蓋盈利預覽、可比公司分析、DCF估值分析及投資備忘錄撰寫等高頻金融工作場景。

在內(nèi)部投行基準測試中,GPT-5.4 Thinking的得分從GPT-5的43.7%躍升至88.0%;在模擬初級投行分析師電子表格建模任務的測試中,GPT-5.4平均得分87.3%,遠高于GPT-5.2的68.4%。


法律AI平臺Harvey的應用研究主管Niko Grupen表示,GPT-5.4在該公司BigLaw Bench評估中得分91%,"在結(jié)構(gòu)化復雜交易分析、跨長篇合同保持準確性以及提供法律從業(yè)者所需的高度細節(jié)方面,目前優(yōu)于其他模型"。

知識工作與幻覺抑制:全面對標專業(yè)人士

OpenAI在多個衡量真實職場輸出的基準測試上展示了GPT-5.4的能力邊界。在GDPval測試中——該測試涵蓋44個職業(yè)的知識工作任務,包括銷售演示、會計表格、制造業(yè)圖表等真實工作產(chǎn)出——GPT-5.4在83.0%的比較中達到或超越行業(yè)專業(yè)人士水平,高于GPT-5.2的71.0%。


在演示文稿質(zhì)量評估中,人類評審在68.0%的情況下更偏好GPT-5.4的輸出,原因包括更強的視覺美感、更豐富的視覺多樣性以及更有效的圖像生成應用。

在幻覺和事實錯誤控制方面,OpenAI表示GPT-5.4是其"迄今最具事實準確性的模型":在用戶此前標記過事實錯誤的去標識化提示詞測試集上,GPT-5.4的單項陳述錯誤率較GPT-5.2降低33%,完整回應中出現(xiàn)任意錯誤的概率降低18%。

在編程能力方面,GPT-5.4在SWE-Bench Pro上的表現(xiàn)與GPT-5.3-Codex持平或更優(yōu),且在各推理強度設置下延遲更低。Codex的/fast模式可為GPT-5.4帶來最高1.5倍的token生成速度提升,該模式使用相同模型與相同智能,僅在速度層面進行優(yōu)化。GitHub首席產(chǎn)品官Mario Rodriguez表示,GPT-5.4在邏輯推理及執(zhí)行復雜多步驟工具依賴工作流方面表現(xiàn)突出,"是企業(yè)第一天就應該采用的模型"。

兩個版本分層覆蓋不同用戶需求 上下文窗口最高100萬token

GPT-5.4 Thinking面向需要深度推理的通用專業(yè)場景,GPT-5.4 Pro則專為最復雜任務設計,追求性能上限。

在ChatGPT端,GPT-5.4 Thinking從本周四起向Plus(月費20美元)、Team及Pro用戶開放,取代此前的GPT-5.2 Thinking,GPT-5.2 Thinking將在三個月后于2026年6月5日正式退役。

GPT-5.4 Pro僅限Pro(月費200美元)及Enterprise計劃用戶使用。免費用戶亦可在系統(tǒng)自動路由時有限接觸GPT-5.4。企業(yè)和教育計劃用戶可通過管理員設置提前開啟訪問權(quán)限。

在API端,GPT-5.4以gpt-5.4標識符提供,GPT-5.4 Pro以gpt-5.4-pro提供,兩者均可在Codex開發(fā)平臺使用。API最大輸出為12.8萬token,與此前模型保持一致。API及Codex同時支持最高100萬token的上下文窗口,是OpenAI迄今提供的最大上下文容量,適合跨步驟長鏈路任務的規(guī)劃、執(zhí)行與驗證。

定價高于前代,效率提升部分抵消成本增加

在API定價上,GPT-5.4的價格相較GPT-5.2有所上調(diào)。具體如下:

  • GPT-5.4:輸入2.50美元/百萬token,輸出15美元/百萬token(GPT5.2的定價為輸入1.75美元/百萬token、輸出14美元/百萬token)
  • GPT-5.4 Pro:輸入30美元/百萬token,輸出180美元/百萬token(GPT5.2 Pro為輸入21美元/百萬token、輸出168美元/百萬token)
  • Batch及Flex定價享半價優(yōu)惠,Priority(優(yōu)先)處理則按標準價格的兩倍計費


值得注意的是,當單次輸入超過27.2萬token時,超出部分將按兩倍標準費率計費。在Codex中,默認壓縮上限為27.2萬token,開發(fā)者可手動上調(diào)上限以處理更大提示詞,超出部分方觸發(fā)較高計費。

OpenAI對較高定價給出三點解釋:一是在編程、計算機操控、深度研究、高級文檔生成及工具調(diào)用等復雜任務上能力更強;二是來自研究路線圖的重大技術(shù)進步;三是更高效的推理機制在相同任務上消耗更少推理tokens,一定程度上抵消了單價上升的影響。OpenAI同時表示,即便提價,GPT-5.4的定價仍低于同等能力的競品前沿模型。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
委內(nèi)瑞拉恢復稀釋原油出口

委內(nèi)瑞拉恢復稀釋原油出口

財聯(lián)社
2026-03-07 04:14:31
88個垂發(fā)密密麻麻!朝鮮“崔賢”號又升級了,網(wǎng)友:4000噸的驅(qū)逐艦比052D火力還猛?

88個垂發(fā)密密麻麻!朝鮮“崔賢”號又升級了,網(wǎng)友:4000噸的驅(qū)逐艦比052D火力還猛?

軍武速遞
2026-03-06 19:02:57
忘恩負義?前國腳直播時炮轟昔日主帥,直言他執(zhí)教水平極為一般!

忘恩負義?前國腳直播時炮轟昔日主帥,直言他執(zhí)教水平極為一般!

羅掌柜體育
2026-03-06 13:53:43
明明就是一個輔助型球員,但火箭卻非要將他作為核心進行培養(yǎng)?

明明就是一個輔助型球員,但火箭卻非要將他作為核心進行培養(yǎng)?

稻谷與小麥
2026-03-07 00:06:49
一發(fā)癱瘓全美?美專家急喊中國停手,自己玩了60年卻不讓中國碰!

一發(fā)癱瘓全美?美專家急喊中國停手,自己玩了60年卻不讓中國碰!

古事尋蹤記
2026-03-07 07:15:33
全球首次,伊朗炸了美企巨頭數(shù)據(jù)中心

全球首次,伊朗炸了美企巨頭數(shù)據(jù)中心

觀察者網(wǎng)
2026-03-06 22:52:04
小甜甜布蘭妮酒駕被捕!酒駕現(xiàn)場畫面公開,被警方上銬帶走

小甜甜布蘭妮酒駕被捕!酒駕現(xiàn)場畫面公開,被警方上銬帶走

素素娛樂
2026-03-06 09:31:17
英媒:美國利用AI打仗是“危險的轉(zhuǎn)折點”

英媒:美國利用AI打仗是“危險的轉(zhuǎn)折點”

參考消息
2026-03-06 10:10:53
隨著蓉城5-1大勝新鵬城,中超最新積分榜出爐!申花落后榜首13分

隨著蓉城5-1大勝新鵬城,中超最新積分榜出爐!申花落后榜首13分

球場沒跑道
2026-03-06 21:38:25
韓國女星與男演員拍吻戲,形容對方嘴太大:像吸盤,仿佛要吃掉我

韓國女星與男演員拍吻戲,形容對方嘴太大:像吸盤,仿佛要吃掉我

八斗小先生
2026-03-06 17:39:40
熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

熬了8年!高速收費終于定了,2026年起,車主上高速徹底變了

趣味萌寵的日常
2026-03-07 00:09:36
晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點

晚飯七分飽被推翻了?醫(yī)生調(diào)查:過了56歲,吃飯盡量要做到這5點

蜉蝣說
2026-02-03 15:00:19
iPhone門禁卡這樣弄!NFC三步秒搞定,不用再帶一堆卡

iPhone門禁卡這樣弄!NFC三步秒搞定,不用再帶一堆卡

小柱解說游戲
2026-03-04 08:34:24
又有2名間諜被抓!潛藏中國17年,境外滲透曝光,泄密細節(jié)驚人

又有2名間諜被抓!潛藏中國17年,境外滲透曝光,泄密細節(jié)驚人

古史青云啊
2026-02-25 11:30:53
桑切斯:“全面投身于反對美以對伊朗戰(zhàn)爭”

桑切斯:“全面投身于反對美以對伊朗戰(zhàn)爭”

參考消息
2026-03-06 12:58:11
廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

廣東一女子不愿上班常年坐街邊,因長得好看被路人投喂:又懶又饞

明智家庭教育
2026-03-06 17:19:16
客戶剛收貨就被炸死了,義烏也難

客戶剛收貨就被炸死了,義烏也難

南風窗
2026-03-06 10:11:56
真炸了!油價破80,運費20萬,美軍這一炸,把中國"底牌"炸出來了

真炸了!油價破80,運費20萬,美軍這一炸,把中國"底牌"炸出來了

阿校談史
2026-03-04 11:25:00
雷軍被嚴重低估!除了小米,他還有一個千倍回報的“資本帝國”

雷軍被嚴重低估!除了小米,他還有一個千倍回報的“資本帝國”

混沌錄
2026-03-05 21:57:07
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
2026-03-07 07:55:02
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業(yè)信息提供商
142595文章數(shù) 2652771關(guān)注度
往期回顧 全部

科技要聞

OpenClaw爆火,六位"養(yǎng)蝦人"自述與AI共生

頭條要聞

伊朗大規(guī)模發(fā)射新一代導彈 摧毀美軍大量設施、裝備

頭條要聞

伊朗大規(guī)模發(fā)射新一代導彈 摧毀美軍大量設施、裝備

體育要聞

跑了24年,他終于成為英超“最長的河”

娛樂要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財經(jīng)要聞

關(guān)于經(jīng)濟、股市等,五部門都說了啥?

汽車要聞

逃離ICU,上汽通用“止血”企穩(wěn)

態(tài)度原創(chuàng)

健康
藝術(shù)
游戲
房產(chǎn)
軍事航空

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

藝術(shù)要聞

陳獨秀寫給青年毛澤東的對聯(lián),一語雙關(guān),陳氏書法“天花板”!

曝下代Xbox靠純算力制霸!性能“爆殺”PS6

房產(chǎn)要聞

傳統(tǒng)學區(qū)房熄火?2月海口二手房爆火的板塊竟然是…

軍事要聞

伊朗:使用無人機擊中美軍"林肯"號航母

無障礙瀏覽 進入關(guān)懷版