国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenClaw絕配!GPT-5.4問(wèn)世,AI能力開(kāi)始大一統(tǒng),就是太貴

0
分享至

機(jī)器之心編輯部

周五凌晨,OpenAI 正式發(fā)布 GPT-5.4,引入了一種新模式:原生的計(jì)算機(jī)使用。



有意思的是,這次 GPT-5.4 的上新,恰好發(fā)生在知名開(kāi)發(fā)者 Peter Steinberger 加入 OpenAI 不久之后。這很難不讓人猜測(cè),Peter 的加入會(huì)對(duì) OpenAI 在計(jì)算機(jī)使用和開(kāi)發(fā)者工具方向上的布局產(chǎn)生多少影響。Peter 本人也進(jìn)行了宣傳:



還有網(wǎng)友表示:GPT-5.4 的發(fā)布,到處都有 Peter Steinberger 的「爪印」!GPT-5.4 看起來(lái)就像是 OpenClaw 的架構(gòu)文檔被直接做成了一個(gè)前沿模型,而這一切發(fā)生在 Peter 加入 OpenAI 僅僅 3 周之后。該網(wǎng)友還進(jìn)行了一些對(duì)比,比如以前所有工具定義都必須塞進(jìn) prompt 里,浪費(fèi)成千上萬(wàn)的 token,現(xiàn)在是 GPT-5.4 可以按需查找工具定義,token 使用量減少 47%。而 OpenClaw 從第一天起就通過(guò)描述匹配動(dòng)態(tài)加載技能(skills)。

又比如,過(guò)去,模型本身并沒(méi)有原生能力去直接操作軟件或執(zhí)行完整的開(kāi)發(fā)流程。而在 GPT-5.4 中,智能體已經(jīng)可以在不同應(yīng)用之間自動(dòng)運(yùn)行「構(gòu)建 → 運(yùn)行 → 驗(yàn)證 → 修復(fù)」的循環(huán),實(shí)現(xiàn)較為完整的任務(wù)閉環(huán)。值得注意的是,這種工作模式與 OpenClaw 的設(shè)計(jì)非常相似。



而這些變化,也正好引出了 GPT-5.4 最核心的一點(diǎn):原生計(jì)算機(jī)使用能力(Computer Use)。

新一代大模型在知識(shí)工作和網(wǎng)絡(luò)搜索方面表現(xiàn)更出色,具備原生的計(jì)算機(jī)使用能力。GPT-5.4 現(xiàn)在可以直接操作軟件、使用工具、瀏覽網(wǎng)頁(yè)、執(zhí)行工作流程,并規(guī)劃跨應(yīng)用程序的復(fù)雜任務(wù),最多可處理 100 萬(wàn)個(gè)上下文 token。

推理 + 編碼 + 智能體 + 計(jì)算機(jī)控制,全都融合在同一個(gè)前沿模型里。

目前,GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供,并正在 ChatGPT 中逐步推出(面向 ChatGPT Plus、Team 和 Pro 用戶開(kāi)放),取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro(面向 Pro 和企業(yè)版用戶開(kāi)放),其專為那些希望在復(fù)雜任務(wù)中實(shí)現(xiàn)極致性能的用戶設(shè)計(jì)。

在 API 中,GPT-5.4 的 token 價(jià)格高于 GPT-5.2,批量處理和靈活處理的價(jià)格為標(biāo)準(zhǔn) API 費(fèi)率的一半,而優(yōu)先處理的價(jià)格為標(biāo)準(zhǔn) API 費(fèi)率的兩倍。



在評(píng)測(cè)基準(zhǔn)上,GPT 5.4 Pro 以 38% 的成績(jī)輕松擊敗了最難的數(shù)學(xué)基準(zhǔn)測(cè)試 FrontierMath Tier 4—— 該基準(zhǔn)包含 50 道研究級(jí)別的數(shù)學(xué)題,數(shù)學(xué)家可能需要幾周時(shí)間才能解決。僅僅在一年前,最佳成績(jī)?yōu)?2% (o3) ,目前最佳的開(kāi)源模型分?jǐn)?shù)為 4.2% (Kimi K2.5)。





作為通用模型,GPT-5.4 具備原生的計(jì)算機(jī)使用能力,這對(duì)于開(kāi)發(fā)者和智能體而言是一次重大飛躍。

OpenAI 表示,新模型能在各種計(jì)算機(jī)工作負(fù)載下保持高性能。它非常擅長(zhǎng)編寫代碼來(lái)操作計(jì)算機(jī)(例如通過(guò) Playwright 等庫(kù)),也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。它的行為可以通過(guò)開(kāi)發(fā)者消息進(jìn)行控制,這意味著開(kāi)發(fā)者可以根據(jù)特定用例調(diào)整其行為。開(kāi)發(fā)者甚至可以通過(guò)指定自定義確認(rèn)策略來(lái)配置模型的安全行為,以適應(yīng)不同的風(fēng)險(xiǎn)承受能力。

該模型的性能和靈活性體現(xiàn)在各項(xiàng)基準(zhǔn)測(cè)試中,在 OSWorld-Verified 測(cè)試中,該測(cè)試通過(guò)屏幕截圖和鍵盤 / 鼠標(biāo)操作來(lái)衡量模型在桌面環(huán)境中導(dǎo)航的能力,GPT-5.4 取得了 75.0% 的領(lǐng)先成功率,遠(yuǎn)超 GPT-5.2 的 47.3%,也超越了人類的 72.4%。



在 GDPval 測(cè)試中,GPT-5.4 在 83.0% 的比較中達(dá)到或超過(guò)了行業(yè)專業(yè)人士的水平,而 GPT-5.2 的這一比例為 70.9%。



GPT-5.4 計(jì)算機(jī)性能的提升得益于其增強(qiáng)的通用視覺(jué)感知能力。在 MMMU-Pro 測(cè)試中,GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率,優(yōu)于 GPT-5.2 的 79.5%。

視覺(jué)感知能力的提升也體現(xiàn)在其文檔解析能力的增強(qiáng)上。在 OmniDocBench 測(cè)試中,GPT-5.4 在不使用任何推理工具的情況下,平均誤差為 0.109,優(yōu)于 GPT-5.2 的 0.140。



代碼生成方面,GPT-5.4 結(jié)合了 GPT-5.3-Codex 的編碼優(yōu)勢(shì),并具備領(lǐng)先的知識(shí)處理和計(jì)算機(jī)使用能力,這在長(zhǎng)時(shí)間運(yùn)行的任務(wù)中尤為重要,因?yàn)槟P涂梢岳霉ぞ摺⒌⑼七M(jìn)工作,從而減少人工干預(yù)。在 SWE-Bench Pro 測(cè)試中,GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優(yōu),同時(shí)在推理過(guò)程中延遲更低。



啟用 Codex 中的 /fast 模式后,GPT-5.4 的 token 處理速度最高可提升 1.5 倍。它采用的是相同的模型和智能,只是速度更快。這意味著用戶可以更流暢地完成編碼任務(wù)、迭代和調(diào)試,保持高效的工作流程。



使用 GPT-5.4 生成的 RPG 游戲,經(jīng)過(guò)多回合迭代開(kāi)發(fā)。



根據(jù)一個(gè)簡(jiǎn)單的提示,制作的金門大橋飛行體驗(yàn)。

在 API 中,GPT-5.4 引入了工具搜索功能。這使得模型能夠在擁有眾多工具的情況下高效運(yùn)行。

以前,當(dāng)給模型分配工具時(shí),所有工具的定義都會(huì)預(yù)先包含在請(qǐng)求請(qǐng)求中。對(duì)于擁有大量工具的系統(tǒng),這可能會(huì)在每個(gè)請(qǐng)求中增加數(shù)千甚至數(shù)萬(wàn) token,從而增加成本、降低響應(yīng)速度,并使上下文信息過(guò)于擁擠,而這些信息模型可能永遠(yuǎn)不會(huì)用到。

通過(guò)工具搜索,GPT-5.4 會(huì)收到一個(gè)輕量級(jí)的可用工具列表以及相應(yīng)的工具搜索功能。當(dāng)模型需要使用某個(gè)工具時(shí),它可以查找該工具的定義,并將其添加到當(dāng)前的對(duì)話中。

這種方法顯著減少了工具密集型工作流程所需的 token 數(shù)量。它還使智能體能夠可靠地與規(guī)模更大的工具生態(tài)系統(tǒng)協(xié)同工作。對(duì)于可能包含數(shù)萬(wàn)個(gè)工具定義令牌的 MCP 服務(wù)器而言,效率提升可能非常顯著。

OpenAI 評(píng)估了 Scale 的 MCP Atlas 中的 250 項(xiàng)任務(wù),工具搜索配置在保持相同準(zhǔn)確率的同時(shí),將總 token 使用量減少了 47%。



GPT-5.4 改進(jìn)了工具調(diào)用,使其在推理過(guò)程中(尤其是在 API 調(diào)用中)能夠更準(zhǔn)確、更高效地決定何時(shí)以及如何使用工具。與 GPT-5.2 相比,它在 Toolathlon 測(cè)試中以更少的回合數(shù)實(shí)現(xiàn)了更高的準(zhǔn)確率。





GPT-5.4 在自主網(wǎng)絡(luò)搜索方面也表現(xiàn)更佳。在 BrowseComp 測(cè)試中,GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達(dá)到了 89.3%,創(chuàng)下了新的最高水平。

這意味著 GPT-5.4 Thinking 更擅長(zhǎng)回答需要整合網(wǎng)絡(luò)上多個(gè)信息源的問(wèn)題。它可以更持久地進(jìn)行多輪搜索,以識(shí)別最相關(guān)的信息源,尤其適用于「大海撈針」式的問(wèn)題,并將它們綜合成清晰、論證充分的答案。



在 ChatGPT 中,GPT-5.4 Thinking 現(xiàn)在可以預(yù)先提供其思考計(jì)劃,你可以在它運(yùn)行過(guò)程中隨時(shí)調(diào)整方向,最終無(wú)需額外迭代即可獲得更符合需求的答案。GPT-5.4 Thinking 還改進(jìn)了深度網(wǎng)絡(luò)搜索,尤其是在處理高度具體的查詢時(shí),同時(shí)能夠更好地保留需要長(zhǎng)時(shí)間思考的問(wèn)題的上下文信息。這些改進(jìn)共同作用,意味著能夠更快地獲得更高質(zhì)量、更貼合當(dāng)前任務(wù)的答案。

在 Codex 和 API 中,GPT-5.4 是首個(gè)具備原生、最先進(jìn)的計(jì)算機(jī)使用能力的通用模型,它使智能體能夠操作計(jì)算機(jī)并在各種應(yīng)用程序中執(zhí)行復(fù)雜的流程。GPT-5.4 還通過(guò)工具搜索功能改進(jìn)了模型在大型工具和連接器生態(tài)系統(tǒng)中的運(yùn)行方式,幫助智能體更高效地找到并使用合適的工具,同時(shí)又不犧牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型,與 GPT-5.2 相比,它解決問(wèn)題所需的 token 數(shù)量顯著減少,這意味著更少的費(fèi)用和更快的速度。

結(jié)合通用推理、編碼和專業(yè)知識(shí)工作的進(jìn)步,GPT-5.4 能夠?qū)崿F(xiàn)更可靠的智能體、更快的開(kāi)發(fā)者工作流程以及 ChatGPT、API 和 Codex 的更高質(zhì)量輸出。



OpenAI 重點(diǎn)提升了 GPT-5.4 創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。在一系列演示文稿評(píng)估提示中,由于 GPT-5.4 的演示文稿具有更強(qiáng)的美觀性、更豐富的視覺(jué)效果以及更高效的圖像生成功能,獲得了人類評(píng)分者的青睞。



OpenAI 研究科學(xué)家,德?lián)?AI Libratus 的發(fā)明者 Noam Brown 表示,GPT-5.4 在計(jì)算機(jī)應(yīng)用和經(jīng)濟(jì)價(jià)值任務(wù)(例如 GDPval)上已取得了巨大進(jìn)步。鑒于此,科學(xué)家們認(rèn)為人工智能的發(fā)展前景廣闊,預(yù)計(jì)今年內(nèi) AI 能力將繼續(xù)大幅提升。

智力的指數(shù)增長(zhǎng)還在繼續(xù)。有人表示,ChatGPT 很快就會(huì)比最好的咨詢公司、最好的投資銀行和最好的律師事務(wù)所都更出色。

最后,很多人已經(jīng)在使用 GPT-5.4 嘗試各種任務(wù)了,不知道新一代模型具體表現(xiàn)如何。



有人已經(jīng)認(rèn)為,GPT-5.4 Pro 達(dá)到了 AGI 級(jí)別的智能?,F(xiàn)在,你有什么 AGI 級(jí)別的問(wèn)題要問(wèn)嗎?

參考內(nèi)容:

https://openai.com/index/introducing-gpt-5-4/

https://openai.com/index/gpt-5-4-thinking-system-card/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2次被央媒批評(píng)!張本智和:就算我本來(lái)就是日本人,也逃不了網(wǎng)暴

2次被央媒批評(píng)!張本智和:就算我本來(lái)就是日本人,也逃不了網(wǎng)暴

翰飛觀事
2026-03-05 15:30:37
萬(wàn)萬(wàn)沒(méi)想到!兩會(huì)最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動(dòng)

萬(wàn)萬(wàn)沒(méi)想到!兩會(huì)最火提案不是醫(yī)療和就業(yè),而是霍啟剛的這一舉動(dòng)

瀲滟晴方DAY
2026-03-05 18:42:38
美軍總結(jié):我們最大的錯(cuò)誤,以為志愿軍只是人民軍二流部隊(duì)水平

美軍總結(jié):我們最大的錯(cuò)誤,以為志愿軍只是人民軍二流部隊(duì)水平

雍親王府
2026-03-06 08:55:06
浙江17歲高中生率先發(fā)現(xiàn)新物種,聯(lián)合發(fā)文登上SCI,當(dāng)事人回應(yīng)質(zhì)疑:父母是普通人

浙江17歲高中生率先發(fā)現(xiàn)新物種,聯(lián)合發(fā)文登上SCI,當(dāng)事人回應(yīng)質(zhì)疑:父母是普通人

瀟湘晨報(bào)
2026-03-06 11:55:53
原來(lái)早已不是中國(guó)籍,被老外“玩膩”后回國(guó),鄭緒嵐現(xiàn)狀令人唏噓

原來(lái)早已不是中國(guó)籍,被老外“玩膩”后回國(guó),鄭緒嵐現(xiàn)狀令人唏噓

暖心萌阿菇?jīng)?/span>
2026-03-02 23:02:48
“人體藝術(shù)”,絕非色情!

“人體藝術(shù)”,絕非色情!

文刀萬(wàn)
2026-03-06 06:05:03
上海反對(duì)上海:“兩個(gè)三十年”與新上海人的幻夢(mèng)破碎

上海反對(duì)上海:“兩個(gè)三十年”與新上海人的幻夢(mèng)破碎

虔青
2026-03-06 09:26:32
霍爾木茲的炮火,炸出了中國(guó)造船業(yè)的春天!

霍爾木茲的炮火,炸出了中國(guó)造船業(yè)的春天!

包不同
2026-03-06 00:54:59
獨(dú)居和空巢老人超1.3億,全國(guó)政協(xié)委員、尚品宅配李連柱:建議加快培育家庭陪伴機(jī)器人產(chǎn)業(yè)

獨(dú)居和空巢老人超1.3億,全國(guó)政協(xié)委員、尚品宅配李連柱:建議加快培育家庭陪伴機(jī)器人產(chǎn)業(yè)

時(shí)代財(cái)經(jīng)
2026-03-05 23:17:02
海來(lái)阿木雙面人生:春晚勞模遭全網(wǎng)吐槽

海來(lái)阿木雙面人生:春晚勞模遭全網(wǎng)吐槽

小椰的奶奶
2026-03-06 09:17:21
第20波打擊!以色列本土告急,美軍航母被擊中?特朗普向31國(guó)求助

第20波打擊!以色列本土告急,美軍航母被擊中?特朗普向31國(guó)求助

頭條爆料007
2026-03-06 07:35:28
曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

曾經(jīng)走紅,如今卻“淪為笑柄”的4種數(shù)碼產(chǎn)品,還是別再買了

美家指南
2026-03-06 10:31:36
烏克蘭在地中海襲擊俄液化氣船

烏克蘭在地中海襲擊俄液化氣船

參考消息
2026-03-05 13:29:16
24小時(shí)內(nèi),美俄伊都喊話中國(guó),世界終于看清:特朗普真正怕的是啥

24小時(shí)內(nèi),美俄伊都喊話中國(guó),世界終于看清:特朗普真正怕的是啥

浪子阿邴聊體育
2026-03-05 09:02:03
約基奇:湖人是一支很難擊敗的對(duì)手,我們靠關(guān)鍵防守贏下比賽

約基奇:湖人是一支很難擊敗的對(duì)手,我們靠關(guān)鍵防守贏下比賽

懂球帝
2026-03-06 14:23:09
96小時(shí)內(nèi),哈梅殯葬準(zhǔn)時(shí)舉行,普京去不了現(xiàn)場(chǎng),中國(guó)做出重大承諾

96小時(shí)內(nèi),哈梅殯葬準(zhǔn)時(shí)舉行,普京去不了現(xiàn)場(chǎng),中國(guó)做出重大承諾

小嵩
2026-03-06 02:07:55
世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

世界5大禁片,全看完的人,心理素質(zhì)堪比特種兵

i書與房
2026-01-26 15:07:05
伊朗軍方:擊中美軍“林肯”號(hào)航母!道指盤中狂瀉千點(diǎn),原油暴漲8.5%創(chuàng)近六年最大單日漲幅

伊朗軍方:擊中美軍“林肯”號(hào)航母!道指盤中狂瀉千點(diǎn),原油暴漲8.5%創(chuàng)近六年最大單日漲幅

金融界
2026-03-06 08:12:10
密春雷百億帝國(guó)倒塌,董卿卻在大年初二親手下廚,是怎樣心態(tài)?

密春雷百億帝國(guó)倒塌,董卿卻在大年初二親手下廚,是怎樣心態(tài)?

南權(quán)先生
2026-03-04 15:26:24
5-0!女足亞洲杯誕生最大慘案,8強(qiáng)定3席,中國(guó)隊(duì)升頭名條件曝光

5-0!女足亞洲杯誕生最大慘案,8強(qiáng)定3席,中國(guó)隊(duì)升頭名條件曝光

侃球熊弟
2026-03-06 12:13:05
2026-03-06 14:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12425文章數(shù) 142578關(guān)注度
往期回顧 全部

科技要聞

獨(dú)家|除夕加班、毫無(wú)黑料!林俊旸無(wú)奈離場(chǎng)

頭條要聞

伊軍指揮官:這幾天只是清庫(kù)存 會(huì)亮從未公開(kāi)的大殺器

頭條要聞

伊軍指揮官:這幾天只是清庫(kù)存 會(huì)亮從未公開(kāi)的大殺器

體育要聞

跑了24年,他終于成為英超“最長(zhǎng)的河”

娛樂(lè)要聞

周杰倫社交媒體曬昆凌,夫妻感情穩(wěn)定

財(cái)經(jīng)要聞

黃金,牛市沒(méi)了?!

汽車要聞

710km長(zhǎng)續(xù)航+閃充 宋Ultra EV預(yù)售15.5萬(wàn)起

態(tài)度原創(chuàng)

健康
藝術(shù)
旅游
教育
手機(jī)

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

藝術(shù)要聞

敦煌壁畫里的“動(dòng)物世界”,溫馨有愛(ài)!

旅游要聞

【微特稿】連續(xù)6年赤字 德國(guó)科隆大教堂將收門票

教育要聞

北京科技職業(yè)學(xué)院:打造民辦高職“就業(yè)力”新標(biāo)桿

手機(jī)要聞

一加15T爆料匯總!小直屏大容量電池超吸睛

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版