網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenClaw絕配！GPT-5.4問(wèn)世，AI能力開(kāi)始大一統(tǒng)，就是太貴

2026-03-06 12:00:27　來(lái)源: 機(jī)器之心Pro

河北舉報(bào)

分享至

機(jī)器之心編輯部

周五凌晨，OpenAI 正式發(fā)布 GPT-5.4，引入了一種新模式：原生的計(jì)算機(jī)使用。

有意思的是，這次 GPT-5.4 的上新，恰好發(fā)生在知名開(kāi)發(fā)者 Peter Steinberger 加入 OpenAI 不久之后。這很難不讓人猜測(cè)，Peter 的加入會(huì)對(duì) OpenAI 在計(jì)算機(jī)使用和開(kāi)發(fā)者工具方向上的布局產(chǎn)生多少影響。Peter 本人也進(jìn)行了宣傳：

還有網(wǎng)友表示：GPT-5.4 的發(fā)布，到處都有 Peter Steinberger 的「爪印」！GPT-5.4 看起來(lái)就像是 OpenClaw 的架構(gòu)文檔被直接做成了一個(gè)前沿模型，而這一切發(fā)生在 Peter 加入 OpenAI 僅僅 3 周之后。該網(wǎng)友還進(jìn)行了一些對(duì)比，比如以前所有工具定義都必須塞進(jìn) prompt 里，浪費(fèi)成千上萬(wàn)的 token，現(xiàn)在是 GPT-5.4 可以按需查找工具定義，token 使用量減少 47%。而 OpenClaw 從第一天起就通過(guò)描述匹配動(dòng)態(tài)加載技能（skills）。

又比如，過(guò)去，模型本身并沒(méi)有原生能力去直接操作軟件或執(zhí)行完整的開(kāi)發(fā)流程。而在 GPT-5.4 中，智能體已經(jīng)可以在不同應(yīng)用之間自動(dòng)運(yùn)行「構(gòu)建 → 運(yùn)行 → 驗(yàn)證 → 修復(fù)」的循環(huán)，實(shí)現(xiàn)較為完整的任務(wù)閉環(huán)。值得注意的是，這種工作模式與 OpenClaw 的設(shè)計(jì)非常相似。

而這些變化，也正好引出了 GPT-5.4 最核心的一點(diǎn)：原生計(jì)算機(jī)使用能力（Computer Use）。

新一代大模型在知識(shí)工作和網(wǎng)絡(luò)搜索方面表現(xiàn)更出色，具備原生的計(jì)算機(jī)使用能力。GPT-5.4 現(xiàn)在可以直接操作軟件、使用工具、瀏覽網(wǎng)頁(yè)、執(zhí)行工作流程，并規(guī)劃跨應(yīng)用程序的復(fù)雜任務(wù)，最多可處理 100 萬(wàn)個(gè)上下文 token。

推理 + 編碼 + 智能體 + 計(jì)算機(jī)控制，全都融合在同一個(gè)前沿模型里。

目前，GPT-5.4 已在 OpenAI 的 API 和 Codex 中提供，并正在 ChatGPT 中逐步推出（面向 ChatGPT Plus、Team 和 Pro 用戶開(kāi)放），取代了 GPT-5.2 Thinking 模型。OpenAI 也在 ChatGPT 和 API 中推出了 GPT-5.4 Pro（面向 Pro 和企業(yè)版用戶開(kāi)放），其專為那些希望在復(fù)雜任務(wù)中實(shí)現(xiàn)極致性能的用戶設(shè)計(jì)。

在 API 中，GPT-5.4 的 token 價(jià)格高于 GPT-5.2，批量處理和靈活處理的價(jià)格為標(biāo)準(zhǔn) API 費(fèi)率的一半，而優(yōu)先處理的價(jià)格為標(biāo)準(zhǔn) API 費(fèi)率的兩倍。

在評(píng)測(cè)基準(zhǔn)上，GPT 5.4 Pro 以 38% 的成績(jī)輕松擊敗了最難的數(shù)學(xué)基準(zhǔn)測(cè)試 FrontierMath Tier 4—— 該基準(zhǔn)包含 50 道研究級(jí)別的數(shù)學(xué)題，數(shù)學(xué)家可能需要幾周時(shí)間才能解決。僅僅在一年前，最佳成績(jī)?yōu)?2% (o3) ，目前最佳的開(kāi)源模型分?jǐn)?shù)為 4.2% (Kimi K2.5)。

作為通用模型，GPT-5.4 具備原生的計(jì)算機(jī)使用能力，這對(duì)于開(kāi)發(fā)者和智能體而言是一次重大飛躍。

OpenAI 表示，新模型能在各種計(jì)算機(jī)工作負(fù)載下保持高性能。它非常擅長(zhǎng)編寫代碼來(lái)操作計(jì)算機(jī)（例如通過(guò) Playwright 等庫(kù)），也能根據(jù)屏幕截圖發(fā)出鼠標(biāo)和鍵盤命令。它的行為可以通過(guò)開(kāi)發(fā)者消息進(jìn)行控制，這意味著開(kāi)發(fā)者可以根據(jù)特定用例調(diào)整其行為。開(kāi)發(fā)者甚至可以通過(guò)指定自定義確認(rèn)策略來(lái)配置模型的安全行為，以適應(yīng)不同的風(fēng)險(xiǎn)承受能力。

該模型的性能和靈活性體現(xiàn)在各項(xiàng)基準(zhǔn)測(cè)試中，在 OSWorld-Verified 測(cè)試中，該測(cè)試通過(guò)屏幕截圖和鍵盤 / 鼠標(biāo)操作來(lái)衡量模型在桌面環(huán)境中導(dǎo)航的能力，GPT-5.4 取得了 75.0% 的領(lǐng)先成功率，遠(yuǎn)超 GPT-5.2 的 47.3%，也超越了人類的 72.4%。

在 GDPval 測(cè)試中，GPT-5.4 在 83.0% 的比較中達(dá)到或超過(guò)了行業(yè)專業(yè)人士的水平，而 GPT-5.2 的這一比例為 70.9%。

GPT-5.4 計(jì)算機(jī)性能的提升得益于其增強(qiáng)的通用視覺(jué)感知能力。在 MMMU-Pro 測(cè)試中，GPT-5.4 在不使用任何工具的情況下取得了 81.2% 的成功率，優(yōu)于 GPT-5.2 的 79.5%。

視覺(jué)感知能力的提升也體現(xiàn)在其文檔解析能力的增強(qiáng)上。在 OmniDocBench 測(cè)試中，GPT-5.4 在不使用任何推理工具的情況下，平均誤差為 0.109，優(yōu)于 GPT-5.2 的 0.140。

代碼生成方面，GPT-5.4 結(jié)合了 GPT-5.3-Codex 的編碼優(yōu)勢(shì)，并具備領(lǐng)先的知識(shí)處理和計(jì)算機(jī)使用能力，這在長(zhǎng)時(shí)間運(yùn)行的任務(wù)中尤為重要，因?yàn)槟Ｐ涂梢岳霉ぞ摺⒌⑼七M(jìn)工作，從而減少人工干預(yù)。在 SWE-Bench Pro 測(cè)試中，GPT-5.4 的性能與 GPT-5.3-Codex 持平或更優(yōu)，同時(shí)在推理過(guò)程中延遲更低。

啟用 Codex 中的 /fast 模式后，GPT-5.4 的 token 處理速度最高可提升 1.5 倍。它采用的是相同的模型和智能，只是速度更快。這意味著用戶可以更流暢地完成編碼任務(wù)、迭代和調(diào)試，保持高效的工作流程。

使用 GPT-5.4 生成的 RPG 游戲，經(jīng)過(guò)多回合迭代開(kāi)發(fā)。

根據(jù)一個(gè)簡(jiǎn)單的提示，制作的金門大橋飛行體驗(yàn)。

在 API 中，GPT-5.4 引入了工具搜索功能。這使得模型能夠在擁有眾多工具的情況下高效運(yùn)行。

以前，當(dāng)給模型分配工具時(shí)，所有工具的定義都會(huì)預(yù)先包含在請(qǐng)求請(qǐng)求中。對(duì)于擁有大量工具的系統(tǒng)，這可能會(huì)在每個(gè)請(qǐng)求中增加數(shù)千甚至數(shù)萬(wàn) token，從而增加成本、降低響應(yīng)速度，并使上下文信息過(guò)于擁擠，而這些信息模型可能永遠(yuǎn)不會(huì)用到。

通過(guò)工具搜索，GPT-5.4 會(huì)收到一個(gè)輕量級(jí)的可用工具列表以及相應(yīng)的工具搜索功能。當(dāng)模型需要使用某個(gè)工具時(shí)，它可以查找該工具的定義，并將其添加到當(dāng)前的對(duì)話中。

這種方法顯著減少了工具密集型工作流程所需的 token 數(shù)量。它還使智能體能夠可靠地與規(guī)模更大的工具生態(tài)系統(tǒng)協(xié)同工作。對(duì)于可能包含數(shù)萬(wàn)個(gè)工具定義令牌的 MCP 服務(wù)器而言，效率提升可能非常顯著。

OpenAI 評(píng)估了 Scale 的 MCP Atlas 中的 250 項(xiàng)任務(wù)，工具搜索配置在保持相同準(zhǔn)確率的同時(shí)，將總 token 使用量減少了 47%。

GPT-5.4 改進(jìn)了工具調(diào)用，使其在推理過(guò)程中（尤其是在 API 調(diào)用中）能夠更準(zhǔn)確、更高效地決定何時(shí)以及如何使用工具。與 GPT-5.2 相比，它在 Toolathlon 測(cè)試中以更少的回合數(shù)實(shí)現(xiàn)了更高的準(zhǔn)確率。

GPT-5.4 在自主網(wǎng)絡(luò)搜索方面也表現(xiàn)更佳。在 BrowseComp 測(cè)試中，GPT-5.4 比 GPT-5.2 提升了 17% 而 GPT-5.4 Pro 則達(dá)到了 89.3%，創(chuàng)下了新的最高水平。

這意味著 GPT-5.4 Thinking 更擅長(zhǎng)回答需要整合網(wǎng)絡(luò)上多個(gè)信息源的問(wèn)題。它可以更持久地進(jìn)行多輪搜索，以識(shí)別最相關(guān)的信息源，尤其適用于「大海撈針」式的問(wèn)題，并將它們綜合成清晰、論證充分的答案。

在 ChatGPT 中，GPT-5.4 Thinking 現(xiàn)在可以預(yù)先提供其思考計(jì)劃，你可以在它運(yùn)行過(guò)程中隨時(shí)調(diào)整方向，最終無(wú)需額外迭代即可獲得更符合需求的答案。GPT-5.4 Thinking 還改進(jìn)了深度網(wǎng)絡(luò)搜索，尤其是在處理高度具體的查詢時(shí)，同時(shí)能夠更好地保留需要長(zhǎng)時(shí)間思考的問(wèn)題的上下文信息。這些改進(jìn)共同作用，意味著能夠更快地獲得更高質(zhì)量、更貼合當(dāng)前任務(wù)的答案。

在 Codex 和 API 中，GPT-5.4 是首個(gè)具備原生、最先進(jìn)的計(jì)算機(jī)使用能力的通用模型，它使智能體能夠操作計(jì)算機(jī)并在各種應(yīng)用程序中執(zhí)行復(fù)雜的流程。GPT-5.4 還通過(guò)工具搜索功能改進(jìn)了模型在大型工具和連接器生態(tài)系統(tǒng)中的運(yùn)行方式，幫助智能體更高效地找到并使用合適的工具，同時(shí)又不犧牲智能水平。

GPT-5.4 也是目前 OpenAI token 效率最高的推理模型，與 GPT-5.2 相比，它解決問(wèn)題所需的 token 數(shù)量顯著減少，這意味著更少的費(fèi)用和更快的速度。

結(jié)合通用推理、編碼和專業(yè)知識(shí)工作的進(jìn)步，GPT-5.4 能夠?qū)崿F(xiàn)更可靠的智能體、更快的開(kāi)發(fā)者工作流程以及 ChatGPT、API 和 Codex 的更高質(zhì)量輸出。

OpenAI 重點(diǎn)提升了 GPT-5.4 創(chuàng)建和編輯電子表格、演示文稿和文檔的能力。在一系列演示文稿評(píng)估提示中，由于 GPT-5.4 的演示文稿具有更強(qiáng)的美觀性、更豐富的視覺(jué)效果以及更高效的圖像生成功能，獲得了人類評(píng)分者的青睞。

OpenAI 研究科學(xué)家，德?lián)?AI Libratus 的發(fā)明者 Noam Brown 表示，GPT-5.4 在計(jì)算機(jī)應(yīng)用和經(jīng)濟(jì)價(jià)值任務(wù)（例如 GDPval）上已取得了巨大進(jìn)步。鑒于此，科學(xué)家們認(rèn)為人工智能的發(fā)展前景廣闊，預(yù)計(jì)今年內(nèi) AI 能力將繼續(xù)大幅提升。

智力的指數(shù)增長(zhǎng)還在繼續(xù)。有人表示，ChatGPT 很快就會(huì)比最好的咨詢公司、最好的投資銀行和最好的律師事務(wù)所都更出色。

最后，很多人已經(jīng)在使用 GPT-5.4 嘗試各種任務(wù)了，不知道新一代模型具體表現(xiàn)如何。

有人已經(jīng)認(rèn)為，GPT-5.4 Pro 達(dá)到了 AGI 級(jí)別的智能?，F(xiàn)在，你有什么 AGI 級(jí)別的問(wèn)題要問(wèn)嗎？

參考內(nèi)容：

https://openai.com/index/introducing-gpt-5-4/

https://openai.com/index/gpt-5-4-thinking-system-card/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.