国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

世界還在為“龍蝦”狂歡,“AI操作系統(tǒng)”戰(zhàn)爭(zhēng)已悄然打響

0
分享至

OpenAI明里暗里預(yù)熱了很久的GPT-5.4,終于在上周五正式亮相了。它的能力提升自不必說(shuō),但有意思的是,這次發(fā)布的新版本,和當(dāng)下爆火的應(yīng)用“龍蝦”(OpenClaw),有著剪不斷的關(guān)聯(lián)。而這一切的核心,就藏在OpenAI官方介紹中反復(fù)強(qiáng)調(diào)的一個(gè)關(guān)鍵能力上:“Computer-Use”(計(jì)算機(jī)使用)。

在展開(kāi)之前,我們先亮出核心觀點(diǎn),也是本文想要傳達(dá)的主旨:透過(guò)GPT-5.4,我們可以看到,OpenAI正在打造的,早已不是一個(gè)更聰明的聊天模型,而是一個(gè)全新的“AI操作系統(tǒng)”(AI OS)。

從長(zhǎng)上下文、工具調(diào)用到原生操控電腦,這一切都是在為這個(gè)“操作系統(tǒng)”鋪路。當(dāng)世界還在為OpenClaw的爆火而歡呼,為Agent的概念而興奮時(shí),OpenAI已經(jīng)將Agent的核心能力(Computer-Use)內(nèi)建于模型底層。

世界或許還渾然不知,但我們正站在一個(gè)新時(shí)代的起點(diǎn):AI即將從“產(chǎn)品應(yīng)用”蛻變?yōu)椤安僮髌脚_(tái)”。

操作系統(tǒng)”的內(nèi)核:

推理+編碼+工作流

相比Google的Gemini 精通于世界知識(shí),OpenAI 的ChatGPT系列經(jīng)常會(huì)被定義為“理科生”。

雖然自升級(jí)到 GPT-5 以后,它給人提供情緒價(jià)值的能力略有減弱,但編程和數(shù)學(xué)能力仍然極為出色。

這一次,為了讓能力溢出的 AI 能夠在 Agent 時(shí)代順利落地到具體應(yīng)用上,GPT-5.4 實(shí)現(xiàn)了一項(xiàng)核心技術(shù)突破:

將推理、編碼、智能體工作流三方面能力整合至單一模型架構(gòu)之中 。

簡(jiǎn)單來(lái)說(shuō),GPT-5.4 更全能了,而且在特定領(lǐng)域的能力也更強(qiáng)了,它不再是一個(gè)單一功能的工具,而是一個(gè)具備通用能力的“操作系統(tǒng)內(nèi)核”。

在推理層面,為了更好地落實(shí)到應(yīng)用層面、讓模型具備執(zhí)行復(fù)雜任務(wù)的能力,OpenAI 特意強(qiáng)化了 GPT-5.4 的上下文理解能力。

面對(duì) 100萬(wàn) token 量級(jí)的復(fù)雜任務(wù)(相當(dāng)于可以一次性處理整套項(xiàng)目文檔或長(zhǎng)時(shí)財(cái)務(wù)記錄),模型能夠整合海量的數(shù)據(jù)并正確進(jìn)行信息去重 。對(duì)于單條事實(shí)聲稱的錯(cuò)誤率相比 GPT-5.2 降低了 33%,在高專業(yè)度場(chǎng)景下的輸出更加可信。

除此之外,GPT-5.4 已經(jīng)可以在 CodeX 中設(shè)置支持 1M 的上下文窗口,不過(guò)需要用戶在 config.toml 中手動(dòng)設(shè)置,否則默認(rèn)仍為 256k。


具體到知識(shí)工作,在面向 44 種職業(yè)的 GDPval 基準(zhǔn)測(cè)試中,GPT-5.4 能夠在 83% 以上的場(chǎng)景中達(dá)到甚至超越行業(yè)專家水平 。

相比于 GPT-5.2 的 70.9% 水平,這一提升幅度已經(jīng)十分顯著。不過(guò)令人有些疑惑的是,GPT-5.4 的 Pro 版本模型反而表現(xiàn)略遜于 GPT-5.4。(官方解釋為 Pro 版本更側(cè)重于極端復(fù)雜任務(wù)的穩(wěn)定性,而非通用場(chǎng)景的平均分)

為了更好地讓 GPT-5.4 融入人們的實(shí)際工作場(chǎng)景,OpenAI 在官方介紹中直觀展現(xiàn)了新版本模型在電子表格、文檔和幻燈片三個(gè)場(chǎng)景的專業(yè)級(jí)表現(xiàn):




除此之外,GPT-5.4 取得的顯著進(jìn)步,在金融和法律等高專業(yè)度領(lǐng)域也發(fā)揮了至關(guān)重要的作用。

多家國(guó)際機(jī)構(gòu)的反饋顯示,新模型在財(cái)務(wù)建模、合同分析、長(zhǎng)周期任務(wù)執(zhí)行中準(zhǔn)確率提升的同時(shí),用戶與 AI 的交互頻次也減少了很多,顯著縮短了任務(wù)完成時(shí)間。


針對(duì)最受開(kāi)發(fā)者關(guān)注的編碼場(chǎng)景,GPT-5.4 保持了與 GPT-5.3-Codex 生成同等質(zhì)量代碼的能力,沒(méi)有顯著的提升。不過(guò),新增加的“/fast”模式能夠?qū)崿F(xiàn)約 1.5倍 的token 生成速度 。

智能體方面,工具調(diào)用能力是智能體完成任務(wù)的核心,新引入的“工具搜索 (Tool Search)”機(jī)制讓模型能夠在數(shù)萬(wàn)個(gè)工具的大型生態(tài)中按需調(diào)用能力,在準(zhǔn)確率保持不變的情況下token消耗量驚人地下降了47% 。

這正是“操作系統(tǒng)”調(diào)度底層資源的方式,高效且精準(zhǔn)。

原生計(jì)算機(jī)操作:

從理解到執(zhí)行,這就是“操作系統(tǒng)”的界面

AI 的形態(tài)已經(jīng)從大語(yǔ)言模型演進(jìn)到了智能體,想要實(shí)現(xiàn)產(chǎn)品的商業(yè)化就必須讓 AI 能真正幫人們做事。

于是,全球的AI企業(yè)不約而同地將目光放到了用戶PC的控制權(quán)上。

但是,各種桌面端代理發(fā)布一段時(shí)間后,下載率和留存率其實(shí)都不理想。哪怕是對(duì)于 ChatGPT 的 9.56 億月活用戶而言,也有很多人不愿意單獨(dú)下載一個(gè)桌面端代理軟件 。

大家早已習(xí)慣和 AI(大語(yǔ)言模型)聊天,卻還沒(méi)適應(yīng)讓 AI(智能體代理)接管電腦。

于是,OpenAI想出了一個(gè)天才般的點(diǎn)子:讓用戶每天都在用的大模型操控電腦,不用專門下載安裝。

于是,GPT-5.4 順理成章地成為了第一個(gè)具備原生計(jì)算機(jī)操作能力的通用模型 。

原理其實(shí)并不復(fù)雜,它能夠根據(jù)屏幕截圖發(fā)出鼠標(biāo)鍵盤指令,也可以通過(guò) Playwright 等庫(kù)編寫代碼來(lái)直接操作軟件系統(tǒng) 。

相比于需要專門訓(xùn)練才能使用的 PC 端代理助手不同,GPT-5.4 選擇將操控電腦的能力直接內(nèi)建于通用架構(gòu)之中,開(kāi)發(fā)者在同一模型中即可無(wú)縫切換推理、編碼或執(zhí)行任務(wù)。正如“操作系統(tǒng)”天然擁有底層硬件(鍵鼠、屏幕)的驅(qū)動(dòng)一樣。

一提到操控電腦,那安全問(wèn)題就不可回避。

GPT-5.4 的行為可通過(guò)開(kāi)發(fā)者的輸入進(jìn)行精細(xì)化調(diào)節(jié),以此適應(yīng)不同應(yīng)用場(chǎng)景的需求 。

為了確保安全,開(kāi)發(fā)者可以配置自定義的安全確認(rèn)策略,根據(jù)任務(wù)風(fēng)險(xiǎn)等級(jí)設(shè)置不同的操作確認(rèn)機(jī)制。

數(shù)據(jù)查詢、代碼編寫等低風(fēng)險(xiǎn)任務(wù)設(shè)置成自動(dòng)執(zhí)行,資金操作、文件刪改則必須人工確認(rèn),既能保證系統(tǒng)安全,又能提升工作流的執(zhí)行效率。


在 OSWorld-Verified 基準(zhǔn)測(cè)試中,GPT-5.4 實(shí)現(xiàn)了 75% 的成功率,超越人類基準(zhǔn)(72.4%) 的同時(shí),大幅領(lǐng)先于前代 GPT-5.2 的 47.3% 水平,足以證明新模型在 PC 端任務(wù)場(chǎng)景中的實(shí)用和可靠 。

而在瀏覽器自動(dòng)化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 測(cè)試中,依靠截圖為主的方法分別得到 67.3% 和 92.8% 的成功率。

這就意味著,模型即便不訪問(wèn)網(wǎng)頁(yè)底層架構(gòu),僅憑視覺(jué)信息即可完成復(fù)雜的網(wǎng)頁(yè)交互任務(wù),這主要?dú)w功于底層視覺(jué)感知能力的系統(tǒng)性提升。

傳統(tǒng)多模態(tài)領(lǐng)域的提升相對(duì)較小,MMMU-Pro 視覺(jué)理解與推理測(cè)試中,模型的準(zhǔn)確率從 79.5% 提升至 81.2%;但對(duì)于結(jié)構(gòu)化信息的識(shí)別能力則顯著提升,模型在 OmniDocBench 文檔解析基準(zhǔn)測(cè)試中的平均錯(cuò)誤率從 0.140 降至 0.109 。

也就是說(shuō),模型更善于處理復(fù)雜的 PDF、掃描文檔等工作環(huán)境中常見(jiàn)的文件類型,不會(huì)像以前一樣一遇到表格和插圖就束手無(wú)策。

針對(duì)高密度的界面和精細(xì)操作的需求,GPT-5.4 新增的“original”圖像輸入級(jí)別支持最高 1024 萬(wàn)像素的全保真感知。

根據(jù)用戶反饋,模型在處理企業(yè)級(jí) ERP 系統(tǒng)、財(cái)務(wù)報(bào)表或工程設(shè)計(jì)軟件等復(fù)雜界面時(shí),高分辨率模式下的界面元素定位準(zhǔn)確率和點(diǎn)擊操作成功率都有顯著提升。

實(shí)際測(cè)試:

操作系統(tǒng)之戰(zhàn),從一張昂貴入場(chǎng)券開(kāi)始

在這份官方介紹中,OpenAI 試圖用大量基準(zhǔn)測(cè)試的跑分結(jié)果和知名機(jī)構(gòu)的專業(yè)評(píng)價(jià)來(lái)證明模型能力之強(qiáng)大。

盡管人們普遍不太信任基準(zhǔn)測(cè)試的分?jǐn)?shù),但幾項(xiàng)實(shí)際測(cè)試的結(jié)果卻證明了 OpenAI 所言非虛。

首先是 Artificial Analysis 的評(píng)測(cè)榜單,如預(yù)想一般,智能程度、編碼能力、代理能力同時(shí)登頂:




如果這還不足夠具有說(shuō)服力,那還可以看看 X 平臺(tái)上的一項(xiàng)綜合性測(cè)試:



原視頻鏈接:
https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ

這是 X 平臺(tái)上用戶 @Angaisb_ 用 GPT-5.4 編寫的 Minecraft 游戲,無(wú)論是主視角的行動(dòng)邏輯(奔跑、跳躍、搭建),還是游戲中方塊的材質(zhì)和美觀程度,幾乎都無(wú)可挑剔。

一個(gè) demo 中展示出的內(nèi)容,已經(jīng)與 Minecraft 初期版本的質(zhì)量相差無(wú)幾。

由此可見(jiàn),GPT-5.4 的功能是實(shí)打?qū)嵉膹?qiáng)大,也確實(shí)具備相當(dāng)高的實(shí)際價(jià)值。

但俗話說(shuō)得好,一分錢一分貨,如此強(qiáng)大的功能自然意味著極其高昂的費(fèi)用。


相比 GPT-5.2,價(jià)格漲幅相當(dāng)驚人,甚至有用戶在模型剛發(fā)布后的幾個(gè)小時(shí)內(nèi)表示,僅僅是打了個(gè)招呼問(wèn)了個(gè)問(wèn)題,幾百美元就不翼而飛了 。

如此強(qiáng)大的能力和高昂的定價(jià),似乎與 OpenAI 官方定義的“能力溢出”有些自相矛盾。

如今,OpenClaw 帶動(dòng)了 token 成本極其低廉的國(guó)產(chǎn)大模型爆火,GPT 系列產(chǎn)品已經(jīng)跌出使用量排行榜的前十,為何 OpenAI 還敢給 GPT-5.4 定下如此高的價(jià)格?

算力資源的緊張自然不必多說(shuō),但更深層的答案或許藏在 OpenAI 近期商業(yè)化策略的微妙轉(zhuǎn)向之中。

據(jù)悉,OpenAI 正在縮減 ChatGPT 應(yīng)用內(nèi)的直接購(gòu)買方案,不再將聊天界面作為閉環(huán)交易的核心場(chǎng)景,而是優(yōu)先支持外部應(yīng)用處理購(gòu)買行為 。

這表明,OpenAI 正在從“直接面向消費(fèi)者變現(xiàn)”轉(zhuǎn)向“通過(guò)生態(tài)環(huán)境間接獲利”。

OpenAI 將 GPT-5.4 定位為專業(yè)的基礎(chǔ)設(shè)施,通過(guò)能力溢價(jià)篩選出高價(jià)值的客戶;而普通用戶的變現(xiàn)需求,則交給 Notion、Cursor 等集成 ChatGPT 能力的第三方生態(tài)來(lái)承接,無(wú)需直接承擔(dān)高昂的 API 成本即可通過(guò)合作伙伴的產(chǎn)品間接體驗(yàn)?zāi)P湍芰?。

而熟悉桌面智能代理的朋友可能會(huì)注意到,GPT-5.4 的原生計(jì)算機(jī)操作能力其實(shí)與 OpenClaw 的思路高度相似:AI 需要看懂界面、操作軟件、完成任務(wù)。

不過(guò),GPT-5.4 更進(jìn)一步,讓用戶跳過(guò)下載安裝和配置底層大模型等無(wú)法省略的步驟,直接體驗(yàn)“開(kāi)箱即用”,試圖取代當(dāng)下這款最潮流的智能代理產(chǎn)品 。

但這并非易事。若要取代 OpenClaw,OpenAI 要么解決 Agent 代理快速消耗 token 的問(wèn)題,要么降低 token 成本。而目前看來(lái),前者的希望會(huì)更大一些。

總體來(lái)看,OpenAI 的選擇已經(jīng)十分清晰:用高定價(jià)篩選高價(jià)值客戶,用生態(tài)合作和無(wú)門檻產(chǎn)品覆蓋大眾市場(chǎng),用效率優(yōu)化證明“貴有貴的道理”。

但對(duì)于普通用戶來(lái)說(shuō),最好的策略仍然是:保持關(guān)注、理性評(píng)估、按需選擇。不必急于直接購(gòu)買高價(jià) API,極致的性價(jià)比才是 Agent 時(shí)代的方向。

然而,我們最不能忽視那個(gè)正在發(fā)生的、靜悄悄的革命:OpenAI正在打造的,是一個(gè)以“Computer-Use”為核心,整合了長(zhǎng)上下文、工具調(diào)用、推理與編碼能力的“AI操作系統(tǒng)”。

當(dāng)這個(gè)“操作系統(tǒng)”逐漸成熟,今天關(guān)于價(jià)格和OpenClaw的討論,都將只是歷史的注腳。世界還在為某一款應(yīng)用的爆火而狂歡,但真正的操作系統(tǒng)之戰(zhàn),已經(jīng)打響了。

責(zé)任編輯 | 陳斌

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
6-2血洗歐冠德比!巴薩狂轟6球,皇馬孤將雙響難擋崩盤

6-2血洗歐冠德比!巴薩狂轟6球,皇馬孤將雙響難擋崩盤

林子說(shuō)事
2026-03-26 09:42:20
51歲男子突發(fā)心梗猝死!不想得心梗,牢記晚飯4不吃,睡前4不要!

51歲男子突發(fā)心梗猝死!不想得心梗,牢記晚飯4不吃,睡前4不要!

健康之光
2026-03-20 17:05:06
善惡到頭終有報(bào),如今73歲的唐國(guó)強(qiáng),已經(jīng)走上了一條不歸路!

善惡到頭終有報(bào),如今73歲的唐國(guó)強(qiáng),已經(jīng)走上了一條不歸路!

吳蒂旅行ing
2026-03-20 05:20:46
38.6萬(wàn)元起拍!南京一民國(guó)老四合院上架拍賣

38.6萬(wàn)元起拍!南京一民國(guó)老四合院上架拍賣

現(xiàn)代快報(bào)
2026-03-26 14:34:07
5分鐘開(kāi)通國(guó)家免費(fèi)電視!不用機(jī)頂盒、不連網(wǎng),永久免費(fèi)

5分鐘開(kāi)通國(guó)家免費(fèi)電視!不用機(jī)頂盒、不連網(wǎng),永久免費(fèi)

叮當(dāng)當(dāng)科技
2026-03-20 03:29:51
尊界MPV實(shí)車諜照再曝光!前臉神似S800 氣場(chǎng)十足

尊界MPV實(shí)車諜照再曝光!前臉神似S800 氣場(chǎng)十足

CNMO科技
2026-03-26 10:26:04
伊朗大殺器登場(chǎng),以色列被打疼,美迎來(lái)不眠之夜,特朗普被迫讓步

伊朗大殺器登場(chǎng),以色列被打疼,美迎來(lái)不眠之夜,特朗普被迫讓步

諦聽(tīng)骨語(yǔ)本尊
2026-03-26 16:37:43
香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

香港馬拉松,阿Sa臉饅化成蔡明,黃曉明白又嫩,林志玲被嘲太做作

老吳教育課堂
2026-03-26 14:11:15
入侵界最大笑話?筍殼魚(yú)入侵中國(guó)40年,不但沒(méi)泛濫還沒(méi)吃到瀕危

入侵界最大笑話?筍殼魚(yú)入侵中國(guó)40年,不但沒(méi)泛濫還沒(méi)吃到瀕危

貍貓之一的動(dòng)物圈
2026-03-14 10:17:17
中疾控發(fā)布提示:我國(guó)面臨較大疫情輸入風(fēng)險(xiǎn)

中疾控發(fā)布提示:我國(guó)面臨較大疫情輸入風(fēng)險(xiǎn)

隨州派
2026-03-24 11:44:16
北青:國(guó)足團(tuán)隊(duì)已分析庫(kù)拉索隊(duì)特點(diǎn);張玉寧或?qū)?dān)任場(chǎng)上隊(duì)長(zhǎng)

北青:國(guó)足團(tuán)隊(duì)已分析庫(kù)拉索隊(duì)特點(diǎn);張玉寧或?qū)?dān)任場(chǎng)上隊(duì)長(zhǎng)

懂球帝
2026-03-26 15:59:40
燃?xì)庹{(diào)價(jià)通知

燃?xì)庹{(diào)價(jià)通知

孝感匯
2026-03-25 16:38:10
公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

公積金新調(diào)整!4月1日起,職工可自愿提高繳存比例

另子維愛(ài)讀史
2026-03-25 22:28:47
張水華為賺錢拼了!7天2賽沖連冠:獎(jiǎng)金3萬(wàn)+出場(chǎng)費(fèi)10萬(wàn)+一輛車

張水華為賺錢拼了!7天2賽沖連冠:獎(jiǎng)金3萬(wàn)+出場(chǎng)費(fèi)10萬(wàn)+一輛車

念洲
2026-03-26 13:14:49
58歲退休女人坦言:我找老伴,對(duì)方不用有房有錢,但有4個(gè)要求

58歲退休女人坦言:我找老伴,對(duì)方不用有房有錢,但有4個(gè)要求

烙任情感
2026-03-26 16:33:31
不能光讓特朗普出風(fēng)頭,俄羅斯宣布重磅消息:和中國(guó)有大事要談

不能光讓特朗普出風(fēng)頭,俄羅斯宣布重磅消息:和中國(guó)有大事要談

小蘭聊歷史
2026-03-26 16:25:10
杜子建哭著發(fā)聲:當(dāng)年的對(duì)抗只是節(jié)目效果,我們私下經(jīng)常喝酒

杜子建哭著發(fā)聲:當(dāng)年的對(duì)抗只是節(jié)目效果,我們私下經(jīng)常喝酒

一盅情懷
2026-03-26 16:11:04
1965年,毛主席點(diǎn)名讓彭德懷復(fù)出,背后有人拼命阻撓,這人后來(lái)判了18年

1965年,毛主席點(diǎn)名讓彭德懷復(fù)出,背后有人拼命阻撓,這人后來(lái)判了18年

史海孤雁
2026-03-25 18:31:11
招聘 | 上海市七寶中學(xué)招聘

招聘 | 上海市七寶中學(xué)招聘

上觀新聞
2026-03-25 11:16:04
英國(guó)上將揭露:1997年香港回歸真相,誰(shuí)敢抗衡中國(guó)解放軍?

英國(guó)上將揭露:1997年香港回歸真相,誰(shuí)敢抗衡中國(guó)解放軍?

老范談史
2026-03-18 23:51:08
2026-03-26 17:15:00
環(huán)球老虎財(cái)經(jīng)
環(huán)球老虎財(cái)經(jīng)
全球財(cái)經(jīng)資訊的中文分析平臺(tái)
17954文章數(shù) 56508關(guān)注度
往期回顧 全部

科技要聞

Meta高管狂分百億期權(quán),700名員工卻下崗

頭條要聞

國(guó)防部:日本侵略過(guò)所有周邊國(guó)家 至今都沒(méi)有真正反省

頭條要聞

國(guó)防部:日本侵略過(guò)所有周邊國(guó)家 至今都沒(méi)有真正反省

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

張雪峰家人首發(fā)聲 不設(shè)追思會(huì)喪事從簡(jiǎn)

財(cái)經(jīng)要聞

長(zhǎng)護(hù)險(xiǎn)誰(shuí)能享受?享受多少?解答來(lái)了

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

健康
教育
藝術(shù)
本地
手機(jī)

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

教育要聞

2026湖北高職單招工作啟動(dòng)

藝術(shù)要聞

哪一座橋不是風(fēng)景?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

手機(jī)要聞

iPhone「自己打電話」是Bug!蘋果終于承認(rèn)了,怎么回事?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版