国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5.4 mini+nano突襲,1/3價格養(yǎng)滿血「龍蝦」!OpenAI徹底殺瘋

0
分享至


新智元報道

編輯:好困 桃子

【新智元導讀】深夜,OpenAI祭出「雙子星」GPT-5.4 mini和nano,實力逼近滿血版,速度性價比拉滿,用來編碼、當「龍蝦」主力真香!

OpenAI一聲不吭,又扔了一顆炸彈。

今天,GPT-5.4 miniGPT-5.4 nano正式發(fā)布。

沒有預(yù)熱,沒有倒計時,直接上線。


這兩個模型要解決的問題很明確:在真實的生產(chǎn)環(huán)境里,怎么讓AI又快又準又便宜地干活?

它們繼承了GPT-5.4核心優(yōu)勢,速度拉滿、成本更低,堪稱輕量級模型巔峰之作。

先說最炸裂的數(shù)字——

編碼(SWE-Bench Pro):GPT-5.4 mini拿下54.4%,而滿血版GPT-5.4是57.7%;

計算機使用(OSWorld-Verified):GPT-5.4 mini 72.1%的成績,媲美GPT-5.4(75%)

另外,在推理、工具調(diào)用等任務(wù)中,mini的實力直接逼近GPT-5.4。

而且,相較于上一代GPT-5 mini,GPT-5.4 mini運行速度直接飆升2倍!


網(wǎng)友直言,mini和nano完全可以當做「龍蝦」的主力模型來用!



GPT-5.4 mini有400k超大上下文,輸入價格0.75美元/百萬token,輸出價格4.5美元/百萬token;

GPT-5.4 nano輸入價格0.2美元/百萬token,輸出價格1.25美元/百萬token。

相較于GPT-5.4,mini輸出價格是其1/3,而nano價格只有1/12。


如今,快、強、便宜,三個詞同時成立了。

而在半年之前,這是完全不可能的。



有人試用后驚嘆道,簡直太香了!不僅速度快,還要比Claude 4.6 Opus便宜9倍。


代碼恐怖進化

mini追平「滿血」,nano吊打前代

先看編碼。

SWE-Bench Pro是目前衡量大模型「真實編碼能力」最硬核的基準之一,它不考填空題,而是讓模型直接修復GitHub上的真實軟件Bug。

GPT-5.4 mini拿下54.4%,距滿血版GPT-5.4(57.7%)只差3.3%。

這意味著一個為速度和成本優(yōu)化的小模型,在解決真實工程問題時,已經(jīng)摸到了旗艦?zāi)P偷奶旎ò濉?/p>


而上一代GPT-5 mini僅45.7%,mini到mini之間,一代之隔就是近9%的飛躍。

Terminal-Bench 2.0的差距更夸張。GPT-5.4 mini拿下60.0%,GPT-5 mini只有38.2%,提升幅度超過57%。


即便是最小號的nano,也在SWE-Bench Pro上打出了52.4%,比上一代mini還高出近7%。

一個定位于「分類和數(shù)據(jù)提取」的超輕量模型,代碼能力居然碾壓上一代的中量級選手,這就是蒸餾模型在過去幾個月的進化速度。

對開發(fā)者來說,這組數(shù)據(jù)的實際含義非常直接:

那些不需要旗艦?zāi)P汀笣M功率思考」的編碼任務(wù),比如定向代碼修改、前端頁面生成、調(diào)試循環(huán)、代碼庫檢索,現(xiàn)在可以全部交給mini,速度快一倍,成本低一大截,效果幾乎無損。

博士級推理,復雜工具調(diào)用雙殺

編碼只是一個切面,推理和工具調(diào)用能力,決定了一個模型能不能真正「干活」。

GPQA Diamond是一個博士級科學推理基準,GPT-5.4 mini取得了88%的成績,與GPT-5.4僅差5%。

更值得關(guān)注的是「工具調(diào)用」能力。

Toolathlon主要測試模型在復雜工具鏈中的表現(xiàn),不只是調(diào)一次API,而是在多步驟任務(wù)中正確地組合、排序、使用多種工具。

結(jié)果,GPT-5.4 mini得分42.9%,完全碾壓GPT-5 mini(26.9%)。


此外,在電信行業(yè)專用基準τ2-bench上,mini更是打出了93.4%的超高分,幾乎追平滿血版98.9%,把GPT-5 mini(74.1%)遠遠甩在身后。

在另一個工具調(diào)用基準MCP Atlas上,GPT-5.4 mini拿到57.7%,而GPT-5 mini只有47.6%。

這些數(shù)字匯成一句話:GPT-5.4 mini不只是一個「縮小版的聰明模型」,它是一個真正能在生產(chǎn)環(huán)境中獨立完成復雜任務(wù)鏈的執(zhí)行者。

「龍蝦」主力

小模型也能「看屏幕干活」

GPT-5.4 mini真正讓人意外的,是它在計算機使用上的表現(xiàn)。

人怎么用電腦?眼睛看屏幕上的UI元素,大腦判斷該點哪里,手去操作鼠標和鍵盤。

如果AI要真正成為你的「賽博助理」,它也得學會這套——快速解析一張信息密集的屏幕截圖,定位按鈕、輸入框和數(shù)據(jù)列表,然后做出正確操作。

OSWorld-Verified就是測這個「視覺理解+推理+操作」三位一體的綜合能力的。

在這張榜上,GPT-5.4 mini拿到了72.1%,而旗艦版GPT-5.4是75.0%。差距不到3個百分點。

反觀GPT-5 mini只有42.0%。一代之間,計算機使用能力幾乎翻了一倍。


不過,nano在這項測試中只拿到了39.0%,甚至略低于上一代GPT-5 mini的42.0%。

這說明計算機使用任務(wù)對模型的視覺推理能力有很高的門檻要求,不是單純縮小模型就能保住的:mini和nano之間存在一道清晰的能力斷層。

在MMMUPro(含Python工具)上,mini拿到78.0%,旗艦版81.5%,差距同樣很小。

這個基準涵蓋了大量需要結(jié)合視覺信息和數(shù)學/代碼工具進行推理的復雜題目。


這組結(jié)果對一個特定方向有重大意義:AI Agent。

當一個小模型能快速解析信息密集的UI截圖,并在低延遲下做出正確操作決策時,它就成了構(gòu)建實時計算機使用Agent的理想引擎——成本低,響應(yīng)快,能力夠。

在TBPN最新訪談中,奧特曼明確了下一步愿景:

OpenAI將推出一個進化版的Codex,新版本不再局限于編程,將演變成一個「控制計算機」的強大工具。

在他設(shè)想中,人們可以完全通過手機啟動并管理新任務(wù),真正的終極體驗是,擁有一個基于統(tǒng)一后端的個人專屬的AI。

它能訪問個人所有數(shù)據(jù)、想法、素材、記憶,并能跨越多個終端,無縫執(zhí)行任務(wù)

子智能體范式

大模型決策,小模型執(zhí)行

這次發(fā)布中,OpenAI花了不少篇幅闡述一個理念:最好的AI系統(tǒng),不一定要用最大的模型來處理所有事情。

他們提出的架構(gòu)思路很清晰:

旗艦?zāi)P虶PT-5.4負責規(guī)劃、協(xié)調(diào)和最終決策,然后把具體任務(wù)分發(fā)給GPT-5.4 mini子智能體并行執(zhí)行。

搜索代碼庫、審查大型文件、處理支持文檔,這些不需要「深度思考」但需要「快速完成」的工作,全部交給mini。


在Codex中,這套架構(gòu)已經(jīng)落地了。

開發(fā)者可以讓GPT-5.4制定整體方案,然后自動調(diào)度mini子智能體去執(zhí)行各個子任務(wù)。

而且mini在Codex中只消耗GPT-5.4配額的30%。

也就是說,同樣的預(yù)算,你可以跑三倍多的mini任務(wù)。



這種「分層調(diào)度」的思路,其實是整個AI行業(yè)正在收斂的共識。

與其追求一個無所不能的超大模型,不如構(gòu)建一個分工明確的模型協(xié)作系統(tǒng)。

旗艦?zāi)P拖窨傊笓],mini模型像執(zhí)行團隊,nano模型像處理瑣碎事務(wù)的助理。

對開發(fā)者來說,這意味著架構(gòu)設(shè)計的思路要變了。

以前是「選一個最強的模型,所有任務(wù)都扔給它」;現(xiàn)在是「根據(jù)任務(wù)復雜度,動態(tài)路由到不同層級的模型」。

Hebbia的CTO Aabhas Sharma給出的評價很有代表性:

GPT-5.4 mini在多項輸出任務(wù)和引用召回率上,以低得多的成本匹敵甚至超越了競品模型,還實現(xiàn)了比更大模型更高的端到端通過率。

「更小的模型,更好的效果」,這句話放在兩年前像是天方夜譚,現(xiàn)在已經(jīng)成了工程實踐中的真實場景。

全面鋪開,免費用戶也能用

今天,GPT-5.4 mini已經(jīng)全線上線,API、Codex、ChatGPT三端同步開放。

API定價為輸入0.75美元/百萬Token,輸出4.50美元/百萬Token,上下文窗口400K。

支持文本和圖像輸入、工具使用、函數(shù)調(diào)用、網(wǎng)絡(luò)搜索、文件搜索、計算機使用等全套能力。


GPT-5.4 nano僅在API中可用,價格為輸入0.20美元/百萬Token,輸出1.25美元/百萬Token。

做個對比。GPT-5.4 nano的輸入價格是mini的約四分之一,輸出價格也不到mini的三分之一。

對于分類、數(shù)據(jù)提取、排序這類高頻但低復雜度的任務(wù)來說,nano的性價比幾乎無敵。

在ChatGPT端,GPT-5.4 mini已向免費用戶和Go用戶開放,可以通過菜單中的「Thinking」功能使用。對于付費用戶,當GPT-5.4 Thinking額度耗盡時,mini會自動作為降級備選方案。

這個策略很聰明,讓免費用戶也能體驗到強大的推理能力,降低使用門檻的同時擴大用戶基盤。

而對付費用戶來說,mini的存在讓「額度焦慮」大大緩解。

長上下文是mini的短板

當然,mini不是沒有弱點。

在長上下文處理上,GPT-5.4 mini和旗艦版的差距比其他維度更明顯。

OpenAI MRCR v2測試在64K-128K窗口下的8針搜索任務(wù)中,GPT-5.4拿到86.0%,mini只有47.7%,差距接近40個百分點。在128K-256K窗口下,這個差距進一步拉大到79.3%對33.6%。


Graphwalks系列測試也呈現(xiàn)類似趨勢。在父節(jié)點追蹤任務(wù)上,GPT-5.4拿到89.8%,mini是71.5%。

這說明在需要對超長文本進行精確信息檢索和邏輯追蹤的場景下,mini的能力上限還是顯著低于旗艦版。

對于需要處理大規(guī)模文檔分析、長對話記憶保持等任務(wù)的開發(fā)者來說,GPT-5.4仍然是不可替代的選擇。

不過話說回來,這也恰好印證了OpenAI的產(chǎn)品分層邏輯:不同的任務(wù),用不同的模型。

mini不需要在每個維度都追平旗艦,它只需要在自己主攻的方向——速度、編碼、工具調(diào)用、計算機使用,做到足夠好就行。

不是結(jié)局,是起點

技術(shù)在狂奔,但人的情緒要復雜得多。

今早,奧特曼在X上發(fā)文:

我對那些逐字逐句寫出極其復雜軟件的人,充滿感激。

現(xiàn)在已經(jīng)很難想象那曾經(jīng)需要多大的努力了。謝謝你們把我們帶到了今天。


評論區(qū)瞬間炸了。

大量開發(fā)者讀出了另一層意思——感謝你們的貢獻,但這個活以后AI來干了。


有人回懟:謝謝啊,原來我們的回報就是丟掉工作。


也有人直指訓練數(shù)據(jù)爭議:模型本身就是用這些開發(fā)者的代碼喂出來的,現(xiàn)在反過來替代他們,這算哪門子感激?


不過也有人借此提了個值得思考的問題:

當語法層面被AI解決,軟件工程的核心競爭力是不是該從「怎么寫代碼」轉(zhuǎn)向「怎么設(shè)計系統(tǒng)」?


爭議歸爭議,趨勢不會因為情緒而停下。

回望科技史,從大型機到PC,從撥號上網(wǎng)到移動互聯(lián)網(wǎng),每一次真正的技術(shù)革命都不是靠最強最貴的產(chǎn)品完成的。

革命完成的標志,是技術(shù)變得像水和電一樣——廉價、無感、無處不在。

GPT-5.4 mini在SWE-Bench Pro上追到了旗艦版的94%,在OSWorld上追到了96%,在GPQA Diamond上追到了95%。速度是前代的兩倍,成本是旗艦版的零頭。

  • 對普通開發(fā)者來說,這意味著曾經(jīng)只有大廠才玩得起的AI能力,現(xiàn)在用mini的價格就能接入。

  • 對AI應(yīng)用創(chuàng)業(yè)者來說,這意味著產(chǎn)品的推理成本可以再降一個數(shù)量級。

  • 對整個行業(yè)來說,這意味著AI的滲透速度將進一步加快,因為擋在前面的成本和延遲兩道墻,正在被小模型一磚一磚地拆掉。

大模型負責思考,小模型負責執(zhí)行。旗艦?zāi)P投x智力的天花板,小模型打通AI走進每一個應(yīng)用的毛細血管。

這不再是愿景,而是今天就能跑起來的架構(gòu)。

參考資料:

https://openai.com/index/introducing-gpt-5-4-mini-and-nano/

https://x.com/OpenAI/status/2033953592424731072?s=20

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
空姐的跪式服務(wù)

空姐的跪式服務(wù)

微微熱評
2026-03-25 23:58:37
戰(zhàn)事遲遲未能結(jié)束,特朗普“甩鍋”美政府高官:他們壓根不想談和解,一門心思就想打贏這場仗

戰(zhàn)事遲遲未能結(jié)束,特朗普“甩鍋”美政府高官:他們壓根不想談和解,一門心思就想打贏這場仗

都市快報橙柿互動
2026-03-26 00:44:49
實錘了,日媒爆料六本木高級陪酒女廣州運毒被捕,日本網(wǎng)友這樣說

實錘了,日媒爆料六本木高級陪酒女廣州運毒被捕,日本網(wǎng)友這樣說

日本物語
2026-03-25 20:56:54
四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

四川井研一公交車身標語引爭議 官方:系個人自費5000元投放的廣告,已整改清除

紅星新聞
2026-03-25 20:09:43
曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

曝張雪峰倒下30分鐘后才被發(fā)現(xiàn),飲食習慣糟糕,一口氣吃8根雪糕

古希臘掌管松餅的神
2026-03-25 11:08:46
留幾手談張雪峰去世:死者又不是我爹,憑啥為大

留幾手談張雪峰去世:死者又不是我爹,憑啥為大

三言科技
2026-03-25 19:03:05
國際油價暴跌!3月24日,全國各地各大加油站92號汽油、95號汽油、98號汽油最新油價

國際油價暴跌!3月24日,全國各地各大加油站92號汽油、95號汽油、98號汽油最新油價

吉林烏拉侯
2026-03-25 02:56:11
4月1日醫(yī)保7號令落地!1965-1985年出生的,這6件事務(wù)必抓緊辦

4月1日醫(yī)保7號令落地!1965-1985年出生的,這6件事務(wù)必抓緊辦

混沌錄
2026-03-25 15:50:11
1976年播報毛主席訃告,播音員念完三遍后突然冒出一句話,全國都慌了

1976年播報毛主席訃告,播音員念完三遍后突然冒出一句話,全國都慌了

文史明鑒
2026-03-25 19:14:13
曝信達證券所長猥褻員工,長得很老實,女方顏值出眾,合影曝光

曝信達證券所長猥褻員工,長得很老實,女方顏值出眾,合影曝光

180視角
2026-03-25 17:34:12
聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

聯(lián)大認定“奴隸制”為最嚴重反人類罪:123票贊成,美國、以色列、阿根廷共3票反對

揚子晚報
2026-03-26 07:27:54
1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

1000億背后的陽謀:拼多多利用中國制造的優(yōu)勢,要狂掃國外市場

風向觀察
2026-03-25 20:46:14
聯(lián)大通過決議 宣布奴隸制行為為最嚴重反人類罪

聯(lián)大通過決議 宣布奴隸制行為為最嚴重反人類罪

財聯(lián)社
2026-03-26 01:24:06
兩省省委領(lǐng)導班子調(diào)整

兩省省委領(lǐng)導班子調(diào)整

上觀新聞
2026-03-25 15:07:07
參加世界杯,每人先交1.5萬刀!特朗普政策影響多個世界杯參賽國

參加世界杯,每人先交1.5萬刀!特朗普政策影響多個世界杯參賽國

全景體育V
2026-03-26 08:16:09
南京女教師停職風波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請恢復崗位與聲譽

南京女教師停職風波反轉(zhuǎn)!大批家長發(fā)聲力挺,懇請恢復崗位與聲譽

火山詩話
2026-03-26 06:37:23
張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

張雪峰離世!北京蘇州房產(chǎn)不在名下,1400名員工等安撫,好友停工

阿纂看事
2026-03-25 21:31:59
315晚會后,不出意外的話,這7樣東西再“無人問津”,白給也不要

315晚會后,不出意外的話,這7樣東西再“無人問津”,白給也不要

海豚女王
2026-03-25 04:16:54
周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

周杰倫的INS被網(wǎng)友沖爆,新歌MV里手表調(diào)到“83”,疑用舊戀情炒作賣新唱片

回旋鏢
2026-03-25 20:38:44
退役體操冠軍,直播“擦邊”之后

退役體操冠軍,直播“擦邊”之后

中國新聞周刊
2026-03-25 21:34:08
2026-03-26 09:43:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14815文章數(shù) 66720關(guān)注度
往期回顧 全部

數(shù)碼要聞

雷蛇發(fā)布2026款靈刃Blade 16輕薄游戲本,1.49mm、2.14kg

頭條要聞

舉天價零件發(fā)出靈魂拷問的美官員 自己被大學生質(zhì)問了

頭條要聞

舉天價零件發(fā)出靈魂拷問的美官員 自己被大學生質(zhì)問了

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復雜!是否立遺囑成關(guān)鍵

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結(jié)束了

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

時尚
家居
本地
教育
旅游

《非窮盡列舉》,好看又絕望

家居要聞

輕奢堇天府 小資情調(diào)

本地新聞

來永泰同安 赴一場春天的約會

教育要聞

驚了!斯坦福大學近四成學生登記為殘障人士?!

旅游要聞

白如雪粉如霞!玉盞輕舉,盛放廟行春光

無障礙瀏覽 進入關(guān)懷版