国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布GPT-4.1:開發(fā)者“特供”,超越4o,但還沒遙遙領(lǐng)先

0
分享至

作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com

就在上周,關(guān)于OpenAI下一代大模型即將發(fā)布的傳聞不斷。從業(yè)內(nèi)消息到代碼庫中發(fā)現(xiàn)的新模型標(biāo)識(如“o4-mini”、“o3”),種種跡象都指向眼前的發(fā)布——可能命名為GPT-4.1,被視為GPT-4o的有力繼承者。

現(xiàn)在,靴子終于落地。OpenAI這次沒有讓大家等太久,正式推出了備受期待的GPT-4.1系列,完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是,這次更新的焦點并非面向大眾用戶,僅通過API接口提供服務(wù),OpenAI官方文檔直言不諱地指出,這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini,在編碼能力、指令遵循、長文本處理等核心維度實現(xiàn)了進(jìn)步,并輔以全新定價策略,其知識庫也已刷新至2024年6月。OpenAI的核心目標(biāo)明確:為構(gòu)建Agent應(yīng)用的開發(fā)者提供更強悍、更可靠且更經(jīng)濟的基礎(chǔ)設(shè)施。

#01

編程評測表現(xiàn)優(yōu)于GPT-4.5

編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數(shù)據(jù)顯示,在衡量真實世界軟件工程能力的SWE-bench Verified基準(zhǔn)測試中,GPT-4.1取得了54.6% 的分?jǐn)?shù),相比GPT-4o的33.2%,實現(xiàn)了高達(dá)21.4個絕對百分點的提升。

更令人玩味的是,這一成績甚至比定位更高的GPT-4.5(38.0%)還要高出不少,上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務(wù)、生成能實際運行并通過測試的代碼方面有了質(zhì)的飛躍。

不僅如此,GPT-4.1在代碼處理的細(xì)節(jié)上也更為精進(jìn)。例如,它在處理代碼差異(diffs)方面更加可靠,根據(jù)Aider's polyglot diff benchmark,其表現(xiàn)甚至超越了GPT-4.5。官方還特別提到,模型進(jìn)行無關(guān)編輯(extraneous edits)的頻率從GPT-4o的9%顯著降低到了2%。

對于前端開發(fā)者而言,GPT-4.1生成的網(wǎng)頁應(yīng)用在功能性和美觀性上也更勝一籌,在內(nèi)部測試中,人類評估者有80%的時間更偏好GPT-4.1的作品。同時,為了支持更大規(guī)模的代碼編輯,GPT-4.1的最大輸出Token限制也提升至32,768個(GPT-4o為16,384個)。據(jù)OpenAI官方,來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升,他們觀察到GPT-4.1在實際代碼生成和代碼審查任務(wù)中效率更高、錯誤更少。

指令遵循能力的提升同樣是本次更新的重中之重。模型現(xiàn)在能更精準(zhǔn)地理解和執(zhí)行復(fù)雜、多步驟的指令。在Scale's MultiChallenge基準(zhǔn)測試(評估多輪對話中的指令遵循能力)中,GPT-4.1得分38.3%,較GPT-4o提升了10.5個絕對百分點。

而在IFEval測試(驗證模型遵循格式、長度、禁用詞等具體約束的能力)中,得分也從81.0%提升至87.4%。OpenAI內(nèi)部評估也顯示,特別是在處理困難指令時,GPT-4.1的改進(jìn)尤為明顯。這種可靠性的增強,對于構(gòu)建能夠自主完成任務(wù)的AI Agent系統(tǒng)至關(guān)重要,能有效減少開發(fā)者“手把手教”的負(fù)擔(dān)。

來自Blue J(稅務(wù)場景)和Hex(SQL生成)等合作伙伴的真實案例也表明,GPT-4.1在處理復(fù)雜規(guī)則和歧義、遵循細(xì)微指令方面表現(xiàn)更佳,顯著提高了應(yīng)用準(zhǔn)確性和開發(fā)效率。

#02

全系支持百萬級長文本處理

全系標(biāo)配且真正“可用”的百萬級長文本處理能力,是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1,連同mini和nano版本,都支持高達(dá)100萬Token的上下文窗口(遠(yuǎn)超GPT-4o的128k)。OpenAI此次特別強調(diào),這不僅僅是窗口大小的提升,更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經(jīng)典的“大海撈針”(Needle in a Haystack)測試結(jié)果顯示,GPT-4.1系列能在1M長度的文本中穩(wěn)定、準(zhǔn)確地找到隱藏信息。

為了證明模型在更接近真實世界復(fù)雜場景下的長文本能力,OpenAI還開源了兩套新的評估基準(zhǔn):OpenAI-MRCR(測試在長文本中區(qū)分和檢索多個相似信息點的能力)和Graphwalks(評估需要跨文本多處進(jìn)行邏輯跳轉(zhuǎn)和推理的多跳推理能力)。

測試結(jié)果表明,GPT-4.1在這些更具挑戰(zhàn)性的任務(wù)上,相比前代有顯著優(yōu)勢,并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應(yīng)用場景來說,無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領(lǐng)域的早期用戶反饋,GPT-4.1在處理多份復(fù)雜長文檔、提取精確信息、進(jìn)行跨文檔推理方面,準(zhǔn)確性顯著提高,克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。

當(dāng)然,處理百萬Token的延遲也是開發(fā)者關(guān)心的,官方給出的初步數(shù)據(jù)是,GPT-4.1處理128k Token時首個Token的p95延遲約15秒,1M Token則可能需要半分鐘左右,而mini和nano版本則會快得多。

#03

更好的多模態(tài)

此外,GPT-4.1家族的視覺理解能力也保持了高水準(zhǔn)。特別是GPT-4.1 mini,在MMMU、MathVista等多個視覺基準(zhǔn)測試上的表現(xiàn)甚至優(yōu)于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準(zhǔn)Video-MME(無字幕長視頻問答)上取得了72.0%的新SOTA成績。

伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優(yōu)化,GPT-4.1系列的價格相當(dāng)“香”:

  • GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token),官方稱比GPT-4o的中位數(shù)查詢成本低26%。

  • GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60,在性能接近甚至超越GPT-4o的同時,成本和延遲大幅降低。

  • GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40,成為OpenAI有史以來最便宜、最快速的模型,且同樣支持1M上下文。

此外,Prompt Caching(提示緩存)的折扣從之前的50%提高到了75%,對于需要重復(fù)傳遞相同上下文的應(yīng)用能大幅節(jié)約成本。同時,使用Batch API(批量處理)還能享受額外的50%折扣。

需要注意的是,隨著GPT-4.1系列的登場,之前作為預(yù)覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布,該API將在2025年7月14日正式關(guān)閉,給予開發(fā)者3個月的過渡時間,鼓勵大家遷移到性能更優(yōu)、成本更低的GPT-4.1系列。

#04

進(jìn)步了,但很難全贏

GPT-4.1的發(fā)布,被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應(yīng),而非一次顛覆性的技術(shù)突破。有不少評論直接指出,盡管進(jìn)步顯著,但在某些特定基準(zhǔn)上,如Aider Polyglot編碼測試,GPT-4.1(約52%)與Google Gemini 2.5 Pro(據(jù)報道約73%)相比仍有差距。

來自第三方基準(zhǔn)平臺(如與ChatLLM服務(wù)相關(guān)的Livebench)的早期結(jié)果在一定程度上支持了這種觀點:雖然確認(rèn)GPT-4.1相較于GPT-4o有所改進(jìn)('It's better than GPT-4o'),但同時將其描述為一次“增量更新”(incremental update)。更值得注意的是,在OpenAI重點宣傳的編碼能力方面,該基準(zhǔn)評估認(rèn)為其表現(xiàn)“似乎并未優(yōu)于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領(lǐng)域的競爭已進(jìn)入到更細(xì)分、更針對性的能力比拼階段,而非全面的代際碾壓。

而談及OpenAI,其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1,到內(nèi)部代號般的o1、o3、o4系列(還分low/medium/high/mini/pro各種后綴),再到ChatGPT界面上令人困惑的模型選項(4o、o3-mini、o1、Deep Research、4.5、帶任務(wù)調(diào)度的4o...),“像正常人一樣給模型命名”似乎成了一項不可能完成的任務(wù)。這對于一個力求普及AI技術(shù)的公司而言,無疑增加了用戶的理解成本。

盡管如此,OpenAI此次GPT-4.1系列的發(fā)布,仍然釋放了一個明確的信號:OpenAI沒有忘記開發(fā)者。GPT-4.5的官方API接下來一周內(nèi)也可以免費使用,每分鐘3次請求,一天200次,TPM1萬。

不過相較于GPT-4o在多模態(tài)交互上的驚艷問世,GPT-4.1系列更像是一次深入生產(chǎn)環(huán)節(jié)的“內(nèi)功”修煉,精準(zhǔn)解決了開發(fā)者在編碼、指令控制、長文本處理等核心痛點。這種API優(yōu)先、強調(diào)實用性和性價比的策略同時,不僅是對自身模型效率提升的自信展示,也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。

或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發(fā)布也已箭在弦上。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

笑死!爸爸和孩子能不熟到什么地步?網(wǎng)友:存在感這么低

夜深愛雜談
2026-02-28 23:22:47
伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

伊朗外交部發(fā)言人稱伊朗最高領(lǐng)袖和總統(tǒng)“安然無恙”

澎湃新聞
2026-03-01 05:25:03
溫州知名醫(yī)院被查!1名醫(yī)生被罰

溫州知名醫(yī)院被查!1名醫(yī)生被罰

住溫網(wǎng)
2026-02-28 10:16:15
伊朗發(fā)射法塔赫高超音速導(dǎo)彈

伊朗發(fā)射法塔赫高超音速導(dǎo)彈

界面新聞
2026-02-28 23:51:14
近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

近4戰(zhàn)場均25分!普爾的交易添頭打成鵜鶘核心,大傷沒能毀掉他

你的籃球頻道
2026-03-01 13:36:40
過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

過去30年,中國三次忍辱負(fù)重“裝孫子”躲過美國阻擊,終迎大發(fā)展

阿胡
2024-06-13 14:25:16
換心風(fēng)波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

換心風(fēng)波僅1個月,李連杰再傳噩耗,淪落到如今的下場怪不了別人

鄉(xiāng)野小珥
2026-02-05 15:03:34
外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

外交部副部長孫衛(wèi)東禮節(jié)性會見菲律賓外交部部長助理兼亞太司司長

證券時報
2026-02-28 19:03:03
伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

伊朗巴斯基民兵組織就哈梅內(nèi)伊身亡發(fā)表聲明

界面新聞
2026-03-01 21:44:59
75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

75歲老人全新養(yǎng)老方式:不請保姆不去養(yǎng)老院,成本小老人舒心

孢木情感
2026-02-21 12:15:25
90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

90年代蔣方良希望葬在蔣經(jīng)國旁邊,方智怡:沒地方讓你葬在他旁邊

近史談
2026-03-01 11:05:01
美國終于回過味來了:這個世界上,不會再有第二個“中國”了

美國終于回過味來了:這個世界上,不會再有第二個“中國”了

忠于法紀(jì)
2026-01-16 21:06:27
王曼昱奪冠后,緊緊抱住那個已經(jīng)退役七年、專程從香港飛來的女人

王曼昱奪冠后,緊緊抱住那個已經(jīng)退役七年、專程從香港飛來的女人

百態(tài)人間
2025-12-29 16:43:18
72歲潘虹:我以晚年托起耄耋母親的晚年

72歲潘虹:我以晚年托起耄耋母親的晚年

細(xì)品名人
2026-02-27 05:51:54
全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團寵,玥兒抱弟弟畫面太暖

全網(wǎng)被萌翻!汪小菲家小七寶成馬年第一團寵,玥兒抱弟弟畫面太暖

扒星人
2026-02-28 20:35:02
王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

王一博風(fēng)波升級!吐槽肖戰(zhàn)等十幾位明星,細(xì)節(jié)對上,爆料者被扒!

古希臘掌管月桂的神
2026-02-28 09:35:27
特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

特朗普苦等4天中方終于回信,對美開出兩大條件,做不到訪華免談

安珈使者啊
2026-03-01 12:15:35
溫州這4名干部,獲提拔

溫州這4名干部,獲提拔

溫州草根
2026-03-01 21:29:35
搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回?fù)簟保蟹揭痪湓捇貞?yīng)

搶了中國港口,巴拿馬總統(tǒng)放話“敢反制就回?fù)簟保蟹揭痪湓捇貞?yīng)

環(huán)球Talk
2026-03-01 22:41:23
男籃世預(yù)賽晉級形勢分析!中國隊1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

男籃世預(yù)賽晉級形勢分析!中國隊1戰(zhàn)定生死:韓國或被聯(lián)手踢出局

籃球快餐車
2026-03-01 00:42:22
2026-03-02 00:03:00
硅星GenAI incentive-icons
硅星GenAI
比一部分人更先進(jìn)入GenAl。
243文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

健康
家居
教育
旅游
手機

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

家居要聞

素色肌理 品意式格調(diào)

教育要聞

11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會

旅游要聞

連線滯留巴林的廣州游客:跟媽媽睡酒店大堂,當(dāng)?shù)爻掷m(xù)被轟炸

手機要聞

小米11全系正式退役!安全更新停更,這些機型該換了

無障礙瀏覽 進(jìn)入關(guān)懷版