OpenAI發(fā)布GPT-4.1：開發(fā)者“特供”，超越4o，但還沒遙遙領(lǐng)先

2025-04-15 11:02:31　來源: 硅星GenAI

上海舉報

分享至

作者｜周一笑
郵箱｜ zhouyixiao@pingwest.com

就在上周，關(guān)于OpenAI下一代大模型即將發(fā)布的傳聞不斷。從業(yè)內(nèi)消息到代碼庫中發(fā)現(xiàn)的新模型標(biāo)識（如“o4-mini”、“o3”），種種跡象都指向眼前的發(fā)布——可能命名為GPT-4.1，被視為GPT-4o的有力繼承者。

現(xiàn)在，靴子終于落地。OpenAI這次沒有讓大家等太久，正式推出了備受期待的GPT-4.1系列，完整陣容包括旗艦版GPT-4.1、高性價比的GPT-4.1 mini和超輕量的GPT-4.1 nano。值得注意的是，這次更新的焦點并非面向大眾用戶，僅通過API接口提供服務(wù)，OpenAI官方文檔直言不諱地指出，這批新模型在各項能力上全面超越了此前的GPT-4o和GPT-4o mini，在編碼能力、指令遵循、長文本處理等核心維度實現(xiàn)了進(jìn)步，并輔以全新定價策略，其知識庫也已刷新至2024年6月。OpenAI的核心目標(biāo)明確：為構(gòu)建Agent應(yīng)用的開發(fā)者提供更強悍、更可靠且更經(jīng)濟的基礎(chǔ)設(shè)施。

#01

編程評測表現(xiàn)優(yōu)于GPT-4.5

編碼能力的強化是GPT-4.1系列最耀眼的亮點之一。官方數(shù)據(jù)顯示，在衡量真實世界軟件工程能力的SWE-bench Verified基準(zhǔn)測試中，GPT-4.1取得了54.6% 的分?jǐn)?shù)，相比GPT-4o的33.2%，實現(xiàn)了高達(dá)21.4個絕對百分點的提升。

更令人玩味的是，這一成績甚至比定位更高的GPT-4.5（38.0%）還要高出不少，上演了一出“4.1 > 4.5”的有趣戲碼。這意味著GPT-4.1在理解代碼庫、按需完成編程任務(wù)、生成能實際運行并通過測試的代碼方面有了質(zhì)的飛躍。

不僅如此，GPT-4.1在代碼處理的細(xì)節(jié)上也更為精進(jìn)。例如，它在處理代碼差異（diffs）方面更加可靠，根據(jù)Aider's polyglot diff benchmark，其表現(xiàn)甚至超越了GPT-4.5。官方還特別提到，模型進(jìn)行無關(guān)編輯（extraneous edits）的頻率從GPT-4o的9%顯著降低到了2%。

對于前端開發(fā)者而言，GPT-4.1生成的網(wǎng)頁應(yīng)用在功能性和美觀性上也更勝一籌，在內(nèi)部測試中，人類評估者有80%的時間更偏好GPT-4.1的作品。同時，為了支持更大規(guī)模的代碼編輯，GPT-4.1的最大輸出Token限制也提升至32,768個（GPT-4o為16,384個）。據(jù)OpenAI官方，來自早期測試伙伴如Windsurf和Qodo的反饋也印證了這些提升，他們觀察到GPT-4.1在實際代碼生成和代碼審查任務(wù)中效率更高、錯誤更少。

指令遵循能力的提升同樣是本次更新的重中之重。模型現(xiàn)在能更精準(zhǔn)地理解和執(zhí)行復(fù)雜、多步驟的指令。在Scale's MultiChallenge基準(zhǔn)測試（評估多輪對話中的指令遵循能力）中，GPT-4.1得分38.3%，較GPT-4o提升了10.5個絕對百分點。

而在IFEval測試（驗證模型遵循格式、長度、禁用詞等具體約束的能力）中，得分也從81.0%提升至87.4%。OpenAI內(nèi)部評估也顯示，特別是在處理困難指令時，GPT-4.1的改進(jìn)尤為明顯。這種可靠性的增強，對于構(gòu)建能夠自主完成任務(wù)的AI Agent系統(tǒng)至關(guān)重要，能有效減少開發(fā)者“手把手教”的負(fù)擔(dān)。

來自Blue J（稅務(wù)場景）和Hex（SQL生成）等合作伙伴的真實案例也表明，GPT-4.1在處理復(fù)雜規(guī)則和歧義、遵循細(xì)微指令方面表現(xiàn)更佳，顯著提高了應(yīng)用準(zhǔn)確性和開發(fā)效率。

#02

全系支持百萬級長文本處理

全系標(biāo)配且真正“可用”的百萬級長文本處理能力，是GPT-4.1系列的另一大重點。不僅旗艦版GPT-4.1，連同mini和nano版本，都支持高達(dá)100萬Token的上下文窗口（遠(yuǎn)超GPT-4o的128k）。OpenAI此次特別強調(diào)，這不僅僅是窗口大小的提升，更在于模型在如此長的文本中保持專注和理解的能力得到了強化。經(jīng)典的“大海撈針”（Needle in a Haystack）測試結(jié)果顯示，GPT-4.1系列能在1M長度的文本中穩(wěn)定、準(zhǔn)確地找到隱藏信息。

為了證明模型在更接近真實世界復(fù)雜場景下的長文本能力，OpenAI還開源了兩套新的評估基準(zhǔn)：OpenAI-MRCR（測試在長文本中區(qū)分和檢索多個相似信息點的能力）和Graphwalks（評估需要跨文本多處進(jìn)行邏輯跳轉(zhuǎn)和推理的多跳推理能力）。

測試結(jié)果表明，GPT-4.1在這些更具挑戰(zhàn)性的任務(wù)上，相比前代有顯著優(yōu)勢，并且能在百萬Token級別保持強大的性能。這對需要處理大量代碼、多份冗長法律文件或金融報告的應(yīng)用場景來說，無疑是巨大的福音。Thomson Reuters和Carlyle等金融和法律領(lǐng)域的早期用戶反饋，GPT-4.1在處理多份復(fù)雜長文檔、提取精確信息、進(jìn)行跨文檔推理方面，準(zhǔn)確性顯著提高，克服了以往模型在“大海撈針”、“中間丟失”和多跳推理上的局限。

當(dāng)然，處理百萬Token的延遲也是開發(fā)者關(guān)心的，官方給出的初步數(shù)據(jù)是，GPT-4.1處理128k Token時首個Token的p95延遲約15秒，1M Token則可能需要半分鐘左右，而mini和nano版本則會快得多。

#03

更好的多模態(tài)

此外，GPT-4.1家族的視覺理解能力也保持了高水準(zhǔn)。特別是GPT-4.1 mini，在MMMU、MathVista等多個視覺基準(zhǔn)測試上的表現(xiàn)甚至優(yōu)于GPT-4o。旗艦版GPT-4.1則在長視頻理解基準(zhǔn)Video-MME（無字幕長視頻問答）上取得了72.0%的新SOTA成績。

伴隨性能提升而來的是極具吸引力的新定價體系。得益于推理效率的優(yōu)化，GPT-4.1系列的價格相當(dāng)“香”：

GPT-4.1: 輸入 $2.00 / 輸出 $8.00 (每百萬Token)，官方稱比GPT-4o的中位數(shù)查詢成本低26%。
GPT-4.1 mini: 輸入 $0.40 / 輸出 $1.60，在性能接近甚至超越GPT-4o的同時，成本和延遲大幅降低。
GPT-4.1 nano: 輸入 $0.10 / 輸出 $0.40，成為OpenAI有史以來最便宜、最快速的模型，且同樣支持1M上下文。

此外，Prompt Caching（提示緩存）的折扣從之前的50%提高到了75%，對于需要重復(fù)傳遞相同上下文的應(yīng)用能大幅節(jié)約成本。同時，使用Batch API（批量處理）還能享受額外的50%折扣。

需要注意的是，隨著GPT-4.1系列的登場，之前作為預(yù)覽版推出的GPT-4.5 Preview API也迎來了謝幕。OpenAI宣布，該API將在2025年7月14日正式關(guān)閉，給予開發(fā)者3個月的過渡時間，鼓勵大家遷移到性能更優(yōu)、成本更低的GPT-4.1系列。

#04

進(jìn)步了，但很難全贏

GPT-4.1的發(fā)布，被一些市場觀察者解讀為OpenAI對Anthropic和Google等競爭對手近期積極動作的回應(yīng)，而非一次顛覆性的技術(shù)突破。有不少評論直接指出，盡管進(jìn)步顯著，但在某些特定基準(zhǔn)上，如Aider Polyglot編碼測試，GPT-4.1（約52%）與Google Gemini 2.5 Pro（據(jù)報道約73%）相比仍有差距。

來自第三方基準(zhǔn)平臺（如與ChatLLM服務(wù)相關(guān)的Livebench）的早期結(jié)果在一定程度上支持了這種觀點：雖然確認(rèn)GPT-4.1相較于GPT-4o有所改進(jìn)（'It's better than GPT-4o'），但同時將其描述為一次“增量更新”（incremental update）。更值得注意的是，在OpenAI重點宣傳的編碼能力方面，該基準(zhǔn)評估認(rèn)為其表現(xiàn)“似乎并未優(yōu)于Google的Gemini 2.5 Pro或Anthropic的Claude 3 Sonnet (或更高版本模型)” 。這似乎意味著AI領(lǐng)域的競爭已進(jìn)入到更細(xì)分、更針對性的能力比拼階段，而非全面的代際碾壓。

而談及OpenAI，其“迷幻”的命名體系總是繞不開的話題。從GPT-4o、4.5、4.1，到內(nèi)部代號般的o1、o3、o4系列（還分low/medium/high/mini/pro各種后綴），再到ChatGPT界面上令人困惑的模型選項（4o、o3-mini、o1、Deep Research、4.5、帶任務(wù)調(diào)度的4o...），“像正常人一樣給模型命名”似乎成了一項不可能完成的任務(wù)。這對于一個力求普及AI技術(shù)的公司而言，無疑增加了用戶的理解成本。

盡管如此，OpenAI此次GPT-4.1系列的發(fā)布，仍然釋放了一個明確的信號：OpenAI沒有忘記開發(fā)者。GPT-4.5的官方API接下來一周內(nèi)也可以免費使用，每分鐘3次請求，一天200次，TPM1萬。

不過相較于GPT-4o在多模態(tài)交互上的驚艷問世，GPT-4.1系列更像是一次深入生產(chǎn)環(huán)節(jié)的“內(nèi)功”修煉，精準(zhǔn)解決了開發(fā)者在編碼、指令控制、長文本處理等核心痛點。這種API優(yōu)先、強調(diào)實用性和性價比的策略同時，不僅是對自身模型效率提升的自信展示，也勢必給Anthropic、Google、xAI等對手帶來更大的壓力。

或許OpenAI真正的“大招”還在后面——畢竟o3完整版和o4 mini模型的發(fā)布也已箭在弦上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.