国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI發(fā)布o(jì)3/o4-mini:"最智能"模型,圖片推理、工具調(diào)用全都有

0
分享至

本周果然是諸神之戰(zhàn)!

繼 GPT-4.1 發(fā)布、可靈2.0 發(fā)布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。

先來劃重點:

  • 本次發(fā)布的模型,分別是 o3 和 o4-mini;
  • 綜合看o4-mini性價比最高,o3能力最為綜合;
  • 兩個模型均為多模態(tài)推理模型,在代碼、科學(xué)方面表現(xiàn)出色;

*網(wǎng)友實測,認(rèn)為Benchmark又要更新了

多模態(tài)推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試:

*識別略有出入,真實型號是S9。不過這幾個型號確實外觀無太大差別,肉眼直接分辨也有難度。

Sam Altman本人也對這次發(fā)布劃了重點

ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。

*ChatGPT更新的頁面

"OpenAI 迄今為止最強大的模型們"

OpenAI 聯(lián)創(chuàng)之一 Greg Brockman 主持直播,開場白簡單直接,直接宣布今天的重點:“發(fā)布兩款新模型,o3 和 o4-mini”。

首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會進行更長時間的思考。

另一個特點是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經(jīng)發(fā)布的所有工具能力,包括聯(lián)網(wǎng)搜索、永久記憶等等。當(dāng)然,它們還是多模態(tài)的,可以直接對圖片進行推理。

強大的推理能力,以及廣泛的工具調(diào)用能力,使得這兩款模型非常適合科學(xué)研究、代碼生成或數(shù)學(xué)問題解答。

分開來看,o3 定位為OpenAI當(dāng)前最強大、最前沿的推理引擎。尤其是在編程、商業(yè)/咨詢和創(chuàng)意構(gòu)思等領(lǐng)域表現(xiàn)出色。

o4-mini 則更強調(diào)性價比,是一款專為快速、成本效率優(yōu)化的推理模型,它的體量更小,性價比更高,在數(shù)學(xué)、編程和視覺任務(wù)方面有著不錯的表現(xiàn)。

從科學(xué)方面的測評結(jié)果來看,o3 與 o4-mini 顯著領(lǐng)先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較,得分差距并不是十分明顯,多數(shù)情況下,o4-mini 會略微領(lǐng)先于 o3。

現(xiàn)場直播中也給出了一道 AIME 題目的測試結(jié)果:

對于這個數(shù)學(xué)問題,模型在給出了正確的常規(guī)解法和答案后,甚至還額外給出了一個相對更“聰明”的解法。

再來看代碼能力

本次發(fā)布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分?jǐn)?shù)。可以提供參考的是,剛剛發(fā)布的 GPT-4.1 在這項測試上的成績?yōu)?54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發(fā)布的模型在代碼生成能力測評上,終于超越了這個領(lǐng)域的王者Claude。

從現(xiàn)場給出的代碼類任務(wù)的 case 來看,模型在接到代碼問題后,到最終生成并執(zhí)行代碼之前,拆解出了一個個核心步驟。

本次發(fā)布的 o3 和 o4-mini 也都是多模態(tài)模型。

在官方給出的4項多模態(tài)測評數(shù)據(jù)結(jié)果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發(fā)布時,在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發(fā)布的 o3 在這項測評中的成績,直接超越了原榜單第一名的 Gemini 2.5 Pro。

不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預(yù)估推理成本之間的對比結(jié)果。

在達到相同的推理效果時,新模型所花費的預(yù)計推理成本基本均小于前代模型。模型的推理成本優(yōu)化效果在 o3 與 o1 進行對比時,提升十分的明顯。

OpenAI 稱對于大多數(shù)現(xiàn)實世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。

*各模型 API 價格對比,圖源:機器之心

總之,o4-mini是性價比之選,o3是最新的任務(wù)效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,還有 Agent

在介紹完新模型的信息后,Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對此的解讀是,它可以和擅長Coding的o3和o4-mini搭配。

插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規(guī)模最大的一筆收購。

在實際演示中,用戶只上傳了一張網(wǎng)友制作的小項目的帖子截圖。

模型先是對圖像中的內(nèi)容進行了識別,然后就在沒有任何指令的情況下,開始嘗試猜測用戶關(guān)于這張圖片的具體需求。

僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中,OpenAI Agent研究團隊成員,僅通過一張“圖像到 ASCII 風(fēng)格轉(zhuǎn)換”的截圖,把這個圖拖進終端,Codex 就將此前截圖網(wǎng)友的項目準(zhǔn)確完成,成功創(chuàng)建了一個簡單的ASCII風(fēng)格圖像轉(zhuǎn)換工具。

在發(fā)布會的最后,Greg Brockman 還預(yù)告說,o3-pro 預(yù)計將在幾周內(nèi)完成發(fā)布。

在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計”,希望用戶對 OpenAI 保留一些信心。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
忍無可忍!25萬捷克人上街怒吼:我們拒絕成為下一個匈牙利

忍無可忍!25萬捷克人上街怒吼:我們拒絕成為下一個匈牙利

阿鳧愛吐槽
2026-03-24 17:59:04
曝臺灣省歌手費玉清現(xiàn)狀曝光!無兒無女,和女閨蜜互相解決需求

曝臺灣省歌手費玉清現(xiàn)狀曝光!無兒無女,和女閨蜜互相解決需求

小徐講八卦
2026-04-02 07:51:08
“韓國想了想,還是把信息給伊朗了”

“韓國想了想,還是把信息給伊朗了”

觀察者網(wǎng)
2026-04-14 22:40:39
反轉(zhuǎn)!巴西部長強行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

反轉(zhuǎn)!巴西部長強行封殺比亞迪,盧拉深夜震怒:立刻卷鋪蓋走人!

觀察者海風(fēng)
2026-04-14 19:05:25
最后的瘋狂:許家印被抓捕的失控三秒鐘

最后的瘋狂:許家印被抓捕的失控三秒鐘

財經(jīng)保探長
2026-04-09 22:30:38
3月,拖后腿!我國外貿(mào)順差,不再是高增長,而是暴跌50%以上

3月,拖后腿!我國外貿(mào)順差,不再是高增長,而是暴跌50%以上

南生今世說
2026-04-14 11:01:52
時隔9年再進歐冠四強!馬競淘汰巴薩挺進半決賽,西蒙尼激動發(fā)聲

時隔9年再進歐冠四強!馬競淘汰巴薩挺進半決賽,西蒙尼激動發(fā)聲

夜白侃球
2026-04-15 09:11:14
兒子在校遭欺凌父親猝死在調(diào)解室,家屬稱學(xué)校拒絕擔(dān)責(zé),律師:若被欺凌屬實,學(xué)校要承擔(dān)行政、民事責(zé)任,相關(guān)責(zé)任人還可能面臨處分

兒子在校遭欺凌父親猝死在調(diào)解室,家屬稱學(xué)校拒絕擔(dān)責(zé),律師:若被欺凌屬實,學(xué)校要承擔(dān)行政、民事責(zé)任,相關(guān)責(zé)任人還可能面臨處分

8099999街頭巷尾
2026-04-14 11:24:09
后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

后續(xù)!孕婦200買水果被老公罵:已去醫(yī)院終止妊娠 老公發(fā)怒砸東西

小鋭有話說
2026-04-14 08:37:44
男童活蹦亂跳電話手表卻提醒“發(fā)燒了”,母親將其送醫(yī)后查出心肌損傷伴隨頻發(fā)性早搏!

男童活蹦亂跳電話手表卻提醒“發(fā)燒了”,母親將其送醫(yī)后查出心肌損傷伴隨頻發(fā)性早搏!

極目新聞
2026-04-15 09:06:25
孟子義線下當(dāng)車模,穿吊帶皮褲渾身拘謹(jǐn),拽衣服伸脖子體態(tài)差

孟子義線下當(dāng)車模,穿吊帶皮褲渾身拘謹(jǐn),拽衣服伸脖子體態(tài)差

日不西沉
2026-04-15 09:17:44
人民的名義:祁同偉自盡前,對侯亮平說:高小琴的孩子不是我的

人民的名義:祁同偉自盡前,對侯亮平說:高小琴的孩子不是我的

墨染塵香
2026-03-05 03:35:03
40萬級買豪華SUV,奔馳GLE降價后性價比驚人

40萬級買豪華SUV,奔馳GLE降價后性價比驚人

阿芒娛樂說
2026-04-12 16:39:19
榮威i6預(yù)售6.59萬元起? 上汽乘用車張亮:將加碼燃油車市場

榮威i6預(yù)售6.59萬元起? 上汽乘用車張亮:將加碼燃油車市場

每日經(jīng)濟新聞
2026-04-14 20:56:13
恥辱!利物浦 4 大巨星集體擺爛,斯洛特昏招葬送一切

恥辱!利物浦 4 大巨星集體擺爛,斯洛特昏招葬送一切

奶蓋熊本熊
2026-04-15 06:40:30
10時0分,美軍準(zhǔn)時動手,伊朗158艘艦船已被摧毀,中方站了出來

10時0分,美軍準(zhǔn)時動手,伊朗158艘艦船已被摧毀,中方站了出來

快看張同學(xué)
2026-04-15 09:44:18
沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

沒有這種食物,你的肌肉將消失!醫(yī)生:60歲后恢復(fù)肌力的7種食物

健康之光
2026-01-04 09:31:45
何超蕸去世僅1天,內(nèi)部員工再曝出大瓜,有位長期伴侶僅冰山一角

何超蕸去世僅1天,內(nèi)部員工再曝出大瓜,有位長期伴侶僅冰山一角

談史論天地
2026-04-15 05:34:00
巴基斯坦外長呼吁建立四國合作框架

巴基斯坦外長呼吁建立四國合作框架

界面新聞
2026-04-14 22:54:11
哪種運動性價比最高,柳葉刀給出答案了

哪種運動性價比最高,柳葉刀給出答案了

新浪財經(jīng)
2026-04-15 05:09:31
2026-04-15 10:32:49
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
127文章數(shù) 2關(guān)注度
往期回顧 全部

科技要聞

手機無死角上網(wǎng)?亞馬遜砸百億硬剛馬斯克

頭條要聞

遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當(dāng)?shù)卦侔l(fā)聲

頭條要聞

遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當(dāng)?shù)卦侔l(fā)聲

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

網(wǎng)曝鐘麗緹代孕要了個男孩 備孕近10年

財經(jīng)要聞

特朗普稱美國對伊朗的戰(zhàn)爭已經(jīng)結(jié)束

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

手機
教育
房產(chǎn)
游戲
公開課

手機要聞

iOS 26泄露案動態(tài):普羅瑟未完全遵循傳票要求,蘋果擬申請強制令

教育要聞

被家長圍攻的網(wǎng)絡(luò)游戲,為什么禁不掉?

房產(chǎn)要聞

改善標(biāo)桿,1.5w+起橫掃國興!??跇鞘?,打出最猛一張牌!

傳《戰(zhàn)神》將有中國和日本神話 還有凝膠方塊同伴

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版