国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI 最強(qiáng)推理模型 o3 發(fā)布,AGI 測試能力暴漲,它有多強(qiáng)大?會對哪些領(lǐng)域帶來影響?

0
分享至

12天的直播,最后一天放出來的東西大家都知道是個大招,挺多人猜GPT5的,因?yàn)樽詈髩狠S的大概率是大模型本身。

因?yàn)樯壌竽P?,特別是對于OpenAI這種標(biāo)桿公司,每一次的模型升級,基本上都代表了AI大模型領(lǐng)域的某種風(fēng)向。

這次壓軸大菜上的是o3模型,包括我在內(nèi)的很多人都很疑惑,o1之后為什么不是o2,而是o3。

OpenAI的CEO山姆奧特曼特意解釋了原因,就是他們公司非常不擅長起名字,然后o1之后就直接o3了。(可能這就是任性吧)

其實(shí)OpenAI的o系列模型,最大的特點(diǎn)就是擅長推理。比如說編程中涉及到了推理,數(shù)學(xué)也需要,物理化學(xué)這樣的理科學(xué)科也需要大量的推理,而o系列在這樣的任務(wù)中表現(xiàn)的尤其突出。

新的o3模型在推理上更進(jìn)一步,在Software Engineering和Codeforeces這倆測試上分?jǐn)?shù)相比它的上一代,o1模型提升很大。

第一個測試集的分?jǐn)?shù)從48.9提升到了71.7,第二個從1891到2727,提升幅度很大。

然后在數(shù)學(xué)上也有了提升,在AIME這個測試集上o1就已經(jīng)達(dá)到了83.3,o3直接把準(zhǔn)確率提升到了96.7,幾乎相同于一套數(shù)學(xué)卷子只錯一個的程度。

然后下一個測試集叫GPQA,它是一個博士生級別的問題測試集,如果要某個學(xué)科的博士來答題,一般能拿到70分左右。

o1模型可以做到78分左右,o3直接把分?jǐn)?shù)拉到87.7,遠(yuǎn)超人類選手的程度。

除了這幾個很常見的測試集,甚至引入了一個不太常見的測試集ARC AGI,它的全稱是Abstraction and Reasoning Corpus for Artificial General Intelligence ,專門設(shè)計出來測試AI。

這個相比大多數(shù)測試用的數(shù)據(jù)集都要難,其中的題目大多是這種推理問題,下面是一個簡單的例子,憑借直覺就能答得上來。

但是有些題目難度很高,比如下面這個。

黃色塊中有幾個其他色塊,新圖像外面就有幾層相同色塊。

你可以看到GPT4o只有9%的分?jǐn)?shù),但是o1直接翻了兩倍多到了21%,o3的分?jǐn)?shù)遠(yuǎn)超第二名的60%,達(dá)到了82.8%。

你可以看ARC AGI主席公開的數(shù)據(jù),o系列模型性能提升太線性了,甚至有點(diǎn)兒過于線性。

o3模型有幾個形態(tài),除了o3,還有o3 mini,應(yīng)該是蒸餾出來的小模型,mini版本也分為三種類型,分類的標(biāo)準(zhǔn)是推理消耗的計算資源。

分為low,medium以及high三種,滿足計算資源給的越多,性能越好的定理。

直播中測試了o3 mini low模式,用它做198道題,速度極快,只用了45秒,準(zhǔn)確率61.62%,估計用high模式或者o3滿血版,可能分?jǐn)?shù)會提升非常大。

最后,OpenAI提到了他們對于安全性的升級,總的來說,就是讓模型可以在這兩個維度上達(dá)到了很優(yōu)化的平衡。

它們用下面兩個維度做了評估:

?拒絕惡意提示(jailbreaks):測試模型是否能拒絕回答惡意請求,如繞過政策或生成有害內(nèi)容。

?避免過度拒絕(overrefusal):檢查模型在處理無害請求時是否會過于保守而拒絕回答。

o1 模型(深綠色星形)在拒絕惡意提示方面表現(xiàn)突出,同時對無害提示也更寬容,達(dá)到安全性和靈活性的平衡。


GPT-4o 表現(xiàn)較好,但相較于 o1 模型,在靈活性或安全性之間略顯妥協(xié)。Claude 3.5 和 Gemini 1.5 模型分別在某些方面表現(xiàn)突出,但無法同時兼顧兩方面優(yōu)化。

這一切的原因都來自于安全方面的考慮:

·大型語言模型容易受到對抗性攻擊(例如越獄攻擊、濫用內(nèi)容等)的威脅,同時可能過于保守,對無害請求拒絕回答。

·主要挑戰(zhàn):

a.如何防止模型生成有害內(nèi)容?

b.如何避免對無害輸入的過度拒絕?

現(xiàn)有方法的缺陷

·傳統(tǒng)方法依賴于“強(qiáng)化學(xué)習(xí)獎勵優(yōu)化”(RLHF)和“對抗性訓(xùn)練”(Adversarial Training),但這些方法存在以下問題:

a.過度依賴人工標(biāo)注,訓(xùn)練成本高,且難以擴(kuò)展。

b.泛化能力較差,在處理分布外輸入(out-of-distribution)時表現(xiàn)不穩(wěn)定。

新方法 - 深思熟慮的對齊 (Deliberative Alignment):

·提出了一個新型訓(xùn)練框架,結(jié)合了過程監(jiān)督和結(jié)果監(jiān)督,以改進(jìn)模型的安全性和泛化能力。

·自動生成訓(xùn)練數(shù)據(jù),減少人工依賴,提升對惡意提示的抵抗能力,同時減少對無害請求的過度拒絕。

下面的圖片詳細(xì)的介紹了幾個不同模型訓(xùn)練和推理的邏輯,o3采用的方法更多的利用了COT以及包含了大量的推理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

釘在恥辱柱上!國家文物局出手,這三個跳梁小丑,真的徹底涼涼了

戶外阿嶄
2025-12-28 17:07:24
女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗(yàn)

女卡車司機(jī)“半掛西施”去世后,網(wǎng)友分析網(wǎng)名,4個字竟字字應(yīng)驗(yàn)

千言娛樂記
2025-12-28 20:02:42
苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項(xiàng)目泡湯

苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項(xiàng)目泡湯

科普100克克
2025-12-07 18:20:34
美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

美國國務(wù)院發(fā)火,要求中國大陸“必須停止”,島內(nèi)一個時代或終結(jié)

三石記
2025-12-27 15:03:24
米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

米蘭20天首勝!暫登頂意甲,10戰(zhàn)維羅納全勝,連刷4大紀(jì)錄

奧拜爾
2025-12-28 21:33:44
杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

杭州姑娘“兔子警官”主動回應(yīng)“哄孩子式執(zhí)法”:“他們需要外力推一下……”

都市快報橙柿互動
2025-12-28 14:07:18
保定大量商戶突然關(guān)閉,整個街道冷冷清清

保定大量商戶突然關(guān)閉,整個街道冷冷清清

映射生活的身影
2025-12-27 18:09:05
統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

統(tǒng)治澳洲!韓旭26分鐘12中9高效22+5 加盟6戰(zhàn)全勝狂勝138分

醉臥浮生
2025-12-28 18:09:56
瓜子二手車發(fā)布榜單,保值排名出乎意料

瓜子二手車發(fā)布榜單,保值排名出乎意料

ZAKER新聞
2025-12-26 15:23:34
1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

1960年春節(jié),周總理請溥儀吃飯,酒桌上溥儀講了個慈禧的“笑話”,總理聽完,當(dāng)場陷入了沉思

歷史回憶室
2025-12-24 10:29:12
香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

香港男子命喪天水圍橋底,嫌疑人在深圳灣口岸落網(wǎng)!押回現(xiàn)場

南方都市報
2025-12-28 12:18:04
直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

直擊:日本發(fā)生重大交通事故,67輛車連環(huán)撞,幸存者顫抖回憶慘烈現(xiàn)場……

日本物語
2025-12-27 20:32:22
閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

閃評丨澤連斯基訪美之際 普京再就俄烏沖突局勢表態(tài)

國際在線
2025-12-28 15:07:02
畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

畸形兒風(fēng)波反轉(zhuǎn)!醫(yī)院回應(yīng)透露2個關(guān)鍵信息 闞清子的沉默早有預(yù)兆

觀察鑒娛
2025-12-28 10:26:06
201米!40億!騰訊西南總部,世界“第一扭”摩天樓

201米!40億!騰訊西南總部,世界“第一扭”摩天樓

GA環(huán)球建筑
2025-12-25 23:00:32
羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

羽球天王杯:銅牌誕生!世界第8復(fù)仇喬納坦,石宇奇首局7-11落后

劉姚堯的文字城堡
2025-12-28 20:01:00
61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

61歲奧巴馬夫人暴瘦后“逆生長”,與前總統(tǒng)丈夫合照笑開了花

艷兒說電影
2025-12-27 21:11:14
甚至來不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時切割公交車改造而成

甚至來不及準(zhǔn)備,湘超冠軍永州隊(duì)巡游花車為臨時切割公交車改造而成

懂球帝
2025-12-28 16:35:07
廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬,卻無一絲窮酸氣!

廣東一小伙,因入住毛坯房而走紅,花費(fèi)僅1萬,卻無一絲窮酸氣!

阿離家居
2025-12-28 10:19:49
沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

沖上熱搜!黃子韜因腦淤血接受開顱手術(shù)縫了43針,本人回應(yīng)

半島晨報
2025-12-28 18:04:45
2025-12-28 21:52:49
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

頭條要聞

新華社發(fā)文:積蓄統(tǒng)一大勢

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

教育
游戲
手機(jī)
旅游
軍事航空

教育要聞

從2026年北京選調(diào)擬錄用名單看升學(xué):這些大學(xué)最受青睞

醉酒兔女郎護(hù)送回家!重磅更新可偷看裙底?

手機(jī)要聞

1486.41萬臺!iPhone17系列中國市場銷量刷新紀(jì)錄,力壓國產(chǎn)機(jī)!

旅游要聞

各地持續(xù)推動冰雪旅游釋放新活力

軍事要聞

與特朗普會晤前 澤連斯基亮明“紅線”

無障礙瀏覽 進(jìn)入關(guān)懷版