国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從IMO金牌到GPT-5:OpenAI如何用一場“技術(shù)營銷”重新定義AI推理?

0
分享至

OpenAI的一個員工連續(xù)發(fā)了11個帖子,稱他們的內(nèi)部實驗?zāi)P鸵呀?jīng)可以拿到國際數(shù)學(xué)奧賽金牌,真是這樣嗎?這款模型實力到底如何?

要回答這個問題,我們首先要確定一個共識:那就是像OpenAI這樣的公司不管是CEO奧特曼,還是任意員工在公開社交媒體發(fā)布信息,都肯定是精心策劃的具有明確目的性的商業(yè)行為

說白了,他們說話,絕不可能像普通人發(fā)個朋友圈一樣,而是想要達(dá)到類似于Marketing營銷的效果。

第一個帖子就很講究,直接1/N開頭,表明還有更多信息,但具體不知道多少,給人期待值。另外直接說了OpenAI一個實驗中的模型達(dá)到了世界上最著名的數(shù)學(xué)競賽IMO金牌水平


IMO就是數(shù)學(xué)競賽中的奧林匹克比賽,能拿到金牌的都是能力萬中無一的人,圖中可以看到這些人后來成就都遠(yuǎn)超普通人。


而AI能拿到這個級別的分?jǐn)?shù),其實OpenAI就在這里埋下一個“隱喻”,那就是OpenAI的模型依舊冠絕全世界。

配圖也暗示了這一點兒,它用的是草莓+金牌。


草莓的單詞是strawberry,不知道大家記不記得,去年年底有一個巨大的hype,就是OpenAI在秘密的訓(xùn)練名叫Q和Strawberry的模型,現(xiàn)在我覺得GPT5的代號就是Strawberry。


我的假設(shè)基于8/N條推,發(fā)帖人說了,GPT5馬上要發(fā)布,因為他是代表OpenAI發(fā)的這個帖子,并且沒有刪除或者其他爭議,那說明這個信息就是OpenAI公關(guān)部門或者市場營銷部門共同參與編寫的,所以真實度很高


同時他還說,拿到IMO金牌的模型是一個實驗性質(zhì)的模型,近幾個月內(nèi)不準(zhǔn)備發(fā)布。

那說明了什么,這個實驗?zāi)P痛蟾怕适腔贕PT5做的post-training,極有可能是o系列的,甚至有盡可能就叫o4-ultra或者o4-heavy之類的名字。

我的想法基于第3和4條twitter,作者說了,IMO題目的難度必須要經(jīng)過超長時間的思考,所以大模型LLM reasoning的時間就得從幾秒延長到100mins,這個數(shù)據(jù)遠(yuǎn)超市面上的reasoning LLM的時間,特別是過長的reasoning會被認(rèn)為是死鎖被強制的切斷。

那么這個reasoning時間>=10 mins的實驗版,一定是基于GPT5,做的超長reasoning frame的超重型模型,專門用來做超級復(fù)雜問題的推理模型


結(jié)合第二個帖子看,他宣稱實驗?zāi)P秃腿祟愐粯拥囊?guī)則,2個4.5小時的時間,不用工具或者網(wǎng)絡(luò),單純憑借模型本身的能力。


這就也變相的印證了第五個帖子的核心信息,這也是OpenAI想要秀的肌肉。


他強調(diào),這一成就并非通過“狹隘的、針對特定任務(wù)的方法論”實現(xiàn)的。簡單來說,他們沒有為IMO問題專門設(shè)計一個“數(shù)學(xué)求解器”,而是通過改進通用強化學(xué)習(xí)(general-purpose reinforcement learning)測試時計算擴展(test-time compute scaling)這兩個基礎(chǔ)方法論。

這就是秀肌肉,他想要說的就是GPT5以及基于GPT5做的post-training得到的模型就是世界級的,同時它也是通用型大模型。

所謂的general-purpose,其實就跟AGI中的General異曲同工,還是告訴大家,OpenAI還是朝著AGI的方向在走,同時依舊最前沿SOTA。

這里面的兩個核心詞匯,都在暗示他們的技術(shù)先進性。

  • 通用強化學(xué)習(xí)(general-purpose reinforcement learning): 這意味著他們很可能解決了“獎勵稀疏”和“信用分配”等在復(fù)雜任務(wù)中的核心RL難題。特別是帖子4中提到的,IMO證明這種難以驗證、沒有明確獎勵的場景,他們成功“超越了傳統(tǒng)RL范式”,這對于所有需要復(fù)雜規(guī)劃和創(chuàng)造性的任務(wù)(如科學(xué)發(fā)現(xiàn)、寫小說、制定商業(yè)策略)都有著巨大的借鑒意義。

  • 測試時計算擴展(test-time compute scaling)這暗示了模型在推理(inference)階段使用了大量的計算資源進行類似“深度思考”或“搜索”的過程(可能類似于思維樹/Tree of Thoughts的復(fù)雜版本)。模型不是“一蹴而就”給出答案,而是可以花時間去探索、驗證和構(gòu)建一個復(fù)雜的論證。這是一種讓模型能力在不重新訓(xùn)練的情況下大幅提升的有效路徑。

此外他還提到了一些測試時候的方法論,盡量讓大家覺得他們的模型測試是公平合理的,這里不展開說,陶哲軒也評價了這件事,他的主要觀點就是OpenAI做IMO題目的過程并不公開,所以他不予置評。


最后,作者還說了一個比較私人的事情,讓整個thread顯得不那么營銷。做法是作者用自己2021年對2025年的預(yù)測(MATH達(dá)到30%)與現(xiàn)實(IMO金牌)進行對比,展示了AI發(fā)展的超指數(shù)級速度


怎么說呢,對于整個AI環(huán)境來說肯定是有好處的,畢竟大家都推舉,才有可能讓整個行業(yè)獲得大量關(guān)注,以及大量金錢,但OpenAI的目的明顯不止于此,他們可能一直想做的是AI寡頭。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
《老舅》大結(jié)局:崔國明到死不知五大真相,宏偉、老劉是殺人兇手

《老舅》大結(jié)局:崔國明到死不知五大真相,宏偉、老劉是殺人兇手

宇林網(wǎng)絡(luò)
2025-12-27 17:29:54
日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開降清原因:難怪清廷要抹黑他

日本發(fā)現(xiàn)原版吳三桂反叛檄文,揭開降清原因:難怪清廷要抹黑他

掠影后有感
2025-12-25 12:43:41
剛剛,雷迪克點名詹姆斯!湖人交易即將達(dá)成!

剛剛,雷迪克點名詹姆斯!湖人交易即將達(dá)成!

柚子說球
2025-12-28 12:28:40
阿斯:博格巴必須拿出更有說服力的表現(xiàn),才能重新回歸法國隊

阿斯:博格巴必須拿出更有說服力的表現(xiàn),才能重新回歸法國隊

懂球帝
2025-12-28 17:28:09
開播整整26年 《海賊王》動畫第一季終于在本周完結(jié)

開播整整26年 《海賊王》動畫第一季終于在本周完結(jié)

3DM游戲
2025-12-28 18:22:35
0比4慘??!20歲陳熠顯現(xiàn)巨大差距,網(wǎng)友感嘆:毫無還手之力

0比4慘敗!20歲陳熠顯現(xiàn)巨大差距,網(wǎng)友感嘆:毫無還手之力

卿子書
2025-12-28 08:49:16
天生沒手沒腳,父母讓他自生自滅,他卻靠自己娶妻生子靠嘴養(yǎng)家

天生沒手沒腳,父母讓他自生自滅,他卻靠自己娶妻生子靠嘴養(yǎng)家

削桐作琴
2025-12-28 14:23:45
美國兵不血刃,徹底打醒了我們!

美國兵不血刃,徹底打醒了我們!

戎評
2025-12-28 21:16:24
人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

人均消費過萬!如今誰還在為KTV買單?老板們直呼“苦不堪言”

音樂時光的娛樂
2025-12-14 00:12:34
一部封神!九條滿:出道一年即消失,卻讓老司機們念念不忘

一部封神!九條滿:出道一年即消失,卻讓老司機們念念不忘

灼灼小齊
2025-12-26 19:41:18
1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說歷史
2025-12-24 09:40:23
TA:切爾西冬窗預(yù)計不會有大動作 希望清洗30萬鎊周薪斯特林等人

TA:切爾西冬窗預(yù)計不會有大動作 希望清洗30萬鎊周薪斯特林等人

天光破云來
2025-12-29 02:54:04
不丹大王母70歲風(fēng)韻猶存,最受寵卻沒能生下長子,女兒是最美公主

不丹大王母70歲風(fēng)韻猶存,最受寵卻沒能生下長子,女兒是最美公主

毒舌小紅帽
2025-12-28 18:59:38
新華社消息|我國首個“6車道改12車道”高速公路改擴建項目建成通車

新華社消息|我國首個“6車道改12車道”高速公路改擴建項目建成通車

新華社
2025-12-28 11:46:57
“家貧而貌美,不是好事!”小學(xué)生發(fā)的視頻,評論區(qū)太真實!

“家貧而貌美,不是好事!”小學(xué)生發(fā)的視頻,評論區(qū)太真實!

牛牛叨史
2025-12-28 23:53:30
多家博物館公告:暫停開放

多家博物館公告:暫停開放

深圳晚報
2025-12-26 23:58:02
南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

南博新消息,徐鶯被曝領(lǐng)國家專項補助,還有人冒出頭為她站臺

奇思妙想草葉君
2025-12-26 23:17:24
錢再多有啥用?身價上億美金的貝克漢姆現(xiàn)狀,給所有運動員提了醒

錢再多有啥用?身價上億美金的貝克漢姆現(xiàn)狀,給所有運動員提了醒

人間無味啊
2025-12-24 19:34:17
“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

“飛人”劉翔徹底躺平,42歲每天游山玩水,看他曬世界各地游玩照

可樂談情感
2025-12-25 15:47:33
王毅會見泰國外長西哈薩

王毅會見泰國外長西哈薩

界面新聞
2025-12-29 07:10:44
2025-12-29 07:51:00
平凡AI incentive-icons
平凡AI
高校AI從業(yè)者
54文章數(shù) 23關(guān)注度
往期回顧 全部

科技要聞

五年之約到期,小米:林斌擬減持20億美元

頭條要聞

獨居女子離世民政局任遺產(chǎn)管理人:女子遺產(chǎn)或有300萬

頭條要聞

獨居女子離世民政局任遺產(chǎn)管理人:女子遺產(chǎn)或有300萬

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

貴金屬“牛市”能否跨年

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

數(shù)碼
家居
旅游
公開課
軍事航空

數(shù)碼要聞

NuPhy Node100鍵盤上市:高矮6軸體、3配色可選,498.95元

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

旅游要聞

活力重慶2025|年接待游客將突破5億人次 重慶憑啥圈粉全球

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

馮德萊恩稱歐洲愿繼續(xù)與烏美合作 強調(diào)安全保障重要性

無障礙瀏覽 進入關(guān)懷版