国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OpenAI大佬爆料:本科生靠一篇博客殺進(jìn)OpenAI!沒博士,0篇論文

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】他沒博士、沒論文,卻靠公開改進(jìn)論文和跑基準(zhǔn)測試,直接打動大佬、入職OpenAI!Noam Brown親證:行動力和開源項(xiàng)目,才是逆襲頂級AI實(shí)驗(yàn)室的真正通行證。

就在今天,OpenAI傳奇研究員 、德?lián)銩I之父Noam Brown的一篇文章被刷屏了。

沒有博士學(xué)位,沒有研究背景,是否有可能在頂尖AI實(shí)驗(yàn)室找到工作?

這聽起來像天方夜譚,但這個(gè)世界上奇妙的地方就在于,這樣的例子還真不少。

比如,一個(gè)叫Keller Jordan的小哥,僅僅憑借一篇開源博客,就成功入職OpenAI,成為一名機(jī)器學(xué)習(xí)研究員!


是的,他沒有寫論文,而是將完整的研究過程、代碼和實(shí)驗(yàn)結(jié)果在GitHub上完全開源。

最后Noam Brown總結(jié)道:雖然如今開放研究的空間比以前小了,但是在已有論文的基礎(chǔ)上做改進(jìn),依然是一個(gè)向?qū)嶒?yàn)室研究員證明自己能力的絕佳方式!


這種做法,也會讓對方更有信心,為你爭取到一次面試機(jī)會。

從AI審核做起,走向人生巔峰

2020年,Keller畢業(yè)于UCSD,獲得數(shù)學(xué)和計(jì)算機(jī)的雙學(xué)士學(xué)位。

畢業(yè)時(shí),他從未發(fā)表過任何一篇論文。

第一份工作, 是在一家人工智能內(nèi)容審核初創(chuàng)公司。


有一天,他看到谷歌研究大牛Behnam最近發(fā)表的一篇論文,想到了一個(gè)改進(jìn)思路,于是給Behnam發(fā)了一封郵件。

Behnam看到郵件后,同意指導(dǎo)這個(gè)年輕人。在沒有人脈、沒有背景的情況下,小哥就這樣和大佬搭上了線。

更神奇的來了,這段合作,最終促成了一篇ICLR論文。

再后來,Keller的一項(xiàng)表現(xiàn)亮眼的工作「NanoGPT speed run」,直接改變了全新的研究范式,這不僅讓特斯拉AI負(fù)責(zé)人Karpathy稱贊不已,還引起了OpenAI的注意。

這不是一篇傳統(tǒng)意義上的論文,卻成為Keller命運(yùn)的轉(zhuǎn)折點(diǎn)。

因?yàn)樗械墓ぷ鞫加型暾涗?,而且成果可量化、進(jìn)展清晰,所以,OpenAI毫不猶豫地向他伸出了橄欖枝。

讓Karpathy直呼「干得漂亮」

NanoGPT是Karpathy開源的一個(gè)項(xiàng)目,是一個(gè)極簡的輕量級GPT訓(xùn)練和微調(diào)框架。

而Keller喜歡干的一件事,就是不斷刷新NanoGPT的訓(xùn)練速度。為此,他不斷嘗試新的方法。

在2024年10月,他跑出了一個(gè)成果,將訓(xùn)練Transformer模型的token效率提高了3.8倍!


這也讓他直接贏得Karpathy的盛贊。

NanoGPT speedrun的目標(biāo)聽起來非常簡單:在固定模型規(guī)模(124M Transformer)和固定驗(yàn)證集損失目標(biāo)(3.28 val loss)的前提下,用盡可能少的token、盡可能短的時(shí)間完成訓(xùn)練。

Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch訓(xùn)練代碼,將其改造為一個(gè)可復(fù)現(xiàn)、可量化、可對比的基準(zhǔn)。

最終,他讓Token效率提升了3.8倍,而且從原本約10B tokens降低到2.7B tokens,即可達(dá)到目標(biāo)loss。


這意味著,這個(gè)改進(jìn)可以被嚴(yán)格驗(yàn)證,是一個(gè)硬指標(biāo)。

讓實(shí)驗(yàn)便宜到「人人能參與」

而且,Keller還非常有獨(dú)創(chuàng)性。

與很多動輒需要數(shù)十萬、上百萬算力成本的訓(xùn)練不同,他在設(shè)計(jì)這個(gè)speedrun時(shí),有一個(gè)非常明確的原則:讓嘗試新想法的成本足夠低。

為此,他刻意做了幾件事,比如讓代碼壓縮到極簡,只有537行;在8×H100的全新環(huán)境下,讓安裝和運(yùn)行的時(shí)間僅為20分鐘;甚至單次的嘗試成本,低至8美元。

即使在今天的AI研究環(huán)境中,這也是一個(gè)極其罕見的設(shè)計(jì)選擇。

這就意味著,從此不是只有大實(shí)驗(yàn)室才能參與,所有個(gè)人研究者、學(xué)生、獨(dú)立工程師都能快速驗(yàn)證想法,創(chuàng)新不會再被算力門檻擋住。

被OpenAI注意到

就這樣,NanoGPT speedrun成為了Keller逆襲之路上的關(guān)鍵一環(huán)。

一切都表明,這個(gè)成果非常硬:代碼、日志、實(shí)驗(yàn)都完全可復(fù)現(xiàn);在指標(biāo)上,完全無法作弊;甚至,還有開發(fā)社區(qū)的真實(shí)參與。

甚至連驗(yàn)證方式都被設(shè)計(jì)得極其嚴(yán)謹(jǐn):每一次speedrun的log文件中,都會包含完整代碼副本。

任何人想復(fù)現(xiàn)一個(gè)新紀(jì)錄,只需調(diào)用log文件即可。

Muon橫空出世

而接下來,整件事情發(fā)展到了高潮。

在2024年底,他設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器Muon橫空出世,直接憑卓越性能刷新了NanoGPT和CIFAR-10訓(xùn)練速度的世界紀(jì)錄!


Muon,是一種為神經(jīng)網(wǎng)絡(luò)2D參數(shù)隱藏層設(shè)計(jì)的優(yōu)化器。它的核心思想是,SGD-動量法(SGD-momentum)生成的更新矩陣,通過Newton-Schulz迭代進(jìn)行正交化處理,生成接近于半正交矩陣的更新,從而提升訓(xùn)練效率。

它的實(shí)現(xiàn)簡單高效,支持在bf16精度下穩(wěn)定運(yùn)行,顯著降低了計(jì)算開銷。


比起AdamW優(yōu)化器,Muon在多個(gè)任務(wù)中,表現(xiàn)非常驚艷。

雖然AdamW能讓GPT、LLaMA、Qwen學(xué)得又穩(wěn)又快,但隨著模型參數(shù)從幾億增加到幾千億,訓(xùn)練時(shí)間從幾天變成幾周甚至幾個(gè)月,AdamW的局限性開始顯現(xiàn)。

雖然還未成為主流通用優(yōu)化器,但Muon的出現(xiàn)表明,它很可能是AI模型訓(xùn)練領(lǐng)域的一次重大基礎(chǔ)創(chuàng)新。

入職OpenAI

Muon在開發(fā)者社區(qū)的影響力越來越大,也就在同時(shí),Keller于2024年12月,正式加入OpenAI。


有趣的是,Keller在2月份表示,雖然Muon火了,也幫他進(jìn)入了OpenAI,但是他不會給Muon寫一篇論文。

在他看來,與其在arXiv發(fā)一篇大概率被「淹沒」的論文,還不如繼續(xù)老老實(shí)實(shí)地研究自己的優(yōu)化器。

畢竟在他看來,大多數(shù)優(yōu)化器論文都是虛假的水文。


這些人,都成功逆襲大公司

此外,Noam Brown還列舉了其他成功的案例。

比如被谷歌DeepMind發(fā)掘的Sholto Douglas。


他在X上十分低調(diào),從未以一作身份發(fā)表過任何引人注目的論文,入行時(shí)間也只有一年半,然而,他卻是Gemini成功的背后關(guān)鍵人物。


還在麥肯錫工作時(shí),Sholto就逐漸確信AI會迎來爆發(fā),于是開始在業(yè)余時(shí)間做自己的項(xiàng)目,還在Jax的GitHub上提出不少有洞見的問題。

這些表現(xiàn)打動了James Bradbury,最終被邀請到谷歌DeepMind去面試。

Andy Jones是一位半退休的量化分析師,在測試時(shí)計(jì)算還沒火起來之前,他就寫了一篇論文,畢竟了比較了擴(kuò)大預(yù)訓(xùn)練規(guī)模和擴(kuò)大測試時(shí)計(jì)算量的影響。


這篇論文讓人印象極其深刻,并是因?yàn)樗⑿铝四硞€(gè)基準(zhǔn),而是做出了非常聰明的設(shè)計(jì)選擇,自己編寫了GPU加速的環(huán)境,并且進(jìn)行了嚴(yán)謹(jǐn)細(xì)致的消融實(shí)驗(yàn)。

最終,Andy Jones入職Anthropic。


參考資料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
朝鮮勞動黨新一屆中央政治局常委選舉產(chǎn)生

朝鮮勞動黨新一屆中央政治局常委選舉產(chǎn)生

澎湃新聞
2026-02-24 07:35:04
中國不再手軟?中國果斷切斷俄電進(jìn)口,普京痛失大單,原因很現(xiàn)實(shí)

中國不再手軟?中國果斷切斷俄電進(jìn)口,普京痛失大單,原因很現(xiàn)實(shí)

浩舞纆畫
2026-02-23 21:25:12
荷媒關(guān)注赫伊森社媒辱華:球員已為此道歉,希望風(fēng)波就此平息

荷媒關(guān)注赫伊森社媒辱華:球員已為此道歉,希望風(fēng)波就此平息

懂球帝
2026-02-24 20:08:11
如何判斷一個(gè)國家是否有軍國主義傾向

如何判斷一個(gè)國家是否有軍國主義傾向

小院之觀
2025-09-01 05:30:03
郭富城春晚僅獲5000元勞務(wù)費(fèi),卻與王一博同臺創(chuàng)收視新高,天王實(shí)力盡顯

郭富城春晚僅獲5000元勞務(wù)費(fèi),卻與王一博同臺創(chuàng)收視新高,天王實(shí)力盡顯

手工制作阿殲
2026-02-24 09:24:37
撒貝寧將第十次主持央視春晚,家庭變故煩心事多

撒貝寧將第十次主持央視春晚,家庭變故煩心事多

吃青菜長高
2026-02-06 21:23:14
慘跌40%!2026春節(jié)檔徹底翻車,僅1部電影破10億,張藝謀吳京都救不回

慘跌40%!2026春節(jié)檔徹底翻車,僅1部電影破10億,張藝謀吳京都救不回

可樂談情感
2026-02-24 09:45:59
谷愛凌不容易,拿金牌后在米蘭出行,像北京大妞!臉上難掩悲傷!

谷愛凌不容易,拿金牌后在米蘭出行,像北京大妞!臉上難掩悲傷!

小娛樂悠悠
2026-02-24 11:00:42
香港大火最新消息:港府將花68億收購宏福苑!每戶最高能拿507萬!

香港大火最新消息:港府將花68億收購宏福苑!每戶最高能拿507萬!

港漂圈
2026-02-24 19:36:40
董璇與張維伊回京!生圖下臉腫脖上全是褶,小酒窩耳垂大滿臉福相

董璇與張維伊回京!生圖下臉腫脖上全是褶,小酒窩耳垂大滿臉福相

林輕吟
2026-02-24 22:01:55
手機(jī)絕不可能取代傳呼機(jī)!30年前的舊報(bào)紙新聞被扒,引發(fā)熱議…

手機(jī)絕不可能取代傳呼機(jī)!30年前的舊報(bào)紙新聞被扒,引發(fā)熱議…

火山詩話
2026-02-24 06:14:44
十年童話變悲?。喝R斯特城從英超冠軍到降級

十年童話變悲?。喝R斯特城從英超冠軍到降級

春日筆記
2026-02-24 21:23:21
一栗小莎子春節(jié)第三次化療,素顏曬脫發(fā)還在比耶,好心態(tài)看哭網(wǎng)友

一栗小莎子春節(jié)第三次化療,素顏曬脫發(fā)還在比耶,好心態(tài)看哭網(wǎng)友

青橘罐頭
2026-02-24 22:26:12
冬奧冠軍“戰(zhàn)袍走光”惹爭議,耐克把FILA打蒙了

冬奧冠軍“戰(zhàn)袍走光”惹爭議,耐克把FILA打蒙了

首席品牌觀察
2026-02-24 16:41:56
朱婷最新決定曝光!不是退役,不去土耳其聯(lián)賽,已拒絕多隊(duì)報(bào)價(jià)

朱婷最新決定曝光!不是退役,不去土耳其聯(lián)賽,已拒絕多隊(duì)報(bào)價(jià)

跑者排球視角
2026-02-24 17:28:31
美軍集結(jié)“滅國”力量,伊朗最后關(guān)頭低頭了,全世界都緊盯特朗普

美軍集結(jié)“滅國”力量,伊朗最后關(guān)頭低頭了,全世界都緊盯特朗普

紀(jì)中百大事
2026-02-24 19:19:57
權(quán)志龍?jiān)偃翎呏袊汗?jié),女星鄧家佳跟風(fēng),被網(wǎng)友罵后刪博了事

權(quán)志龍?jiān)偃翎呏袊汗?jié),女星鄧家佳跟風(fēng),被網(wǎng)友罵后刪博了事

錢小刀娛樂
2026-02-22 21:54:09
決裂?鄭欽文單方面取關(guān)教練!更新頭像+簡介 疑似用尼采名言暗諷

決裂?鄭欽文單方面取關(guān)教練!更新頭像+簡介 疑似用尼采名言暗諷

念洲
2026-02-24 16:35:50
美國深夜收到消息:中國發(fā)兩條公告,亞洲震動,日本右翼陷入癲狂

美國深夜收到消息:中國發(fā)兩條公告,亞洲震動,日本右翼陷入癲狂

徐云流浪中國
2026-02-24 15:05:50
美國被曝已決定對伊朗發(fā)動軍事打擊,預(yù)計(jì)23日或24日

美國被曝已決定對伊朗發(fā)動軍事打擊,預(yù)計(jì)23日或24日

每日經(jīng)濟(jì)新聞
2026-02-23 14:21:22
2026-02-24 23:55:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時(shí)代
14583文章數(shù) 66640關(guān)注度
往期回顧 全部

科技要聞

宇樹科技發(fā)布四足機(jī)器人Unitree As2

頭條要聞

男子摟住繼女強(qiáng)吻動作親密 當(dāng)?shù)貗D聯(lián)介入

頭條要聞

男子摟住繼女強(qiáng)吻動作親密 當(dāng)?shù)貗D聯(lián)介入

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛單板滑雪的少年

娛樂要聞

汪小菲官宣三胎出生:承諾會照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬元起

態(tài)度原創(chuàng)

本地
時(shí)尚
旅游
教育
公開課

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

闊腿褲失寵了?這4條褲子承包你整個(gè)春天的時(shí)髦!

旅游要聞

西藏山南庫拉崗日雪山,女生徒步遇大雪:躲進(jìn)牛棚用衛(wèi)生巾取暖

教育要聞

因?yàn)楹⒆觽兊囊粋€(gè)疑問,這堂課上了8個(gè)月

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版