国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI大佬爆料:本科生靠一篇博客殺進(jìn)OpenAI!沒(méi)博士,0篇論文

0
分享至


新智元報(bào)道

編輯:Aeneas

【新智元導(dǎo)讀】他沒(méi)博士、沒(méi)論文,卻靠公開(kāi)改進(jìn)論文和跑基準(zhǔn)測(cè)試,直接打動(dòng)大佬、入職OpenAI!Noam Brown親證:行動(dòng)力和開(kāi)源項(xiàng)目,才是逆襲頂級(jí)AI實(shí)驗(yàn)室的真正通行證。

就在今天,OpenAI傳奇研究員 、德?lián)銩I之父Noam Brown的一篇文章被刷屏了。

沒(méi)有博士學(xué)位,沒(méi)有研究背景,是否有可能在頂尖AI實(shí)驗(yàn)室找到工作?

這聽(tīng)起來(lái)像天方夜譚,但這個(gè)世界上奇妙的地方就在于,這樣的例子還真不少。

比如,一個(gè)叫Keller Jordan的小哥,僅僅憑借一篇開(kāi)源博客,就成功入職OpenAI,成為一名機(jī)器學(xué)習(xí)研究員!


是的,他沒(méi)有寫(xiě)論文,而是將完整的研究過(guò)程、代碼和實(shí)驗(yàn)結(jié)果在GitHub上完全開(kāi)源。

最后Noam Brown總結(jié)道:雖然如今開(kāi)放研究的空間比以前小了,但是在已有論文的基礎(chǔ)上做改進(jìn),依然是一個(gè)向?qū)嶒?yàn)室研究員證明自己能力的絕佳方式!


這種做法,也會(huì)讓對(duì)方更有信心,為你爭(zhēng)取到一次面試機(jī)會(huì)。

從AI審核做起,走向人生巔峰

2020年,Keller畢業(yè)于UCSD,獲得數(shù)學(xué)和計(jì)算機(jī)的雙學(xué)士學(xué)位。

畢業(yè)時(shí),他從未發(fā)表過(guò)任何一篇論文。

第一份工作, 是在一家人工智能內(nèi)容審核初創(chuàng)公司。


有一天,他看到谷歌研究大牛Behnam最近發(fā)表的一篇論文,想到了一個(gè)改進(jìn)思路,于是給Behnam發(fā)了一封郵件。

Behnam看到郵件后,同意指導(dǎo)這個(gè)年輕人。在沒(méi)有人脈、沒(méi)有背景的情況下,小哥就這樣和大佬搭上了線。

更神奇的來(lái)了,這段合作,最終促成了一篇ICLR論文。

再后來(lái),Keller的一項(xiàng)表現(xiàn)亮眼的工作「NanoGPT speed run」,直接改變了全新的研究范式,這不僅讓特斯拉AI負(fù)責(zé)人Karpathy稱贊不已,還引起了OpenAI的注意。

這不是一篇傳統(tǒng)意義上的論文,卻成為Keller命運(yùn)的轉(zhuǎn)折點(diǎn)。

因?yàn)樗械墓ぷ鞫加型暾涗洠页晒闪炕?、進(jìn)展清晰,所以,OpenAI毫不猶豫地向他伸出了橄欖枝。

讓Karpathy直呼「干得漂亮」

NanoGPT是Karpathy開(kāi)源的一個(gè)項(xiàng)目,是一個(gè)極簡(jiǎn)的輕量級(jí)GPT訓(xùn)練和微調(diào)框架。

而Keller喜歡干的一件事,就是不斷刷新NanoGPT的訓(xùn)練速度。為此,他不斷嘗試新的方法。

在2024年10月,他跑出了一個(gè)成果,將訓(xùn)練Transformer模型的token效率提高了3.8倍!


這也讓他直接贏得Karpathy的盛贊。

NanoGPT speedrun的目標(biāo)聽(tīng)起來(lái)非常簡(jiǎn)單:在固定模型規(guī)模(124M Transformer)和固定驗(yàn)證集損失目標(biāo)(3.28 val loss)的前提下,用盡可能少的token、盡可能短的時(shí)間完成訓(xùn)練。

Keller所做的,就是基于Karpathy的nanoGPT/llm.c PyTorch訓(xùn)練代碼,將其改造為一個(gè)可復(fù)現(xiàn)、可量化、可對(duì)比的基準(zhǔn)。

最終,他讓Token效率提升了3.8倍,而且從原本約10B tokens降低到2.7B tokens,即可達(dá)到目標(biāo)loss。


這意味著,這個(gè)改進(jìn)可以被嚴(yán)格驗(yàn)證,是一個(gè)硬指標(biāo)。

讓實(shí)驗(yàn)便宜到「人人能參與」

而且,Keller還非常有獨(dú)創(chuàng)性。

與很多動(dòng)輒需要數(shù)十萬(wàn)、上百萬(wàn)算力成本的訓(xùn)練不同,他在設(shè)計(jì)這個(gè)speedrun時(shí),有一個(gè)非常明確的原則:讓嘗試新想法的成本足夠低。

為此,他刻意做了幾件事,比如讓代碼壓縮到極簡(jiǎn),只有537行;在8×H100的全新環(huán)境下,讓安裝和運(yùn)行的時(shí)間僅為20分鐘;甚至單次的嘗試成本,低至8美元。

即使在今天的AI研究環(huán)境中,這也是一個(gè)極其罕見(jiàn)的設(shè)計(jì)選擇。

這就意味著,從此不是只有大實(shí)驗(yàn)室才能參與,所有個(gè)人研究者、學(xué)生、獨(dú)立工程師都能快速驗(yàn)證想法,創(chuàng)新不會(huì)再被算力門檻擋住。

被OpenAI注意到

就這樣,NanoGPT speedrun成為了Keller逆襲之路上的關(guān)鍵一環(huán)。

一切都表明,這個(gè)成果非常硬:代碼、日志、實(shí)驗(yàn)都完全可復(fù)現(xiàn);在指標(biāo)上,完全無(wú)法作弊;甚至,還有開(kāi)發(fā)社區(qū)的真實(shí)參與。

甚至連驗(yàn)證方式都被設(shè)計(jì)得極其嚴(yán)謹(jǐn):每一次speedrun的log文件中,都會(huì)包含完整代碼副本。

任何人想復(fù)現(xiàn)一個(gè)新紀(jì)錄,只需調(diào)用log文件即可。

Muon橫空出世

而接下來(lái),整件事情發(fā)展到了高潮。

在2024年底,他設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器Muon橫空出世,直接憑卓越性能刷新了NanoGPT和CIFAR-10訓(xùn)練速度的世界紀(jì)錄!


Muon,是一種為神經(jīng)網(wǎng)絡(luò)2D參數(shù)隱藏層設(shè)計(jì)的優(yōu)化器。它的核心思想是,SGD-動(dòng)量法(SGD-momentum)生成的更新矩陣,通過(guò)Newton-Schulz迭代進(jìn)行正交化處理,生成接近于半正交矩陣的更新,從而提升訓(xùn)練效率。

它的實(shí)現(xiàn)簡(jiǎn)單高效,支持在bf16精度下穩(wěn)定運(yùn)行,顯著降低了計(jì)算開(kāi)銷。


比起AdamW優(yōu)化器,Muon在多個(gè)任務(wù)中,表現(xiàn)非常驚艷。

雖然AdamW能讓GPT、LLaMA、Qwen學(xué)得又穩(wěn)又快,但隨著模型參數(shù)從幾億增加到幾千億,訓(xùn)練時(shí)間從幾天變成幾周甚至幾個(gè)月,AdamW的局限性開(kāi)始顯現(xiàn)。

雖然還未成為主流通用優(yōu)化器,但Muon的出現(xiàn)表明,它很可能是AI模型訓(xùn)練領(lǐng)域的一次重大基礎(chǔ)創(chuàng)新。

入職OpenAI

Muon在開(kāi)發(fā)者社區(qū)的影響力越來(lái)越大,也就在同時(shí),Keller于2024年12月,正式加入OpenAI。


有趣的是,Keller在2月份表示,雖然Muon火了,也幫他進(jìn)入了OpenAI,但是他不會(huì)給Muon寫(xiě)一篇論文。

在他看來(lái),與其在arXiv發(fā)一篇大概率被「淹沒(méi)」的論文,還不如繼續(xù)老老實(shí)實(shí)地研究自己的優(yōu)化器。

畢竟在他看來(lái),大多數(shù)優(yōu)化器論文都是虛假的水文。


這些人,都成功逆襲大公司

此外,Noam Brown還列舉了其他成功的案例。

比如被谷歌DeepMind發(fā)掘的Sholto Douglas。


他在X上十分低調(diào),從未以一作身份發(fā)表過(guò)任何引人注目的論文,入行時(shí)間也只有一年半,然而,他卻是Gemini成功的背后關(guān)鍵人物。


還在麥肯錫工作時(shí),Sholto就逐漸確信AI會(huì)迎來(lái)爆發(fā),于是開(kāi)始在業(yè)余時(shí)間做自己的項(xiàng)目,還在Jax的GitHub上提出不少有洞見(jiàn)的問(wèn)題。

這些表現(xiàn)打動(dòng)了James Bradbury,最終被邀請(qǐng)到谷歌DeepMind去面試。

Andy Jones是一位半退休的量化分析師,在測(cè)試時(shí)計(jì)算還沒(méi)火起來(lái)之前,他就寫(xiě)了一篇論文,畢竟了比較了擴(kuò)大預(yù)訓(xùn)練規(guī)模和擴(kuò)大測(cè)試時(shí)計(jì)算量的影響。


這篇論文讓人印象極其深刻,并是因?yàn)樗⑿铝四硞€(gè)基準(zhǔn),而是做出了非常聰明的設(shè)計(jì)選擇,自己編寫(xiě)了GPU加速的環(huán)境,并且進(jìn)行了嚴(yán)謹(jǐn)細(xì)致的消融實(shí)驗(yàn)。

最終,Andy Jones入職Anthropic。


參考資料:

https://x.com/polynoamial/status/2014084431062114744

https://x.com/polynoamial/status/2014084432685326485

https://x.com/polynoamial/status/2014084509575291163


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
今起可預(yù)約!辦理2025年度個(gè)稅匯算 這些事項(xiàng)要注意

今起可預(yù)約!辦理2025年度個(gè)稅匯算 這些事項(xiàng)要注意

環(huán)球網(wǎng)資訊
2026-02-25 06:33:10
鞠彤欣(女,1991年出生),任深圳國(guó)資系上市公司副總裁

鞠彤欣(女,1991年出生),任深圳國(guó)資系上市公司副總裁

南方都市報(bào)
2026-02-24 22:18:13
76%日本人支持?高市早苗點(diǎn)名中國(guó),話音剛落,中方連出2重?fù)簦?>
    </a>
        <h3>
      <a href=紓瑤
2026-02-24 17:05:07
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
我國(guó)最“不靠譜”的三位專家,公開(kāi)在央視“忽悠”人,卻爆火28年

我國(guó)最“不靠譜”的三位專家,公開(kāi)在央視“忽悠”人,卻爆火28年

來(lái)科點(diǎn)譜
2026-02-19 07:05:21
縣城,已經(jīng)毫無(wú)隱私

縣城,已經(jīng)毫無(wú)隱私

視覺(jué)志
2026-02-24 18:59:01
閆學(xué)晶被曝新動(dòng)態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來(lái)了

閆學(xué)晶被曝新動(dòng)態(tài),求趙本山拉一把被拒,老趙當(dāng)年就看出來(lái)了

非常先生看娛樂(lè)
2026-02-06 17:35:21
凌峰:兩岸婚姻太累,七十九歲隱居泰國(guó),妻女失聯(lián),一人孤苦伶仃

凌峰:兩岸婚姻太累,七十九歲隱居泰國(guó),妻女失聯(lián),一人孤苦伶仃

小熊侃史
2026-02-23 13:03:54
春節(jié)復(fù)工僅1天,5位名人相繼離世,年齡跨度79歲

春節(jié)復(fù)工僅1天,5位名人相繼離世,年齡跨度79歲

月光作箋a
2026-02-24 05:09:24
看新聞漲知識(shí),原來(lái)“游客”是看祖籍的

看新聞漲知識(shí),原來(lái)“游客”是看祖籍的

李老逵亂擺龍門陣
2026-02-25 09:13:18
特朗普苦等4天,被中方“潑了冷水”,來(lái)不了北京?中國(guó)話里有話

特朗普苦等4天,被中方“潑了冷水”,來(lái)不了北京?中國(guó)話里有話

聞香閣
2026-02-24 22:51:39
朱婷最新決定曝光!不是退役,不去土耳其聯(lián)賽,已拒絕多隊(duì)報(bào)價(jià)

朱婷最新決定曝光!不是退役,不去土耳其聯(lián)賽,已拒絕多隊(duì)報(bào)價(jià)

跑者排球視角
2026-02-24 17:28:31
中方出臺(tái)進(jìn)一步反制措施,高市早面急忙改口:不支持“核共享”

中方出臺(tái)進(jìn)一步反制措施,高市早面急忙改口:不支持“核共享”

近史閣
2026-02-25 08:08:46
蔚來(lái)?yè)Q電站爆了:這不是一場(chǎng)技術(shù)勝利,是一場(chǎng)基礎(chǔ)設(shè)施的豪賭

蔚來(lái)?yè)Q電站爆了:這不是一場(chǎng)技術(shù)勝利,是一場(chǎng)基礎(chǔ)設(shè)施的豪賭

華庭講美食
2026-02-24 22:28:20
綠地建設(shè)集團(tuán)破產(chǎn)審查

綠地建設(shè)集團(tuán)破產(chǎn)審查

地產(chǎn)微資訊
2026-02-23 18:36:51
澤連斯基:拿個(gè)討飯籃子四處乞討,能制裁誰(shuí)?

澤連斯基:拿個(gè)討飯籃子四處乞討,能制裁誰(shuí)?

雪中風(fēng)車
2026-02-25 09:12:54
三孩政策刺激無(wú)果后,中央下狠手了!新政策讓3代人拍手叫好

三孩政策刺激無(wú)果后,中央下狠手了!新政策讓3代人拍手叫好

吃青菜長(zhǎng)高
2026-02-24 20:11:17
真正的職業(yè)精神!穆雷時(shí)隔13個(gè)月歸來(lái),怒批拿高薪就休戰(zhàn)的懦夫

真正的職業(yè)精神!穆雷時(shí)隔13個(gè)月歸來(lái),怒批拿高薪就休戰(zhàn)的懦夫

夜白侃球
2026-02-24 19:03:14
網(wǎng)易云音樂(lè),卡在算法和活人之間

網(wǎng)易云音樂(lè),卡在算法和活人之間

鈦媒體APP
2026-02-24 15:56:08
閻王爺開(kāi)示:親人托夢(mèng)從不說(shuō)話,地下缺了3樣?xùn)|西,魂魄難安

閻王爺開(kāi)示:親人托夢(mèng)從不說(shuō)話,地下缺了3樣?xùn)|西,魂魄難安

古怪奇談錄
2025-11-29 13:56:49
2026-02-25 10:20:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
14584文章數(shù) 66641關(guān)注度
往期回顧 全部

科技要聞

蘋(píng)果MacBook Pro要加觸摸屏了,還帶靈動(dòng)島

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會(huì)看特朗普的笑話

頭條要聞

牛彈琴:美伊大戰(zhàn)若還不打 全世界都會(huì)看特朗普的笑話

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

春節(jié)檔"開(kāi)門黑" 電影票少賣了7000萬(wàn)張

汽車要聞

入門即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

時(shí)尚
家居
教育
親子
公開(kāi)課

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

家居要聞

本真棲居 愛(ài)暖伴流年

教育要聞

上海匯工大學(xué)揭秘!別被名稱坑了志愿

親子要聞

日常操作,提高覺(jué)悟

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版