国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

MIT天才博士剛畢業(yè),就被前OpenAI CTO搶走!年薪或300萬(wàn)起步

0
分享至

MIT天才博士,清華學(xué)霸肖光烜官宣,正式加盟Thinking Machines,下一步主攻大模型預(yù)訓(xùn)練。

MIT天才博士一畢業(yè),火速加盟OpenAI前CTO初創(chuàng)!

最近,肖光烜(Guangxuan Xiao)在社交媒體官宣,剛剛完成了MIT博士學(xué)位。

下一步,他將加入Thinking Machines,專(zhuān)注于大模型預(yù)訓(xùn)練的工作。


評(píng)論區(qū)下方,英偉達(dá)科學(xué)家、xAI研究員、UCSD等一眾大佬,為他本人送上了祝賀。



清華雙學(xué)位學(xué)霸,MIT博士開(kāi)掛人生

打開(kāi)他的個(gè)人主頁(yè),多元而充實(shí)的經(jīng)歷便映入眼簾。

肖光烜本科畢業(yè)于清華大學(xué),拿到了雙學(xué)位,主修的是計(jì)算機(jī)科學(xué),金融學(xué)是第二學(xué)位。


在此期間,他獲得了清華大學(xué)綜合優(yōu)秀獎(jiǎng)學(xué)金(2019)、全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽(CUMCM)一等獎(jiǎng)(2020)、國(guó)家獎(jiǎng)學(xué)金(2020)、清華大學(xué)「未來(lái)學(xué)者」獎(jiǎng)學(xué)金(2021)等多項(xiàng)獎(jiǎng)項(xiàng)。

他曾于2020–2021年作為訪問(wèn)生(Visiting Student),前往斯坦福大學(xué)計(jì)算機(jī)系開(kāi)展科研工作。

2022年,肖光烜加入MIT攻讀博士學(xué)位,導(dǎo)師為韓松(Song Han)教授。

個(gè)人研究方向聚焦于:深度學(xué)習(xí)的高效算法與系統(tǒng),尤其是大規(guī)模基礎(chǔ)模型(Foundation Model)。


他于2022年9月至2026年1月,在MIT EECS擔(dān)任全職研究助理(Research Assistant)。

讀博期間,肖光烜曾多次進(jìn)入全球頂級(jí)科技大廠從事前沿研究實(shí)習(xí),具備了豐富的一線(xiàn)工業(yè)研發(fā)的經(jīng)驗(yàn)。


論文地址:https://arxiv.org/pdf/2309.17453

2024年2-5月期間,他作為英偉達(dá)實(shí)習(xí)生,研究方向是為長(zhǎng)上下文大語(yǔ)言模型推理加速。

他和團(tuán)隊(duì)提出了DuoAttention,結(jié)合檢索與流式注意力頭,實(shí)現(xiàn)高效推理。


論文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

隨后,他又參與了多項(xiàng)核心研究項(xiàng)目,其中包括:

  • XAttention:基于反對(duì)角評(píng)分的塊稀疏注意力機(jī)制

  • StreamingVLM:面向無(wú)限視頻流的實(shí)時(shí)理解模型

  • FlashMoBA:混合塊注意力(Mixture of Block Attention)的高效優(yōu)化

值得一提的是,肖光烜在研究之外,還有豐富的興趣愛(ài)好,比如足球、乒乓球、圍棋、鋼琴。

他曾擔(dān)任所在院系足球隊(duì)的隊(duì)長(zhǎng)兼先鋒,貝多芬的作品是個(gè)人最?lèi)?ài)。


一篇博士論文,破解LLM三大難題

比起耀眼的履歷,肖光烜的博士論文本身更值得深入研析與拆解。


不得不承認(rèn),如今大模型已經(jīng)無(wú)所不能,但它們依然太貴了。

顯存爆炸、推理太慢、長(zhǎng)上下文直接OOM(內(nèi)存溢出),這是幾乎所有LLM工程團(tuán)隊(duì)每天都在面對(duì)的現(xiàn)實(shí)。

Efficient Algorithms and Systems for Large Language Models這篇論文,給出了一個(gè)罕見(jiàn)的、從工程到理論、從算法到架構(gòu)的完整答案。

論文中, 他們提出了SmoothQuant,解決了一個(gè)長(zhǎng)期困擾工業(yè)界的問(wèn)題——激活值異常(activation outliers)。

SmoothQuant通過(guò)一個(gè)巧妙的數(shù)學(xué)等價(jià)變換,把量化難點(diǎn)從「激活」轉(zhuǎn)移到「權(quán)重」。

結(jié)果,它實(shí)現(xiàn)了首個(gè)在十億級(jí)模型上W8A8無(wú)損量化,無(wú)需重新訓(xùn)練,顯存更小、推理更快。

針對(duì)超長(zhǎng)序列的處理,作者在StreamingLLM中發(fā)現(xiàn)了「注意力匯點(diǎn)」(attention sink)現(xiàn)象——

即使沒(méi)有任何語(yǔ)義,初始token會(huì)被后續(xù)token持續(xù)關(guān)注。這些token的作用不是「理解」,而是數(shù)值穩(wěn)定。

結(jié)果,實(shí)現(xiàn)了常數(shù)內(nèi)存的流式推理,模型上下文長(zhǎng)度從數(shù)千token擴(kuò)展到百萬(wàn)級(jí)。

更進(jìn)一步,他們又把這一思想推廣到多模態(tài),StreamingVLM可以在保持時(shí)間一致性的同時(shí)處理長(zhǎng)達(dá)數(shù)小時(shí)的視頻內(nèi)容。

對(duì)于超長(zhǎng)上下文場(chǎng)景,團(tuán)隊(duì)又提出一個(gè)互補(bǔ)方案,分別針對(duì)不同的性能瓶頸。

  • KVCache太大,采用DuoAttention

注意力頭本身就有分工:少數(shù)負(fù)責(zé)「全局檢索」,多數(shù)只看「最近上下文」。

DuoAttention用混合策略,大幅降低顯存,卻幾乎不掉性能。

  • 預(yù)填充(Prefill)太慢,采用XAttention

利用反對(duì)角線(xiàn)評(píng)分機(jī)制,僅識(shí)別、計(jì)算必要的注意力塊,從而實(shí)現(xiàn)顯著的加速效果。

論文的最后,并沒(méi)有止步于「優(yōu)化現(xiàn)有模型」,通過(guò)對(duì)MoBA(塊混合注意力) 的信噪比分析,作者證明了:

理論上,block越小越好。

但現(xiàn)實(shí)是,GPU不答應(yīng),于是有了FlashMoBA,一種定制化的CUDA內(nèi)核,使小塊架構(gòu)在實(shí)踐中可行,并實(shí)現(xiàn)了最高可達(dá)9倍的速度提升。

這篇論文的價(jià)值在于,構(gòu)建了一整套高效大模型的完整框架,既回應(yīng)了當(dāng)下的現(xiàn)實(shí)挑戰(zhàn),也為下一代計(jì)算高效、普惠可及的AGI奠定了基礎(chǔ)。

平均350萬(wàn)年薪,碾壓OpenAI

最后來(lái)到一個(gè)大家比較感興趣的話(huà)題——薪資。

去年,硅谷人才爭(zhēng)奪戰(zhàn)激烈,BI一篇獨(dú)家挖到了Thinking Machines(TML)給員工們開(kāi)出的薪資——

基礎(chǔ)年薪高達(dá)50萬(wàn)美元(約350萬(wàn)元)。


據(jù)BI獲取的招聘數(shù)據(jù),TML向兩名技術(shù)員工支付了45萬(wàn)美元的基礎(chǔ)年薪,另一名員工的年薪則高達(dá)50萬(wàn)美元。

第四名員工被列為「聯(lián)合創(chuàng)始人/機(jī)器學(xué)習(xí)專(zhuān)家」,其年薪同樣為45萬(wàn)美元。

這些薪酬數(shù)據(jù),來(lái)自2025年第一季度,早于Murati以100億美元的估值,成功完成20億美元的種子輪融資。

總體來(lái)看,TML為這四名技術(shù)員工提供的平均年薪達(dá)到462,500美元。

相較之下,TML明顯高于業(yè)內(nèi)更為成熟LLM公司——

OpenAI在相關(guān)申報(bào)文件中列出的29名技術(shù)員工,平均年薪為292,115美元。

其中最高薪資為53萬(wàn)美元,最低為20萬(wàn)美元。

Anthropic向14名技術(shù)員工支付的平均年薪為387,500美元,薪資區(qū)間在30萬(wàn)至69萬(wàn)美元之間。

雖然比起Meta瘋狂的超1億美元薪酬還差得遠(yuǎn),但這一水平也在硅谷數(shù)一數(shù)二。

果然,21世紀(jì)最貴的還是人才。


參考資料:

https://x.com/Guangxuan_Xiao/status/2008779396497502337

https://guangxuanx.com/

https://scholar.google.com/citations?user=sRGO-EcAAAAJ

https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6

文章來(lái)源:新智元。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
李湘多個(gè)平臺(tái)賬號(hào)被禁止關(guān)注

李湘多個(gè)平臺(tái)賬號(hào)被禁止關(guān)注

界面新聞
2026-01-16 10:56:48
U23國(guó)足vs烏茲U23:王鈺棟、拜合拉木、楊希首發(fā),蒯紀(jì)聞替補(bǔ)

U23國(guó)足vs烏茲U23:王鈺棟、拜合拉木、楊希首發(fā),蒯紀(jì)聞替補(bǔ)

懂球帝
2026-01-17 18:23:22
活到1000歲?馬斯克驚人預(yù)言:人類(lèi)死亡可以被破解!

活到1000歲?馬斯克驚人預(yù)言:人類(lèi)死亡可以被破解!

徐德文科學(xué)頻道
2026-01-16 20:09:06
“女子向丈夫視頻道歉”后續(xù):丈夫高飛,被停職調(diào)查

“女子向丈夫視頻道歉”后續(xù):丈夫高飛,被停職調(diào)查

新京報(bào)政事兒
2026-01-17 15:09:18
爆小冷!王欣瑜連丟兩盤(pán)慘遭橫掃止步16強(qiáng),身體太累嗎?

爆小冷!王欣瑜連丟兩盤(pán)慘遭橫掃止步16強(qiáng),身體太累嗎?

搏擊江湖
2026-01-17 17:59:23
《慶余年3》演員名單:范思轍名字變待定,郭麒麟被資方踢出局?

《慶余年3》演員名單:范思轍名字變待定,郭麒麟被資方踢出局?

未曾青梅
2026-01-17 19:24:41
WTT球星賽:國(guó)乒直拍名將打瘋了!首局轟11-3,張本智和慘??!

劉姚堯的文字城堡
2026-01-17 18:01:44

德媒:中國(guó)正在贏得“全球人氣競(jìng)爭(zhēng)”

德媒:中國(guó)正在贏得“全球人氣競(jìng)爭(zhēng)”

參考消息
2026-01-16 18:59:04
善惡到頭終有報(bào)!57歲央視女主持王小丫,已走上另一條大路

善惡到頭終有報(bào)!57歲央視女主持王小丫,已走上另一條大路

家味美味道
2026-01-16 16:31:02
《消失的兇手》開(kāi)播,一口氣看完16集,我說(shuō):刑偵懸疑劇又出黑馬

《消失的兇手》開(kāi)播,一口氣看完16集,我說(shuō):刑偵懸疑劇又出黑馬

鄉(xiāng)野小珥
2026-01-17 15:41:24
為什么都是技術(shù)合伙人被踢出局?看完網(wǎng)友的分享:是這么個(gè)道理

為什么都是技術(shù)合伙人被踢出局?看完網(wǎng)友的分享:是這么個(gè)道理

夜深?lèi)?ài)雜談
2026-01-16 18:27:58
同比暴跌67%,免稅結(jié)束,車(chē)市真涼涼?

同比暴跌67%,免稅結(jié)束,車(chē)市真涼涼?

知嘹汽車(chē)
2026-01-16 17:45:01
不到48小時(shí),美總統(tǒng)或下臺(tái),第二個(gè)“印度”出現(xiàn),古巴徹底無(wú)退路

不到48小時(shí),美總統(tǒng)或下臺(tái),第二個(gè)“印度”出現(xiàn),古巴徹底無(wú)退路

通鑒史智
2026-01-17 19:20:29
目前北京最大降雪出現(xiàn)在房山周口店,房山區(qū)已發(fā)布暴雪藍(lán)警

目前北京最大降雪出現(xiàn)在房山周口店,房山區(qū)已發(fā)布暴雪藍(lán)警

新京報(bào)
2026-01-17 13:38:07
成都警方通報(bào)一起金店被盜案:已抓獲5名嫌疑人,贓物全部追回

成都警方通報(bào)一起金店被盜案:已抓獲5名嫌疑人,贓物全部追回

澎湃新聞
2026-01-16 22:15:03
羅永浩需要為西貝預(yù)制菜風(fēng)波擔(dān)責(zé)?律師解讀

羅永浩需要為西貝預(yù)制菜風(fēng)波擔(dān)責(zé)?律師解讀

中新經(jīng)緯
2026-01-17 00:25:19
1000架殲-20和900架殲-16?英國(guó)智庫(kù):難以戰(zhàn)勝2030年的中國(guó)空軍

1000架殲-20和900架殲-16?英國(guó)智庫(kù):難以戰(zhàn)勝2030年的中國(guó)空軍

軍機(jī)Talk
2026-01-17 14:25:03
川普在白宮捧著諾貝爾和平獎(jiǎng),諾獎(jiǎng)委員會(huì)坐不住了

川普在白宮捧著諾貝爾和平獎(jiǎng),諾獎(jiǎng)委員會(huì)坐不住了

北美省錢(qián)快報(bào)
2026-01-17 08:11:34
羅永浩公關(guān):有大V一個(gè)月前出謀劃策,現(xiàn)在賈國(guó)龍目標(biāo)就是“干老羅”

羅永浩公關(guān):有大V一個(gè)月前出謀劃策,現(xiàn)在賈國(guó)龍目標(biāo)就是“干老羅”

鳳凰網(wǎng)財(cái)經(jīng)
2026-01-16 22:14:22
浙江億萬(wàn)富豪俞兆洪去世!年僅48歲, 每日晨跑5公里仍未避風(fēng)險(xiǎn)

浙江億萬(wàn)富豪俞兆洪去世!年僅48歲, 每日晨跑5公里仍未避風(fēng)險(xiǎn)

老貓觀點(diǎn)
2026-01-17 09:54:06
2026-01-17 21:04:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5306文章數(shù) 64599關(guān)注度
往期回顧 全部

教育要聞

項(xiàng)立剛反對(duì)學(xué)英語(yǔ),送兒子去美國(guó)留學(xué)咋說(shuō)?這是騙誰(shuí)呢?

頭條要聞

媒體:網(wǎng)友捐款超1400萬(wàn) 并不能直接解決嫣然醫(yī)院?jiǎn)栴}

頭條要聞

媒體:網(wǎng)友捐款超1400萬(wàn) 并不能直接解決嫣然醫(yī)院?jiǎn)栴}

體育要聞

三巨頭走了倆,聯(lián)盟笑柄卻起飛了

娛樂(lè)要聞

馬年春晚首次聯(lián)排場(chǎng)外細(xì)節(jié)!

財(cái)經(jīng)要聞

保不準(zhǔn),人民幣會(huì)閃擊6.8!

科技要聞

8億周活扛不住燒錢(qián) ChatGPT終向廣告"低頭"

汽車(chē)要聞

林肯賈鳴鏑:穩(wěn)中求進(jìn),將精細(xì)化運(yùn)營(yíng)進(jìn)行到底

態(tài)度原創(chuàng)

健康
親子
手機(jī)
房產(chǎn)
教育

血常規(guī)3項(xiàng)異常,是身體警報(bào)!

親子要聞

雙胞胎寶寶的行為讓人好奇,他們長(zhǎng)大后回憶了當(dāng)時(shí)的聊天記錄,網(wǎng)友:回頭再看一遍還真說(shuō)得通

手機(jī)要聞

暫定3月!華為Pura X2與Mate 80 GTS齊發(fā),參數(shù)全線(xiàn)拉滿(mǎn)

房產(chǎn)要聞

真四代來(lái)了!這次,海口樓市將徹底顛覆!

教育要聞

科一、北川中學(xué)、蜀東外國(guó)語(yǔ)......綿陽(yáng)多所學(xué)校正在招聘

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版