国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華學(xué)霸翁家翌:拒絕DeepSeek,到OpenAI去

0
分享至



出品|搜狐科技

作者|常博碩

編輯| 楊 錦

“如果人生是一場游戲,那我的游戲結(jié)算分數(shù)是記得我名字的人的數(shù)量?!?/p>

做更有意義的事,讓更多人記得他的名字,這是翁家翌從高中時代以來的夢想。

近日,ChatGPT背后的一位中國工程師翁家翌在AI播客WhynotTV Podcast中亮相,并首次講述了自己從清華少年到OpenAI基礎(chǔ)設(shè)施工程骨干的經(jīng)歷。

2020年,翁家翌在清華大學(xué)計算機科學(xué)與技術(shù)系獲得本科學(xué)位,隨后,在卡內(nèi)基梅隆大學(xué)碩士畢業(yè)后,2022年,翁家翌加入OpenAI任研究工程師。

在OpenAI期間,翁家翌的名字出現(xiàn)在了從ChatGPT到GPT-4o再到GPT-5的幾乎每一次重大模型發(fā)布的貢獻者名單中。他的核心貢獻可以總結(jié)為三個關(guān)鍵詞:強化學(xué)習(xí)(RL)、后訓(xùn)練(Post-training)以及Infra(基礎(chǔ)設(shè)施)。


在清華“做慈善”

在清華,翁家翌第一次清晰地意識到“信息差”這件事。

“我不覺得信息差是一件值得被保護的東西?!庇谑牵诔缟袃?nèi)卷和競爭的環(huán)境里,翁家翌做了一件在當(dāng)時并不“討老師喜歡的事”。他把自己所有搜集到的作業(yè)、代碼、學(xué)習(xí)資料,幾乎原封不動地開源到GitHub。

“你現(xiàn)在去清華隨便抓個計算機系的學(xué)弟,問認不認識捐樓的人,他們大概率不認識,但你問他認不認識翁家翌,他應(yīng)該認識。因為畢竟大家都看我的作業(yè)?!?/p>

在清華,信息差往往被當(dāng)作一種生存資源,但是他卻覺得,每個人都應(yīng)該平等的擁有信息。

“我不想讓后人重蹈覆轍,經(jīng)常疲于奔命。因為很多人不是很擅長搜集東西,但是他其實是很有能力的。如果能夠給這些人一個信息平權(quán)的機會,那他可能會活得更好。我當(dāng)時覺得如果把自己的作業(yè)開源的話,可能會幫更多學(xué)弟學(xué)妹擁有更多自己的時間去做他們更想做的事情?!?/p>

這種信息平權(quán)與開源的理念后來一直影響著他的生活。

大二那年,他進入朱軍老師的實驗室。在貝葉斯、GAN(生成式對抗網(wǎng)絡(luò))、強化學(xué)習(xí)三個方向里選了強化學(xué)習(xí),“我當(dāng)時其實不知道它們分別是什么,以為強化學(xué)習(xí)是搞圖像的?!?/p>

翁家翌坦言,圖形學(xué)曾是他最感興趣的,他在圖形學(xué)課程甚至完成了一個16K高清圖渲染大作業(yè),并發(fā)明了一種加速迭代收斂的新算法,最終拿到了全班僅有的兩個A+之一。

但他還是做了取舍。“搞科研不能腳踏兩條船”,他最終選擇了繼續(xù)走強化學(xué)習(xí)的路。

他的第一個科研項目是在一個上世紀90年代的游戲中訓(xùn)練神經(jīng)網(wǎng)絡(luò),讓智能體在固定地圖里完成從出生點到終點的任務(wù),包括殺怪、撿血包、避障、通關(guān)。雖然最終他用強化學(xué)習(xí)方法拿下冠軍,但卻意識到自己并不享受整個過程。

他將強化學(xué)習(xí)研究稱為“煉丹”,因為研究者往往需要花費數(shù)周時間在黑盒般的算法中反復(fù)調(diào)試超參數(shù)。這種痛苦的經(jīng)歷讓他意識到,當(dāng)時的強化學(xué)習(xí)研究高度依賴啟發(fā)式(Heuristic)方法,且環(huán)境單一、算力匱乏,極難實現(xiàn)規(guī)模化(Scale up)。

也正因此,他開始有意識地將重心轉(zhuǎn)向工具層面:“我非常擅長做軟件工程的事,可以重構(gòu)代碼、優(yōu)化用戶體驗。至于怎么調(diào),那不是我想碰的東西?!?/p>

在進入OpenAI之前,當(dāng)時業(yè)界主流的強化學(xué)習(xí)框架是RLlib。在翁家翌看來,RLlib雖然功能強大,但極其臃腫且抽象層級過高,導(dǎo)致研究者很難看清底層的邏輯,且修改成本極大。于是秉持著“與其忍受,不如重造”的想法,他在短短兩周內(nèi)就手擼出了天授框架的第一版。

對他而言,天授不僅僅是一個技術(shù)項目,更是一個“產(chǎn)品”。在他看來,技術(shù)是什么樣不重要,重要的是抓住需求。

后來,為了解決留學(xué)生群體的信息差,他開發(fā)了“退學(xué)網(wǎng)(Tuixue Online)”,一個能夠自動抓取簽證預(yù)約狀態(tài)的系統(tǒng)。對翁家翌而言,只要解決了大家真實的痛點,它就是有價值的。

他把這兩個項目都稱作“做慈善”。這不僅讓他確定了自己真正所熱愛的技術(shù)方向,也帶給他強大的滿足感:“完全nonprofit(非盈利),這種慈善項目讓我感覺非常滿足。”


“我不想去大廠當(dāng)螺絲釘”

碩士期間,翁家翌便開始琢磨找工作的事?!耙婚_始投了18家公司,就收到Google和AutoML(陳天奇團隊)的offer。”

面對大廠的橄欖枝,他說:“我不想去Google,在大廠當(dāng)螺絲釘,然后做一些自己不是那么喜歡的事兒?!?/p>

在此之后,他拿到幻方量化、英偉達、TikTok,以及Facebook AI Research(FAIR)的offer。“當(dāng)時幻方要搞一個AI Lab,也就是后來的DeepSeek?!?/p>

他坦言,如果沒有其他選擇,可能就會加入幻方做強化學(xué)習(xí)infra。但最終,他等到了OpenAI。

“OpenAI跟DeepMind是當(dāng)時RL里面搞得最好的兩個research lab(研究實驗室)。我希望能夠有一個機會來體驗世界上最前沿的一些research(研究)到底是怎么做的,而不是像在學(xué)校里面,像小作坊一樣只有幾個PHD手搓一個東西?!?/p>

2022年,翁家翌正式加入OpenAI,那時ChatGPT還沒走進大家的視野。

翁家翌完整參與了從ChatGPT、GPT-4o到正在研發(fā)中的GPT-5幾乎所有重大模型的開發(fā)進程。他的名字出現(xiàn)在每一份核心貢獻者名單中,他的工作邏輯可以說是用極致的工程能力為科研算法鋪路。

在OpenAI內(nèi)部,翁家翌最核心的貢獻是主導(dǎo)并搭建了整個后訓(xùn)練階段(Post-training)的強化學(xué)習(xí)基礎(chǔ)設(shè)施(RL Infra)。“每發(fā)一個大的release(發(fā)布),每發(fā)一個大的模型,我的名字就得放上去?!彼χf,“因為大家都在用整個Post-Training infra去訓(xùn)練RHF的模型?!?/p>

所謂的Post-training,其實是讓大模型變得更像人的關(guān)鍵環(huán)節(jié)。翁家翌搭建的RL Infra支撐了模型在這個階段的對齊和邏輯推理訓(xùn)練。這意味著他要處理的是如何在大規(guī)模算力集群上,讓強化學(xué)習(xí)算法穩(wěn)定、高效地運行,且能靈活適配研究員們不斷冒出的新想法。

在翁家翌看來,模型的性能差異有時并不源于算法優(yōu)劣,而源于基礎(chǔ)設(shè)施的完善程度。他表示:“每家的Infra structure都有不同程度的Bug,誰修的Bug多,誰的模型性能就越好?!彼贠penAI的日常,很大一部分就是通過極致的工程手段,排除系統(tǒng)中的不確定性,讓算法的潛力得以完全釋放。

“賣鏟子”是翁家翌對自己技術(shù)路徑最生動的隱喻。在淘金熱中,挖金礦的人(做研究、發(fā)Paper)可能空手而歸,但賣鏟子的人(做工具、造基礎(chǔ)設(shè)施)永遠有其確定性的價值。

同時,翁家翌也正在參與OpenAI下一代RL Infra的重構(gòu)工作。“舊架構(gòu)已經(jīng)三年多了,堆積的問題其實已經(jīng)很多了?!監(jiān)penAI要推倒重來,目標(biāo)是清理技術(shù)債,幫助研究員以更高迭代效率推進實。

在OpenAI在取得巨大的成功之后,有無數(shù)的團隊成員離開了這家公司。但在翁家翌看來,“一個健康的組織就是所有人都是可以被替代的?!?/strong>他也承認,在OpenAI內(nèi)部,現(xiàn)在沒有誰是不可替代的。

談及ChatGPT的成功,翁家翌將其歸功于OpenAI組織內(nèi)部的信息流暢度。他分享到,領(lǐng)導(dǎo)層始終保持對細節(jié)的強關(guān)注,Greg Brockman(聯(lián)合創(chuàng)始人兼總裁)幾乎參與過公司所有基礎(chǔ)設(shè)施模塊,而Sam Altman(聯(lián)合創(chuàng)始人兼CEO)也通過研究助理及時了解公司內(nèi)部所有的技術(shù)進展。

談及AGI,翁家翌表示:“OpenAI內(nèi)部抓15個人,可能有20種定義AGI的方法?!睂τ谒麃碚f,“如果AI能完成80%、90%我認為有意義的任務(wù),那它可能就是是AGI了。”但他也坦言,目前他日常負責(zé)的代碼上,尚無法放心交給模型修改。

雖然熱愛開源,但人總是要在現(xiàn)實之間做出權(quán)衡。面對“OpenAI不Open”的質(zhì)疑,翁家翌表示:“你沒法直接把最好的模型開源,因為公司要生存,這很現(xiàn)實”尤其在資源密集型的模型研發(fā)階段,資本輸血與商業(yè)可持續(xù)是讓公司能夠存活和繼續(xù)創(chuàng)新的必要條件。

不過他也開心地說道,如果公司資源不受限,“我當(dāng)然會很開心地開源RL Infra團隊這兩三年的成果?!?/p>


“如果想進工業(yè)界,讀PhD是浪費生命”

在找工作之前,其實翁家翌也思考過要不要讀博。他說,在清華的體系里,學(xué)歷永遠是越高越好,“當(dāng)身處那個環(huán)境的時候,其實很難跳出這個評價體系。”

但翁家翌想建立一個自己的評價體系。他對這個問題直言不諱:“如果想進工業(yè)界,讀PhD其實是在浪費生命。”

在他看來,“教一個研究員(Researcher)如何做好工程(Engineering),要遠比教一個工程師(Engineer)如何做好研究來的難?!?/p>

在訪談中,他多次強調(diào)一個對工業(yè)界極其關(guān)鍵、但在學(xué)術(shù)體系中并不被優(yōu)先訓(xùn)練的工程化迭代能力。

傳統(tǒng)PhD訓(xùn)練,更強調(diào)的是如何選一個“學(xué)術(shù)上成立”的方向,如何把故事講完整、把實驗結(jié)果畫得漂亮、把論文寫得自洽。這些能力在學(xué)術(shù)體系中至關(guān)重要,但在工業(yè)界,尤其是大模型時代的AI公司里,已經(jīng)不再是最稀缺的能力。

在他看來,今天的研究型工業(yè)實驗室,并不缺創(chuàng)新和想法,也不缺能夠判斷方向?qū)Σ粚Φ娜恕?strong>真正稀缺的是誰能在單位時間內(nèi),驗證更多正確的Idea。而這件事,幾乎完全依賴于工程與Infra。

他表示,如果目標(biāo)已經(jīng)非常明確是要進入工業(yè)界、進入AI lab,那更有效的路徑,反而是盡早通過碩士、本科階段的項目積累,構(gòu)建出與博士學(xué)生同臺競爭的能力結(jié)構(gòu)。

“你完全可以以master為跳板,甚至在本科的時候,就攢夠進入工業(yè)界的籌碼。關(guān)鍵不是你有沒有PhD title,而是你有沒有差異化?!?/p>

在訪談的最后,翁家翌表示,如果讓AI去解決一個世界難題,他最想做的是預(yù)測未來。

“所有的東西都是可以被預(yù)測的,所以理論上它是可以用AI解決的?!痹谖碳乙羁磥?,世界是確定性的,自由意志是幻覺,所有事件在宇宙大爆炸之初就已注定。這是他堅信的宿命論。

“上帝不擲骰子”,他說,“我嘗試去證偽,我也非常想讓他能夠證偽。”“我覺得三維生物都是有自己的局限性的。在三維生物的認知里面,時間就是一個線性單向流動的。但是有可能在四維的時間里面,時間并不是單向流動的,它可以任意跳躍。這是我找到的迄今為止合理的解釋?!?/p>

他認為,面對這種令人不安的世界觀,最好的方式就是假裝不知道,然后去體驗當(dāng)下的人生。

盡管在事業(yè)上取得了巨大成功,但翁家翌坦言自己目前正處于一個迷茫期。他感覺在RL Infra這個他長期熱愛的領(lǐng)域確定性的事情變得越來越多。他給自己未來的目標(biāo)是擁有充分的自由和資源去找到并做自己真正想做的事。

在訪談的最后,他說:“我曾經(jīng)一度想通了自己想要什么,但是我其實還是沒有那么想通,這個問題值得一生去思考?!?/p>



運營編輯 |曹倩審核|孟莎莎




特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
神宮寺奈緒的哭戲:一滴眼淚,如何將作品抬升到不屬于它的高度

神宮寺奈緒的哭戲:一滴眼淚,如何將作品抬升到不屬于它的高度

春天不是讀書天
2026-03-01 22:22:17
首發(fā)0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

首發(fā)0分他打球拖累全隊!球迷炮轟郭士強選他是錯誤,該選得分王

老吳說體育
2026-03-01 19:21:06
連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

連續(xù)2場逆轉(zhuǎn),中國男籃兩連勝,李弘權(quán)9+11成奇兵 高詩巖防守拉滿

替補席看球
2026-03-01 17:55:20
超20000名旅客滯留!“迪拜機場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費用

超20000名旅客滯留!“迪拜機場已經(jīng)沒有航班了”,阿聯(lián)酋宣布:承擔(dān)所有旅客滯留費用

江西工人報
2026-03-01 22:27:25
搶完中企資產(chǎn),再搜查辦公室,巴當(dāng)局闖下大禍,中國準(zhǔn)備甩出王牌

搶完中企資產(chǎn),再搜查辦公室,巴當(dāng)局闖下大禍,中國準(zhǔn)備甩出王牌

嘆知
2026-02-28 21:25:23
1-0!女足亞洲杯揭幕戰(zhàn),東道主拿下首勝,中國隊3日下午衛(wèi)冕首秀

1-0!女足亞洲杯揭幕戰(zhàn),東道主拿下首勝,中國隊3日下午衛(wèi)冕首秀

侃球熊弟
2026-03-01 19:01:07
整天開會有啥必要???

整天開會有啥必要???

北京老付
2026-01-20 10:59:33
哈梅內(nèi)伊的死,將了特朗普的軍!哈梅內(nèi)伊最后“陽謀”,有多毒?

哈梅內(nèi)伊的死,將了特朗普的軍!哈梅內(nèi)伊最后“陽謀”,有多毒?

今夜繁星墜落
2026-03-02 00:21:33
伊朗發(fā)動大規(guī)模襲擊:已襲擊27個美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

伊朗發(fā)動大規(guī)模襲擊:已襲擊27個美軍基地和以軍總司令部等地;伊方公布導(dǎo)彈擊中以軍總參謀部圖

極目新聞
2026-03-01 13:09:32
俄媒警告中國:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

俄媒警告中國:美國打伊朗只是幌子,目的是逼解放軍到太平洋決戰(zhàn)

阿嘵田侃故事
2026-02-28 20:21:18
伊朗伊斯蘭革命衛(wèi)隊指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

伊朗伊斯蘭革命衛(wèi)隊指揮官:伊朗目前使用的只是“廢舊導(dǎo)彈”

參考消息
2026-03-01 01:29:04
樓市走到現(xiàn)在,有一種“預(yù)感”越來越強烈了!或超出很多人的想象

樓市走到現(xiàn)在,有一種“預(yù)感”越來越強烈了!或超出很多人的想象

阿離家居
2026-03-01 16:25:00
500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

500萬英鎊輸光,住出租屋的破產(chǎn)冠軍,對陣開勞斯萊斯的豪門公子

情感大頭說說
2026-03-01 13:41:53
哈梅內(nèi)伊身亡,伊朗對多國不宣而戰(zhàn),中俄態(tài)度完全一致,中東變天

哈梅內(nèi)伊身亡,伊朗對多國不宣而戰(zhàn),中俄態(tài)度完全一致,中東變天

混沌錄
2026-03-02 00:18:14
劉強東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

劉強東砸50億,在廣東造游艇!這門新生意,還沒開張就先賺了3億

財經(jīng)保探長
2026-03-01 18:12:05
伊朗伊斯蘭革命衛(wèi)隊發(fā)布6號公告

伊朗伊斯蘭革命衛(wèi)隊發(fā)布6號公告

界面新聞
2026-03-01 12:51:42
如今黃金價格變成了一個天大的笑話,買黃金可笑到什么程度

如今黃金價格變成了一個天大的笑話,買黃金可笑到什么程度

花小貓的美食日常
2026-03-01 11:57:50
特朗普通報全球,他帶領(lǐng)美國贏了中國!話音剛落,中方對美征稅

特朗普通報全球,他帶領(lǐng)美國贏了中國!話音剛落,中方對美征稅

別讓往昔的悲傷和對未來的恐懼
2026-03-02 00:11:50
難怪伊朗進行如此瘋狂反擊,事實證明:哈梅內(nèi)伊一開始就被炸死了

難怪伊朗進行如此瘋狂反擊,事實證明:哈梅內(nèi)伊一開始就被炸死了

墨蘭史書
2026-03-01 23:43:19
營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

營銷造假?有網(wǎng)友發(fā)現(xiàn)鴻蒙智行多個營銷視頻使用加速、倒放素材

新浪財經(jīng)
2026-02-28 22:28:30
2026-03-02 01:03:00
搜狐科技 incentive-icons
搜狐科技
搜狐科技官方賬號
4702文章數(shù) 9180關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機器人手機、折疊屏、人形機器人

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

頭條要聞

媒體:美以能精準(zhǔn)"斬首"背后 摩薩德的"手筆"令人咋舌

體育要聞

火箭輸給熱火:烏度卡又輸斯波教練

娛樂要聞

黃景瑜 李雪健坐鎮(zhèn)!38集犯罪大劇來襲

財經(jīng)要聞

中東局勢升級 如何影響A股、黃金和原油

汽車要聞

理想汽車2月交付26421輛 歷史累計交付超159萬輛

態(tài)度原創(chuàng)

藝術(shù)
健康
親子
時尚
教育

藝術(shù)要聞

看!這位伊朗超模如何顛覆你的美麗認知!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

親子要聞

金龜子女兒流產(chǎn)后,為兒子舉辦2歲生日宴,三個卡通可愛的蛋糕

今年春天最流行的4件衛(wèi)衣,照著穿就很好看

教育要聞

11年,學(xué)生平均增高5.52厘米!成都這所小學(xué),登上教育部發(fā)布會

無障礙瀏覽 進入關(guān)懷版