国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

蘋果光速撤回RLAX論文:用了谷歌TPU和阿里Qwen,作者中還有龐若鳴

0
分享至




機(jī)器之心報(bào)道

編輯:Panda

昨天,蘋果一篇新論文在 arXiv 上公開然后又匆匆撤稿。原因不明。

不過觀看其提交歷史,可以看到該論文在 12 月 6 日(UTC)就已被提交到 arXiv,到 11 號(hào)已經(jīng)過去了 5 天,公開上線之后卻又被光速撤稿,這不由得地讓人好奇究竟發(fā)生了什么。



不過好在該論文有一個(gè) v1 版本已經(jīng)被互聯(lián)網(wǎng)記錄,所以我們也能打開這篇論文一探究竟。

論文中,蘋果揭示了他們開發(fā)的一個(gè)基于 TPU 的可擴(kuò)展 RL 框架RLAX

是的,你沒有看錯(cuò),不是 GPU,也不是蘋果自家的 M 系列芯片,而是谷歌的 TPU!還不止如此,這篇論文的研究中還用到了亞馬遜的云和中國的 Qwen 模型。



  • 論文標(biāo)題:RLAX: Large-Scale, Distributed Reinforcement Learning for Large Language Models on TPUs
  • 論文地址:https://arxiv.org/pdf/2512.06392v1

總之,這篇論文的貢獻(xiàn)還真不少。

不過,在具體介紹這篇論文的研究成果之前,我們有必要先關(guān)注一下其作者名單。

RLAX 的作者們



RLAX 論文共有四名核心作者:Runlong Zhou、Lefan Zhang、Shang-Chen Wu 和 Kelvin Zou。

通訊作者則是 Kelvin Zou 和 Cheng Leong。其中 Kelvin Zou 曾在蘋果擔(dān)任 Principal Engineer,現(xiàn)已經(jīng)入職 Meta,成為了一位 AI 研究科學(xué)家。而 Cheng Leong 則是已在蘋果工作超過 13 年的老將,現(xiàn)任蘋果 AI Infra(人工智能基礎(chǔ)設(shè)施)主管。



截圖自 LinkedIn

此外,我們還在作者名單中看到了龐若鳴的名字。

這位已經(jīng)加入 Meta 的前蘋果 AI 負(fù)責(zé)人與其他六位作者的名字一起也出現(xiàn)了論文第一頁的最下方,并被描述為「已離開蘋果公司。他們在受雇于蘋果公司期間為這項(xiàng)工作做出了貢獻(xiàn)。」而且他們基本都是前幾個(gè)月才剛剛離職。

簡單搜索一下這六位作者的履歷,可以看到:

  • Kelvin Zou 加入了 Meta
  • Hanzhi Zhou 已入職 OpenAI
  • Ye Ke 加入了 Anthropic
  • Floris Weers 以創(chuàng)始工程師身份加入了一家正處于隱身狀態(tài)的創(chuàng)業(yè)公司
  • Chong Wang 也加入了 Meta
  • Yi Zhang 現(xiàn)在 xAI 研究模型推理。

RLAX:為了搶占 TPU 而生

回到技術(shù)本身。強(qiáng)化學(xué)習(xí)(RL)對(duì)現(xiàn)代推理語言模型的重要性已無需多言,幾乎所有的頂尖模型都是基于 RL 的推理模型,包括 OpenAI o3、Claude 4、Grok 4、Gemini 2.5、DeepSeek R1 以及 Qwen 3。

蘋果開發(fā)的RLAX 是一個(gè)專為在大規(guī)模分布式 TPU 集群上高效執(zhí)行最先進(jìn) RL 算法而設(shè)計(jì)的強(qiáng)化學(xué)習(xí)框架



極致解耦與搶占式調(diào)度

RLAX 采用了參數(shù)-服務(wù)器(Parameter-Server)架構(gòu)。主訓(xùn)練器(Master Trainer)會(huì)定期將更新后的模型權(quán)重推送到參數(shù)服務(wù)器。與此同時(shí),一組推理工作器(Inference Workers)會(huì)拉取最新權(quán)重,并生成新的采樣數(shù)據(jù)(Rollouts)。

該團(tuán)隊(duì)引入了一套系統(tǒng)級(jí)技術(shù),將訓(xùn)練器、推理工作器和驗(yàn)證器(Verifiers)在邏輯上進(jìn)行了分離。這種邏輯分離使得 RLAX 能夠靈活且獨(dú)立地為各個(gè)組件分配計(jì)算資源。

最重要的是,RLAX 完全支持搶占式調(diào)度。這意味著當(dāng)有更高優(yōu)先級(jí)的任務(wù)(如在線推理負(fù)載)需要時(shí),系統(tǒng)可以立即回收 TPU 資源,而不會(huì)導(dǎo)致訓(xùn)練崩潰。

靈活的策略支持

RLAX 致力于解決大規(guī)模 LLM 后訓(xùn)練 RL 過程中的關(guān)鍵挑戰(zhàn),特別是如何高效處理 On-policy(在線策略)和 Off-policy(離線策略)RL。

為此,RLAX 提供了可編程的配置選項(xiàng)。用戶可以強(qiáng)制執(zhí)行「陳舊度界限」(Staleness Bounds),指定推理工作器拉取新權(quán)重的頻率,以及訓(xùn)練器所能容忍的最大 Rollout 陳舊度。這使得用戶可以在 On-policy 和 Off-policy RL 之間靈活選擇。

Oubliette:把代碼扔進(jìn)地牢

在驗(yàn)證器(Verifiers)的設(shè)計(jì)上,蘋果工程師展現(xiàn)了一種特有的黑色幽默。

驗(yàn)證器需要針對(duì)訓(xùn)練語料庫中每種編程語言進(jìn)行代碼執(zhí)行驗(yàn)證。為了高效且確定性地驗(yàn)證 Python 程序,他們將標(biāo)準(zhǔn) Python 依賴項(xiàng)容器化。

為了跑通大規(guī)模代碼測試,他們調(diào)用了亞馬遜的 AWS Lambda 服務(wù),并將其命名為 「Oubliette」。

「Oubliette」一詞源自法語,原意是指城堡中只有一個(gè)出口(通常是天花板上的活板門)的地下地牢,是專門用來「遺忘」囚犯的地方。

蘋果工程師用這個(gè)詞來隱喻他們的無狀態(tài)驗(yàn)證環(huán)境:代碼和測試數(shù)據(jù)被扔進(jìn)這個(gè)基于 AWS Lambda 的「地牢」里,跑完測試、吐出結(jié)果后,整個(gè)環(huán)境即刻銷毀,就像這段代碼從未存在過一樣。

表現(xiàn)如何?

有趣的是,在實(shí)驗(yàn)階段,我們看到了一個(gè)「縫合怪」的誕生:

  • 算力底座:如論文標(biāo)題明示的那樣,不是自家芯片,也不是英偉達(dá) GPU,而是谷歌的 TPU v5p(使用了 1024 張 TPU v5p 進(jìn)行實(shí)驗(yàn))。
  • 驗(yàn)證環(huán)境:為了跑通大規(guī)模代碼測試,他們調(diào)用了亞馬遜的 AWS Lambda 服務(wù)。
  • 基礎(chǔ)模型:他們用來驗(yàn)證這套框架的模型,不是 Apple Intelligence 的底座,而是來自中國阿里團(tuán)隊(duì)開源的 QwQ-32B。

沒錯(cuò),蘋果的工程師,在美國用著谷歌的 TPU,調(diào)著亞馬遜的 Serverless 服務(wù),去優(yōu)化一個(gè)中國開源的 Qwen 模型。

結(jié)果倒是非常亮眼。RLAX 僅用 12 小時(shí) 48 分鐘,在 1024 個(gè) v5p TPU 上將 QwQ-32B 的 pass@8 準(zhǔn)確率提高了12.8%,同時(shí)在訓(xùn)練期間保持了對(duì)任務(wù)搶占的魯棒性。



這種「美中技術(shù)大亂燉」的場景,在蘋果以往封閉的生態(tài)中簡直不可想象。這也側(cè)面印證了兩件事:第一,在 AI Infra 領(lǐng)域,實(shí)用主義正在壓倒門戶之見;第二,國產(chǎn)模型(尤其是 Qwen 和 DeepSeek)在代碼推理領(lǐng)域的統(tǒng)治力,已經(jīng)強(qiáng)到連蘋果都忍不住要拿來當(dāng)「磨刀石」。

消失的 1.0:一個(gè)硬核的數(shù)值幽靈

在 RLAX 論文的第 4 頁和第 9 頁,蘋果披露了一個(gè)足以讓系統(tǒng)工程師脊背發(fā)涼的 Bug。

在強(qiáng)化學(xué)習(xí)中,On-policy(在線策略)訓(xùn)練有一個(gè)理論基石:Importance Sampling ratio(重要性采樣比率)r (θ) 應(yīng)該恒等于 1.0。因?yàn)樾袨椴呗院彤?dāng)前策略是完全一致的。

但在 TPU 訓(xùn)練實(shí)戰(zhàn)中,蘋果團(tuán)隊(duì)發(fā)現(xiàn):1.0 竟然不等于 1.0



這個(gè)問題的根源在于 bfloat16 浮點(diǎn)數(shù)格式的非結(jié)合律(Non-associative) 特性。簡單來說,在計(jì)算機(jī)里 (a+b)+c 和 a+(b+c) 的結(jié)果可能存在微小的比特級(jí)差異。

  • 推理時(shí):JAX 編譯器為了極致速度,會(huì)瘋狂融合算子(Kernel Fusion)。
  • 訓(xùn)練時(shí):為了反向傳播計(jì)算梯度,編譯器必須保留中間值,導(dǎo)致算子融合策略與推理時(shí)不同。

這種計(jì)算順序的微小差異,在 bfloat16 下被放大,導(dǎo)致推理端算出的概率和訓(xùn)練端算出的概率無法對(duì)齊,進(jìn)而導(dǎo)致訓(xùn)練崩潰。

蘋果的解決方案非常暴力且有效:他們在訓(xùn)練器中強(qiáng)制重算(Rematerialization),禁用了大部分激活值的保存,強(qiáng)行讓訓(xùn)練端的計(jì)算圖去「模仿」推理端的計(jì)算順序。雖然犧牲了一點(diǎn)點(diǎn)速度,但消除了這個(gè)數(shù)值問題。

對(duì)于正在從事 LLM Post-training 的工程師來說,這個(gè) Debug 過程極具參考價(jià)值。

雖然目前已被撤稿,但 RLAX 證明了蘋果在 AI 基礎(chǔ)設(shè)施上依然擁有世界頂級(jí)的工程能力。他們能駕馭最復(fù)雜的分布式系統(tǒng),解決最底層的數(shù)值難題。

但隨著許多重要人物分散到 Meta、OpenAI、Anthropic 和 xAI,這篇論文似乎也成為了蘋果 AI 這一階段的一個(gè)注腳。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026央視跨年晚會(huì)陣容曝光,看完明星名單難掩激動(dòng),該來的都來了

2026央視跨年晚會(huì)陣容曝光,看完明星名單難掩激動(dòng),該來的都來了

阿纂看事
2025-12-19 14:38:58
停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

停播7年,那個(gè)挽救無數(shù)司機(jī)的“網(wǎng)紅交警”譚喬,卻挽救不了自己

以茶帶書
2025-12-18 17:14:01
在這個(gè)時(shí)代,HiFi音響為什么必須死?

在這個(gè)時(shí)代,HiFi音響為什么必須死?

電科技網(wǎng)
2025-12-19 09:00:07
1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

1-1大冷!中國隊(duì)逼平韓國隊(duì),末輪贏球=擺脫倒數(shù)第一

何老師呀
2025-12-20 16:36:13
內(nèi)地上映第二天,電影《阿凡達(dá)3》票房破2億,觀眾:電影時(shí)長太長,看完體驗(yàn)很不好

內(nèi)地上映第二天,電影《阿凡達(dá)3》票房破2億,觀眾:電影時(shí)長太長,看完體驗(yàn)很不好

臺(tái)州交通廣播
2025-12-20 13:51:54
深圳16歲“烤雞少年”回應(yīng)日營業(yè)額過萬:利潤約一到兩千,若重來想好好讀書

深圳16歲“烤雞少年”回應(yīng)日營業(yè)額過萬:利潤約一到兩千,若重來想好好讀書

紅星新聞
2025-12-20 19:39:12
“難怪口感怪怪的……”必勝客門店被查!羅永浩發(fā)聲

“難怪口感怪怪的……”必勝客門店被查!羅永浩發(fā)聲

都市快報(bào)橙柿互動(dòng)
2025-12-20 11:32:06
小白也能出大片!小云雀上線字節(jié)最新視頻模型,一句話復(fù)刻熱門爆款

小白也能出大片!小云雀上線字節(jié)最新視頻模型,一句話復(fù)刻熱門爆款

智東西
2025-12-18 19:49:14
南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

南京導(dǎo)航集體失靈,定位軟件全趴窩!連北斗都不行,戰(zhàn)時(shí)就危險(xiǎn)了

墨蘭史書
2025-12-19 18:20:05
南博事件升級(jí)!關(guān)鍵人物挖出,徐前院長使出“苦肉計(jì)”確實(shí)尷尬…

南博事件升級(jí)!關(guān)鍵人物挖出,徐前院長使出“苦肉計(jì)”確實(shí)尷尬…

火山詩話
2025-12-20 16:28:41
知名黃金企業(yè)突然暴雷,人去樓空,有人抵押幾套房投入700多萬元

知名黃金企業(yè)突然暴雷,人去樓空,有人抵押幾套房投入700多萬元

第一財(cái)經(jīng)資訊
2025-12-20 18:25:53
2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動(dòng)真格了

2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動(dòng)真格了

老特有話說
2025-12-19 21:22:11
對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

對(duì)越反擊戰(zhàn)期間,先前有 15 個(gè)國家明確站隊(duì)支持越南,然而戰(zhàn)爭正式打響后,它們卻不約而同地選擇了緘口不言,這是為何?

史海孤雁
2025-12-19 17:46:17
向高市早苗示好不到24小時(shí),張本底細(xì)被扒,父母的黑歷史也被翻出

向高市早苗示好不到24小時(shí),張本底細(xì)被扒,父母的黑歷史也被翻出

天天熱點(diǎn)見聞
2025-12-20 06:08:30
突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

突然爆雷,深圳總部幾乎搬空!有人投入700多萬元

晉江電視臺(tái)
2025-12-20 13:06:55
南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

南方黑芝麻糊成分含量最多的竟然不是黑芝麻?配料表引爭議,最新回應(yīng)

極目新聞
2025-12-20 14:28:37
寧波衛(wèi)健委回應(yīng)小洛熙事件最新進(jìn)展:醫(yī)療事故鑒定仍在進(jìn)行

寧波衛(wèi)健委回應(yīng)小洛熙事件最新進(jìn)展:醫(yī)療事故鑒定仍在進(jìn)行

極目新聞
2025-12-20 19:49:35
高盛:未來2年房價(jià)或再跌10-30%  警告可能出現(xiàn)房價(jià)負(fù)反饋循環(huán)

高盛:未來2年房價(jià)或再跌10-30% 警告可能出現(xiàn)房價(jià)負(fù)反饋循環(huán)

財(cái)富情報(bào)局
2025-12-19 23:06:25
泰方點(diǎn)名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

泰方點(diǎn)名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

胡嚴(yán)亂語
2025-12-20 16:13:32
73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認(rèn)正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
2025-12-20 22:20:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬余元 當(dāng)事人發(fā)聲

頭條要聞

網(wǎng)友稱"燒傷超人阿寶"補(bǔ)繳稅款84萬余元 當(dāng)事人發(fā)聲

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測試 已完成11萬公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

教育
時(shí)尚
親子
數(shù)碼
軍事航空

教育要聞

南京一校最新通知:部分學(xué)生違規(guī)帶手機(jī)入校,并在群內(nèi)傳播不文明不健康內(nèi)容

真愛大牌 || 用了5年才敢說,多虧它幫我守住了發(fā)際線

親子要聞

韓紅為小洛熙發(fā)聲:錯(cuò)得太離譜!尸檢報(bào)告曝光,5月嬰兒本可痊愈

數(shù)碼要聞

過氣主板“煥新生”,這才是當(dāng)下裝機(jī)回血神器!

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進(jìn)入關(guān)懷版