国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北航提出大模型Scaling Laws:編程語(yǔ)言差異與多語(yǔ)言最優(yōu)配比策略

0
分享至



北航、人大和九坤投資共同撰寫(xiě)的論文 《Scaling Laws for Code: Every Programming Language Matters》 整理而成。

在代碼大模型(Code LLMs)的預(yù)訓(xùn)練中,行業(yè)內(nèi)長(zhǎng)期存在一種慣性思維,即把所有編程語(yǔ)言的代碼都視為同質(zhì)化的文本數(shù)據(jù),主要關(guān)注數(shù)據(jù)總量的堆疊。然而,現(xiàn)代軟件開(kāi)發(fā)本質(zhì)上是多語(yǔ)言混合的,不同語(yǔ)言的語(yǔ)法特性、語(yǔ)料規(guī)模和應(yīng)用場(chǎng)景差異巨大。如果忽略這些差異,籠統(tǒng)地應(yīng)用通用的 Scaling Laws,往往會(huì)導(dǎo)致性能預(yù)測(cè)偏差和算力浪費(fèi)。

為了打破這一黑盒,研究團(tuán)隊(duì)耗費(fèi)了相當(dāng)于 33.6 萬(wàn)個(gè) H800 GPU 時(shí),進(jìn)行了超過(guò) 1000 次實(shí)驗(yàn)。研究覆蓋了從 0.2B 到 14B 的模型參數(shù)規(guī)模,以及高達(dá) 1T 的訓(xùn)練數(shù)據(jù)量,系統(tǒng)性地對(duì) Python、Java、JavaScript、TypeScript、C#、Go、Rust 這七種主流語(yǔ)言進(jìn)行了解構(gòu)。這項(xiàng)工作的核心貢獻(xiàn)在于建立了區(qū)分語(yǔ)言特性的 Scaling Laws,并據(jù)此提出了一套數(shù)學(xué)可解的最優(yōu)數(shù)據(jù)配比方案。



  • 論文:《Scaling Laws for Code: Every Programming Language Matters》
  • 論文鏈接:https://arxiv.org/abs/2512.13472



圖 1:論文提出的多語(yǔ)言 Scaling Law 與傳統(tǒng)均勻分布基線(xiàn)的 Loss 對(duì)比。藍(lán)色曲線(xiàn)顯示,基于本文方法優(yōu)化的模型在相同算力下能持續(xù)獲得更低的 Loss)

語(yǔ)言特異性:Python 潛力巨大,Rust 快速收斂









圖 2:七種編程語(yǔ)言各自獨(dú)立的 Scaling Law 曲線(xiàn)。可以看到 Python(左上)的曲線(xiàn)斜率更陡峭,而 Rust(右下)則更早趨于平緩)

協(xié)同效應(yīng)矩陣:語(yǔ)言間的 “近親繁殖” 與 “非對(duì)稱(chēng)互助”

在實(shí)際預(yù)訓(xùn)練中,我們很少只訓(xùn)練單語(yǔ)言模型。那么,混合多種語(yǔ)言訓(xùn)練是否存在 “協(xié)同效應(yīng)”(Synergy)?研究團(tuán)隊(duì)構(gòu)建了一個(gè)詳盡的協(xié)同增益矩陣,量化了引入輔助語(yǔ)言對(duì)目標(biāo)語(yǔ)言性能的影響。

實(shí)驗(yàn)發(fā)現(xiàn),絕大多數(shù)語(yǔ)言都能從多語(yǔ)言混合訓(xùn)練中獲益,且收益大小與語(yǔ)法相似度高度相關(guān)。例如,Java 與 C#、JavaScript 與 TypeScript 這類(lèi)語(yǔ)法結(jié)構(gòu)高度相似的語(yǔ)言對(duì),在混合訓(xùn)練時(shí)表現(xiàn)出極強(qiáng)的正向遷移效果。

更有趣的是,這種遷移往往是非對(duì)稱(chēng)的。Java是多語(yǔ)言訓(xùn)練的最大受益者,幾乎與任何語(yǔ)言混合都能大幅降低其 Loss,這可能是因?yàn)?Java 作為成熟的面向?qū)ο笳Z(yǔ)言,能從其他語(yǔ)言的范式中汲取通用邏輯。而Python雖然是代碼領(lǐng)域的通用 “供體”(幫助其他語(yǔ)言提升),但其自身從其他語(yǔ)言獲得的收益卻相對(duì)有限,甚至在某些混合比例下會(huì)出現(xiàn)輕微的負(fù)遷移。這一發(fā)現(xiàn)提示我們,在構(gòu)建語(yǔ)料庫(kù)時(shí)需要精細(xì)設(shè)計(jì)混合策略,而非盲目地 “大雜燴”。



表 1:協(xié)同增益矩陣。紅色越深代表輔助語(yǔ)言(列)對(duì)目標(biāo)語(yǔ)言(行)的提升越大。Java 所在的行顯示出它能從所有輔助語(yǔ)言中獲得顯著收益)

跨語(yǔ)言對(duì)齊策略:并行配對(duì)激發(fā) Zero-Shot 能力

除了單語(yǔ)言生成,跨語(yǔ)言翻譯(如 Java 轉(zhuǎn) Python)也是代碼模型的重要能力。論文對(duì)比了兩種數(shù)據(jù)組織策略:傳統(tǒng)的“隨機(jī)打亂”(Random Shuffling)和“并行配對(duì)”(Parallel Pairing)—— 即將一段代碼與其翻譯版本拼接在同一個(gè) Context 中輸入模型。

實(shí)驗(yàn)結(jié)果表明,并行配對(duì)策略在所有模型規(guī)模上均顯著優(yōu)于基線(xiàn)。這種策略實(shí)際上利用了模型的長(zhǎng)上下文窗口,構(gòu)建了隱式的文檔級(jí)對(duì)齊信號(hào)。更關(guān)鍵的是,這種策略激發(fā)了模型在Zero-Shot(零樣本)方向上的泛化能力。例如,模型僅訓(xùn)練了 Python?Java 和 Python?Go 的配對(duì)數(shù)據(jù),但在測(cè)試從未見(jiàn)過(guò)的 Java?Go 翻譯任務(wù)時(shí),基于并行配對(duì)訓(xùn)練的模型表現(xiàn)出了驚人的組合泛化能力。這證明了通過(guò)構(gòu)建以 Python 為樞紐的平行語(yǔ)料,可以有效拉齊不同編程語(yǔ)言的向量空間。



圖 4:三種策略在跨語(yǔ)言翻譯任務(wù)上的表現(xiàn)對(duì)比。綠色線(xiàn)條代表的并行配對(duì)策略(Prompt-based Concatenation)在各方向上均取得最低 Loss)

最優(yōu) Token 分配指南:基于邊際效用的經(jīng)濟(jì)學(xué)

基于上述發(fā)現(xiàn),論文提出了“科學(xué)配比的多語(yǔ)言 Scaling Law”(Proportion-dependent Multilingual Scaling Law)。這不僅是一個(gè)理論公式,更是一套指導(dǎo)算力投資的行動(dòng)指南。

在總算力固定的約束下,傳統(tǒng)的均勻分配并非最優(yōu)解。最優(yōu)策略應(yīng)遵循邊際效用最大化原則

  1. 重倉(cāng)高潛力語(yǔ)言:大幅增加Python的 Token 占比,因?yàn)樗?Scaling 指數(shù)高,投入更多數(shù)據(jù)能帶來(lái)持續(xù)的性能爬坡。
  2. 平衡高協(xié)同組合:利用JavaScriptTypeScript的互補(bǔ)性,保持兩者適度的比例以最大化協(xié)同增益。
  3. 削減早熟語(yǔ)言投入:適當(dāng)減少RustGo的數(shù)據(jù)占比。因?yàn)樗鼈兪諗靠欤^(guò)多的數(shù)據(jù)投入只會(huì)帶來(lái)邊際收益的快速衰減,不如將這部分算力轉(zhuǎn)移給更難學(xué)的語(yǔ)言。

實(shí)驗(yàn)驗(yàn)證顯示,采用這種 “引導(dǎo)式分配” 策略訓(xùn)練出的 1.5B 模型,在多語(yǔ)言代碼生成(MultiPL-E)和翻譯任務(wù)上,均穩(wěn)定優(yōu)于均勻分配的基線(xiàn)模型,且沒(méi)有任何一種語(yǔ)言因數(shù)據(jù)減少而出現(xiàn)顯著的性能退化。



圖 5:基線(xiàn)策略 vs 優(yōu)化后的 Token 分配方案?;?Scaling Law 的建議大幅增加了 Python(藍(lán)色)的占比,同時(shí)削減了 Rust(橙色)和 Go(青色)的占比)

總結(jié)與啟示

這項(xiàng)工作是代碼大模型領(lǐng)域一次重要的 “去魅” 過(guò)程。它用詳實(shí)的數(shù)據(jù)證明,編程語(yǔ)言在模型訓(xùn)練的視角下絕非同質(zhì)。

對(duì)于致力于訓(xùn)練 Code LLM 的團(tuán)隊(duì)而言,這意味著數(shù)據(jù)工程的重點(diǎn)應(yīng)從單純的 “清洗與去重” 轉(zhuǎn)向更宏觀(guān)的 “成分配比”。理解不同語(yǔ)言的 Scaling 特性(是像 Python 一樣潛力巨大,還是像 Rust 一樣迅速飽和)以及它們之間的協(xié)同關(guān)系,能夠幫助我們?cè)谟邢薜乃懔︻A(yù)算下,訓(xùn)練出綜合代碼能力更強(qiáng)的基座模型。這不僅是算法的優(yōu)化,更是資源配置效率的提升。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
交警私下透露:車(chē)險(xiǎn)別買(mǎi)全險(xiǎn),只買(mǎi)這2樣,每年白省2000塊

交警私下透露:車(chē)險(xiǎn)別買(mǎi)全險(xiǎn),只買(mǎi)這2樣,每年白省2000塊

老特有話(huà)說(shuō)
2025-12-27 14:45:28
即將與澤連斯基會(huì)晤,特朗普放話(huà):未經(jīng)我批準(zhǔn),他無(wú)法敲定任何事

即將與澤連斯基會(huì)晤,特朗普放話(huà):未經(jīng)我批準(zhǔn),他無(wú)法敲定任何事

環(huán)球網(wǎng)資訊
2025-12-27 09:02:08
AI大神吳恩達(dá):很多計(jì)算機(jī)專(zhuān)業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

AI大神吳恩達(dá):很多計(jì)算機(jī)專(zhuān)業(yè)應(yīng)屆生找不到工作,是因?yàn)楦咝Un程嚴(yán)重滯后

爆角追蹤
2025-12-27 12:33:54
藍(lán)白合首戰(zhàn)失利,鄭麗文面臨挑戰(zhàn);國(guó)民黨中委員改選,連勝文發(fā)力

藍(lán)白合首戰(zhàn)失利,鄭麗文面臨挑戰(zhàn);國(guó)民黨中委員改選,連勝文發(fā)力

時(shí)時(shí)有聊
2025-12-27 20:18:21
他們吸過(guò)毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

他們吸過(guò)毒,曾經(jīng)是“爛人”,想要個(gè)機(jī)會(huì)

大風(fēng)新聞
2025-12-27 15:04:03
有一說(shuō)一,楊瀚森在開(kāi)拓者是沒(méi)有前途的,因?yàn)榭肆指珒?yōu)秀……!

有一說(shuō)一,楊瀚森在開(kāi)拓者是沒(méi)有前途的,因?yàn)榭肆指珒?yōu)秀……!

田先生籃球
2025-12-27 17:02:53
12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

12月27日俄烏:澤連斯基赴美,特朗普憤怒回應(yīng)

山河路口
2025-12-27 17:49:14
金燦榮與“聽(tīng)風(fēng)的蠶”首次同框,開(kāi)聊中美關(guān)系

金燦榮與“聽(tīng)風(fēng)的蠶”首次同框,開(kāi)聊中美關(guān)系

大象新聞
2025-12-26 12:41:08
海豚為何如此親近人類(lèi)?看看你在海豚眼中長(zhǎng)什么樣,就不難理解了

海豚為何如此親近人類(lèi)?看看你在海豚眼中長(zhǎng)什么樣,就不難理解了

半解智士
2025-12-26 20:49:05
蘭德公司最新推演泄露,26年將出現(xiàn)窗口期,屆時(shí)某大國(guó)會(huì)采取行動(dòng)

蘭德公司最新推演泄露,26年將出現(xiàn)窗口期,屆時(shí)某大國(guó)會(huì)采取行動(dòng)

小哥很OK
2025-12-27 15:40:34
全國(guó)無(wú)償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無(wú)償獻(xiàn)血

全國(guó)無(wú)償獻(xiàn)血者達(dá)1.4億人 衛(wèi)健委呼吁各單位每年組織員工無(wú)償獻(xiàn)血

中國(guó)經(jīng)營(yíng)報(bào)
2025-12-27 17:11:22
54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門(mén)+阿森納顫抖

54歲埃梅里封神!震撼11連勝創(chuàng)111年紀(jì)錄 已掀翻5豪門(mén)+阿森納顫抖

我愛(ài)英超
2025-12-28 03:55:16
黃循財(cái):不允許任何國(guó)家和企業(yè)借新加坡為中轉(zhuǎn)點(diǎn)轉(zhuǎn)運(yùn)芯片出口中國(guó)

黃循財(cái):不允許任何國(guó)家和企業(yè)借新加坡為中轉(zhuǎn)點(diǎn)轉(zhuǎn)運(yùn)芯片出口中國(guó)

百態(tài)人間
2025-12-27 16:40:18
律師全部失業(yè)!佛山一律所被吊銷(xiāo)執(zhí)照,起因是非法“購(gòu)買(mǎi)案源”…

律師全部失業(yè)!佛山一律所被吊銷(xiāo)執(zhí)照,起因是非法“購(gòu)買(mǎi)案源”…

火山詩(shī)話(huà)
2025-12-27 14:50:55
中山大學(xué)教授太不要臉了!高中生兒子發(fā)表3篇SCI論文,被質(zhì)疑學(xué)術(shù)造假

中山大學(xué)教授太不要臉了!高中生兒子發(fā)表3篇SCI論文,被質(zhì)疑學(xué)術(shù)造假

回旋鏢
2025-12-27 19:14:15
350億,又一家新勢(shì)力宣布破產(chǎn)

350億,又一家新勢(shì)力宣布破產(chǎn)

融資中國(guó)
2025-12-26 12:27:57
全世界在看北京怎么亮劍!針?shù)h相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

全世界在看北京怎么亮劍!針?shù)h相對(duì)扣押運(yùn)走美國(guó)貨輪貨物

柳扶風(fēng)
2025-12-26 09:08:54
沉默五天,蔡英文重磅發(fā)文,臺(tái)北全城已警戒,國(guó)民黨揪出罪惡根源

沉默五天,蔡英文重磅發(fā)文,臺(tái)北全城已警戒,國(guó)民黨揪出罪惡根源

現(xiàn)代小青青慕慕
2025-12-27 15:04:15
徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡(jiǎn)單,難怪舉報(bào)他4次都不成功

徐湖平父親和岳父身份被扒!個(gè)個(gè)不簡(jiǎn)單,難怪舉報(bào)他4次都不成功

葉公子
2025-12-27 19:19:28
沉寂1天,高市早苗終于簽字,日本砸9萬(wàn)億反華,解放軍動(dòng)作更大

沉寂1天,高市早苗終于簽字,日本砸9萬(wàn)億反華,解放軍動(dòng)作更大

博覽歷史
2025-12-27 18:50:49
2025-12-28 04:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
12000文章數(shù) 142522關(guān)注度
往期回顧 全部

科技要聞

小米也漲價(jià)了!業(yè)界稱(chēng)終端再不漲明年必虧

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

頭條要聞

美媒:特朗普顯然觸及了中國(guó)的紅線(xiàn) 中方怒了

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂(lè)要聞

張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

財(cái)經(jīng)要聞

注意,開(kāi)始拉物價(jià)了!

汽車(chē)要聞

好音響比大屏更重要?車(chē)企開(kāi)始“聽(tīng)”用戶(hù)的

態(tài)度原創(chuàng)

本地
旅游
家居
時(shí)尚
房產(chǎn)

本地新聞

云游安徽|踏訪(fǎng)池州,讀懂山水間的萬(wàn)年史書(shū)

旅游要聞

來(lái)廣東跨年,大家的選擇就是最寶貴的信任票

家居要聞

格調(diào)時(shí)尚 智慧品質(zhì)居所

穿好雪地靴的4個(gè)訣竅,還挺有效!

房產(chǎn)要聞

年銷(xiāo)20億+!中交·藍(lán)色港灣用好房子致敬好生活

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版