国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)Seed團隊發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機器之心報道

機器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問題,字節(jié) Seed 團隊聯(lián)合多家機構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標(biāo)以實現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對照實驗,研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實的人類推理機制。



Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環(huán)步,紅色)與單獨的 Transformer 基線模型。我們的模型表現(xiàn)出強勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測試中達到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅?,實現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時代下作為一種新型擴展路徑的潛力。



在高級推理基準(zhǔn)測試中的表現(xiàn)。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數(shù)預(yù)算內(nèi)實現(xiàn)「動態(tài)計算」。具體而言,該架構(gòu)包含一個由 N 個共享權(quán)重層組成的「層堆?!埂?/p>

在模型的前向傳播過程中,這個共享的層堆棧會被循環(huán)應(yīng)用多次,即經(jīng)歷多個「循環(huán)步驟」。這種設(shè)計將模型的計算規(guī)模從「參數(shù)數(shù)量」解耦到了「計算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計算能力。它集成了一個學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時:簡單輸入可能會在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計算資源;復(fù)雜輸入則會自然地被分配更多的迭代次數(shù),以進行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個「潛在思想鏈」。每一次循環(huán)都是對表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨立經(jīng)歷后續(xù)四個相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎(chǔ)模型。最后,為了強化特定能力,模型還額外經(jīng)歷了一個專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團隊發(fā)現(xiàn)最初使用 8 個循環(huán)步驟會導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會何時「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個循環(huán)步驟(R = 1 到 R = n)。在每個循環(huán)步驟 i,一個退出門預(yù)測退出概率 p?,而語言建模頭 L? 則計算對應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

“恨國女”許可馨:移民美國,已結(jié)婚,丈夫大量照片曝光遭質(zhì)疑

小熊侃史
2025-12-20 10:53:55
2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

2億人在喊:自己交100%的錢,只能拿40%?靈活就業(yè)社保該動真格了

老特有話說
2025-12-19 21:22:11
外交部長和國防部長如果通報被免職,意味著什么?

外交部長和國防部長如果通報被免職,意味著什么?

李昕言溫度空間
2025-12-20 19:00:33
一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價20余萬元

一涉腐干部被查扣各類人民幣479捆,法院掛拍萬余張舊版2元面值人民幣,起拍價20余萬元

極目新聞
2025-12-19 20:58:00
成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

封面新聞
2025-12-20 19:21:27
南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

南博驚天丑聞被扒!90年代的保管員監(jiān)守自盜19件藏品,被依法處決

火山詩話
2025-12-20 16:02:06
要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

要解開南京博物院捐贈之謎,建議先查清這神秘的兩個人

李老逵亂擺龍門陣
2025-12-20 10:54:00
必勝客被查!

必勝客被查!

魯中晨報
2025-12-20 17:49:04
北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

北京阿姨20年守茅臺股票:90萬本金,分紅326萬,成本歸零!

趣文說娛
2025-12-20 18:29:20
泰方點名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

泰方點名調(diào)查柬“生命研究中心”,湘雅醫(yī)院火速撇清:從未合作

胡嚴亂語
2025-12-20 16:13:32
突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

突發(fā)!左膝半月板撕裂+缺陣4-5周,完犢子了,這還咋交易?

球童無忌
2025-12-20 13:27:27
克林頓罕見強硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

克林頓罕見強硬發(fā)聲:這不是烏克蘭的戰(zhàn)爭,而是美國的戰(zhàn)爭!

老馬拉車莫少裝
2025-12-20 14:50:21
【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

【獨家】小米給全國汽車經(jīng)銷商發(fā)超一億元“紅包”

界面新聞
2025-12-20 12:27:14
重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個人使用

重慶交通大學(xué)原副校長張尚毅被“雙開”:違規(guī)占用學(xué)校公房歸個人使用

界面新聞
2025-12-20 20:08:38
電信董事長估計要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

電信董事長估計要失眠了,惹誰不好,偏偏惹了最叛逆的羅永浩!

荊楚寰宇文樞
2025-12-19 23:04:03
終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

終于官宣!老年證將全面作廢,以后坐公交逛公園就用它

陳博世財經(jīng)
2025-12-20 14:27:24
抖音每年三千萬中標(biāo),咪咕5年16億報價被拒絕,CBA這波操作太魔幻

抖音每年三千萬中標(biāo),咪咕5年16億報價被拒絕,CBA這波操作太魔幻

姜大叔侃球
2025-12-20 12:18:17
73歲普京罕見回應(yīng)感情生活,承認正在戀愛中!信息量很大......

73歲普京罕見回應(yīng)感情生活,承認正在戀愛中!信息量很大......

新民周刊
2025-12-20 17:10:52
濟南一對母女黃河岸邊失聯(lián)超40天,搜索范圍擴大至黃河入???,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

濟南一對母女黃河岸邊失聯(lián)超40天,搜索范圍擴大至黃河入???,丈夫:妻子性格大大咧咧,失聯(lián)前無異常

極目新聞
2025-12-20 11:55:28
實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

實探廣州玩具城:李嘉誠15億投資,如今荒涼像“鬼城”

樓市滅霸
2025-12-19 19:11:22
2025-12-20 20:48:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142514關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

頭條要聞

司機稱轎車剎車失靈狂奔490公里 網(wǎng)友質(zhì)疑"自導(dǎo)自演"

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

本地
數(shù)碼
教育
公開課
軍事航空

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

數(shù)碼要聞

盧偉冰今晚直播:小米17 Ultra超前劇透 不怕“泄密”

教育要聞

今年難度小于去年!不過剛走出考場,這件事千萬不要做!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關(guān)懷版