国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)Seed團(tuán)隊(duì)發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問題,字節(jié) Seed 團(tuán)隊(duì)聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進(jìn)行迭代計(jì)算,(ii)采用熵正則化目標(biāo)以實(shí)現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計(jì)使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項(xiàng)目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對(duì)照實(shí)驗(yàn),研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識(shí)存儲(chǔ)量的增加,而是得益于其更高效的知識(shí)操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實(shí)的人類推理機(jī)制。



Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個(gè)循環(huán)步,紅色)與單獨(dú)的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測(cè)試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅?,?shí)現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時(shí)代下作為一種新型擴(kuò)展路徑的潛力。



在高級(jí)推理基準(zhǔn)測(cè)試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對(duì)比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個(gè)數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個(gè)固定的參數(shù)預(yù)算內(nèi)實(shí)現(xiàn)「動(dòng)態(tài)計(jì)算」。具體而言,該架構(gòu)包含一個(gè)由 N 個(gè)共享權(quán)重層組成的「層堆?!?。

在模型的前向傳播過程中,這個(gè)共享的層堆棧會(huì)被循環(huán)應(yīng)用多次,即經(jīng)歷多個(gè)「循環(huán)步驟」。這種設(shè)計(jì)將模型的計(jì)算規(guī)模從「參數(shù)數(shù)量」解耦到了「計(jì)算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計(jì)算能力。它集成了一個(gè)學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時(shí):簡單輸入可能會(huì)在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計(jì)算資源;復(fù)雜輸入則會(huì)自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個(gè)「潛在思想鏈」。每一次循環(huán)都是對(duì)表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識(shí)操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個(gè)多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個(gè)通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨(dú)立經(jīng)歷后續(xù)四個(gè)相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個(gè)過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個(gè)基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個(gè)專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團(tuán)隊(duì)發(fā)現(xiàn)最初使用 8 個(gè)循環(huán)步驟會(huì)導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計(jì)算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會(huì)何時(shí)「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個(gè)循環(huán)步驟(R = 1 到 R = n)。在每個(gè)循環(huán)步驟 i,一個(gè)退出門預(yù)測(cè)退出概率 p?,而語言建模頭 L? 則計(jì)算對(duì)應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項(xiàng) H(p?,…,p?),以鼓勵(lì)模型探索不同的計(jì)算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美伊如果拖持久戰(zhàn),是否會(huì)像俄烏戰(zhàn)爭一樣深陷泥潭,趁機(jī)拖垮美國

美伊如果拖持久戰(zhàn),是否會(huì)像俄烏戰(zhàn)爭一樣深陷泥潭,趁機(jī)拖垮美國

小軻搞笑解說
2026-03-02 12:10:23
自家名宿不護(hù)著,賴特:賴斯的動(dòng)作絕對(duì)是一個(gè)點(diǎn)球

自家名宿不護(hù)著,賴特:賴斯的動(dòng)作絕對(duì)是一個(gè)點(diǎn)球

懂球帝
2026-03-02 09:48:07
戰(zhàn)火升級(jí)!烈度或超“12日戰(zhàn)爭”,本輪美伊沖突五大疑問待解

戰(zhàn)火升級(jí)!烈度或超“12日戰(zhàn)爭”,本輪美伊沖突五大疑問待解

中國網(wǎng)
2026-03-01 11:35:05
體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

體制內(nèi)情商高能帶來啥意外驚喜?網(wǎng)友:別在地鐵看,別問我為什么

帶你感受人間冷暖
2026-02-24 01:03:13
騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

騎士106-102籃網(wǎng)!阿特金森賽后把話挑明,哈登復(fù)出帶來一大變化

魚崖大話籃球
2026-03-02 10:21:28
“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

“最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

地理三體說
2026-01-29 21:40:34
中國電網(wǎng)砸5萬億鎖死優(yōu)勢(shì)!越南被迫限電減產(chǎn),歐洲電價(jià)暴漲10倍

中國電網(wǎng)砸5萬億鎖死優(yōu)勢(shì)!越南被迫限電減產(chǎn),歐洲電價(jià)暴漲10倍

財(cái)經(jīng)保探長
2026-02-23 19:10:05
隔扣楊瀚森!庫明加三戰(zhàn)轟64+23太炸裂 老鷹全場(chǎng)高呼謝謝勇士隊(duì)

隔扣楊瀚森!庫明加三戰(zhàn)轟64+23太炸裂 老鷹全場(chǎng)高呼謝謝勇士隊(duì)

星Xin辰大海
2026-03-02 13:27:42
24小時(shí)之內(nèi),賴清德喊話大陸,鄭麗文向民進(jìn)黨妥協(xié),日本部署導(dǎo)彈

24小時(shí)之內(nèi),賴清德喊話大陸,鄭麗文向民進(jìn)黨妥協(xié),日本部署導(dǎo)彈

野史日記
2026-03-01 09:25:03
一汽豐田第六代RAV4榮放雙擎精英版上線限時(shí)煥新價(jià),15.18萬元

一汽豐田第六代RAV4榮放雙擎精英版上線限時(shí)煥新價(jià),15.18萬元

IT之家
2026-03-02 09:08:37
哈梅內(nèi)伊之死和伊朗性史

哈梅內(nèi)伊之死和伊朗性史

哲空空
2026-03-01 11:14:17
知名演員秦嵐自曝患病,已做手術(shù)!

知名演員秦嵐自曝患病,已做手術(shù)!

極目新聞
2026-02-28 23:12:57
別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

別當(dāng)廢品扔!2026這5類舊物暴漲,有的漲10倍,家家都有

愛下廚的阿釃
2026-03-01 16:51:26
鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

鄒市明一家國外度假!冉瑩穎膘肥體壯不好惹,軒軒一頭白毛好土氣

小徐講八卦
2026-03-01 05:51:11
汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對(duì)黑粉毫不客氣

汪小菲首次回應(yīng)包機(jī)事件,談到S家直呼無語,對(duì)黑粉毫不客氣

小徐講八卦
2026-03-01 06:14:05
港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

港股暴跌,亞太股市全線走低,A股跳水后拉回,下午能全線收紅嗎

有范又有料
2026-03-02 12:16:58
梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

梅西2球1助導(dǎo)演大逆轉(zhuǎn),任意球破門次數(shù)追平貝利

體壇周報(bào)
2026-03-02 11:19:11
不是那個(gè)年代的,你真看不懂

不是那個(gè)年代的,你真看不懂

深度報(bào)
2026-02-15 23:01:53
3月2日人民幣對(duì)美元中間價(jià)調(diào)貶8個(gè)基點(diǎn)

3月2日人民幣對(duì)美元中間價(jià)調(diào)貶8個(gè)基點(diǎn)

證券時(shí)報(bào)
2026-03-02 09:31:54
一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

一場(chǎng)34分慘敗,讓開拓者看清楊瀚森,中國球迷開始理解斯普利特

球場(chǎng)沒跑道
2026-03-02 11:15:40
2026-03-02 15:00:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12388文章數(shù) 142574關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

頭條要聞

牛彈琴:伊朗之戰(zhàn)比俄烏之戰(zhàn)更生猛 給世界5個(gè)深刻教訓(xùn)

體育要聞

卡里克主場(chǎng)5連勝!隊(duì)史第2人通過最大考驗(yàn)

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

中東局勢(shì)影響如何?十大券商策略來了

汽車要聞

預(yù)售11.28萬起 狐全新阿爾法S5標(biāo)配寧德時(shí)代

態(tài)度原創(chuàng)

游戲
健康
數(shù)碼
旅游
手機(jī)

voice38回應(yīng)攻破D加密游戲順序 工具齊備就會(huì)攻破!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

聯(lián)想公布ThinkBook Modular AI PC Concept模塊化雙屏概念機(jī)

旅游要聞

【花Young貴陽】南明區(qū)永樂鄉(xiāng)萬畝桃花競(jìng)相綻放

手機(jī)要聞

最高暴漲3000元!史上最猛安卓漲價(jià)潮來了 2026年手機(jī)出貨量將創(chuàng)13年來新低

無障礙瀏覽 進(jìn)入關(guān)懷版