国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

字節(jié)Seed團(tuán)隊(duì)發(fā)布循環(huán)語言模型Ouro,在預(yù)訓(xùn)練階段直接「思考」

0
分享至



機(jī)器之心報(bào)道

機(jī)器之心編輯部

現(xiàn)代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進(jìn)行「思考」訓(xùn)練。這種策略將推理任務(wù)推遲到訓(xùn)練后的階段,未能充分挖掘預(yù)訓(xùn)練數(shù)據(jù)中的潛力。

為解決這一問題,字節(jié) Seed 團(tuán)隊(duì)聯(lián)合多家機(jī)構(gòu)推出了Ouro,一類被稱為循環(huán)語言模型(Looped Language Models)的新型預(yù)訓(xùn)練模型,其名稱源于象征循環(huán)與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進(jìn)行迭代計(jì)算,(ii)采用熵正則化目標(biāo)以實(shí)現(xiàn)學(xué)習(xí)型深度分配,以及(iii)擴(kuò)展至 7.7T tokens 的數(shù)據(jù)規(guī)模,將推理能力直接構(gòu)建到了預(yù)訓(xùn)練階段。 這些設(shè)計(jì)使得模型能夠在預(yù)訓(xùn)練階段直接學(xué)習(xí)和構(gòu)建推理能力,而非僅依賴后期微調(diào)。



  • 論文標(biāo)題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項(xiàng)目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對(duì)照實(shí)驗(yàn),研究者發(fā)現(xiàn) Ouro 的性能提升并非源于知識(shí)存儲(chǔ)量的增加,而是得益于其更高效的知識(shí)操控與推理能力。進(jìn)一步分析表明,Ouro 的潛在推理過程相比標(biāo)準(zhǔn) LLM,更接近真實(shí)的人類推理機(jī)制。



Ouro 循環(huán)語言模型的性能。(左)參數(shù)共享的循環(huán)架構(gòu)。(中與右)雷達(dá)圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個(gè)循環(huán)步,紅色)與單獨(dú)的 Transformer 基線模型。我們的模型表現(xiàn)出強(qiáng)勁性能,可與更大規(guī)模的基線模型相媲美,甚至在部分任務(wù)上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數(shù)規(guī)模的 LoopLM,分別能在幾乎所有基準(zhǔn)測試中達(dá)到與 4B 和 8B 標(biāo)準(zhǔn) Transformer 相當(dāng)?shù)男阅?,?shí)現(xiàn)了 2–3 倍的參數(shù)效率提升,顯示了其在數(shù)據(jù)受限時(shí)代下作為一種新型擴(kuò)展路徑的潛力。



在高級(jí)推理基準(zhǔn)測試中的表現(xiàn)。Ouro-Thinking 系列模型與強(qiáng)大的基線模型(如 Qwen3 和 DeepSeek-Distill)進(jìn)行對(duì)比。Ouro-1.4B-Thinking R4 的性能可與 4B 規(guī)模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個(gè)數(shù)學(xué)與科學(xué)數(shù)據(jù)集上的表現(xiàn)達(dá)到或超越了 8B 規(guī)模模型。

另外,LoopLM 架構(gòu)在 HEx-PHI 基準(zhǔn)上顯著降低了有害性,且隨著循環(huán)步數(shù)(包括外推步)增加,模型的安全性進(jìn)一步提升。與傳統(tǒng)的 CoT 方法不同,研究者的迭代潛變量更新機(jī)制產(chǎn)生的是因果一致的推理過程,而非事后的合理化解釋。

循環(huán)架構(gòu)

LoopLM 架構(gòu)的靈感來源于「通用 Transformer」。其核心思想是在一個(gè)固定的參數(shù)預(yù)算內(nèi)實(shí)現(xiàn)「動(dòng)態(tài)計(jì)算」。具體而言,該架構(gòu)包含一個(gè)由 N 個(gè)共享權(quán)重層組成的「層堆?!埂?/p>

在模型的前向傳播過程中,這個(gè)共享的層堆棧會(huì)被循環(huán)應(yīng)用多次,即經(jīng)歷多個(gè)「循環(huán)步驟」。這種設(shè)計(jì)將模型的計(jì)算規(guī)模從「參數(shù)數(shù)量」解耦到了「計(jì)算深度」。

該架構(gòu)的關(guān)鍵特性是其自適應(yīng)計(jì)算能力。它集成了一個(gè)學(xué)習(xí)到的「退出門」,當(dāng)模型處理輸入時(shí):簡單輸入可能會(huì)在經(jīng)歷較少的循環(huán)步驟后就提前退出,從而節(jié)省計(jì)算資源;復(fù)雜輸入則會(huì)自然地被分配更多的迭代次數(shù),以進(jìn)行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內(nèi)部隱藏狀態(tài)中構(gòu)建了一個(gè)「潛在思想鏈」。每一次循環(huán)都是對(duì)表征的逐步精煉,從而在不增加參數(shù)的情況下提升了模型的知識(shí)操縱能力。

訓(xùn)練流程

Ouro 的訓(xùn)練流程是一個(gè)多階段過程,總共使用了 7.7T tokens 的數(shù)據(jù)。

如圖 4 所示,該流程始于一個(gè)通用的預(yù)熱階段,隨后是使用 3T token 的初始穩(wěn)定訓(xùn)練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數(shù)規(guī)模的變體。



兩種變體均獨(dú)立經(jīng)歷后續(xù)四個(gè)相同的訓(xùn)練階段:第二次穩(wěn)定訓(xùn)練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓(xùn)練(Mid-Training, 300B token)。

這個(gè)過程產(chǎn)生了 Ouro-1.4B 和 Ouro-2.6B 兩個(gè)基礎(chǔ)模型。最后,為了強(qiáng)化特定能力,模型還額外經(jīng)歷了一個(gè)專門的推理監(jiān)督微調(diào)階段,以創(chuàng)造出專注于推理的 Ouro-Thinking 系列模型。

在訓(xùn)練穩(wěn)定性方面,團(tuán)隊(duì)發(fā)現(xiàn)最初使用 8 個(gè)循環(huán)步驟會(huì)導(dǎo)致?lián)p失尖峰等不穩(wěn)定問題,因此在后續(xù)階段將循環(huán)步驟減少到 4,以此在計(jì)算深度和穩(wěn)定性之間取得了平衡。

為了讓模型學(xué)會(huì)何時(shí)「提前退出」,訓(xùn)練流程采用了新穎的兩階段目標(biāo):



循環(huán)語言模型架構(gòu)概覽。

左圖為訓(xùn)練階段。在訓(xùn)練過程中,模型使用共享參數(shù)的 N 層堆疊結(jié)構(gòu),并執(zhí)行 n 個(gè)循環(huán)步驟(R = 1 到 R = n)。在每個(gè)循環(huán)步驟 i,一個(gè)退出門預(yù)測退出概率 p?,而語言建模頭 L? 則計(jì)算對(duì)應(yīng)的任務(wù)損失。 訓(xùn)練目標(biāo)函數(shù)結(jié)合了所有循環(huán)步驟的期望任務(wù)損失,并加入熵正則化項(xiàng) H(p?,…,p?),以鼓勵(lì)模型探索不同的計(jì)算深度。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
新娘全家都是演員!這場“完美婚禮”全是戲!

新娘全家都是演員!這場“完美婚禮”全是戲!

看看新聞Knews
2026-03-02 17:55:03
掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場均7分,想送走他

掘金后悔了!小波特+首輪簽交易虧麻了,近4戰(zhàn)場均7分,想送走他

你的籃球頻道
2026-03-02 08:57:26
欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

欠中國的錢,委內(nèi)瑞拉不還了?美財(cái)長:中國已無法繼續(xù)獲得委石油

萌城少年強(qiáng)
2026-01-22 12:47:40
天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

天塌了!柳州一已婚女子出軌感染艾滋,涉事小伙是工廠班組長…

火山詩話
2026-03-02 05:47:48
中美關(guān)系走到今天,回頭看毛主席當(dāng)年說的兩句話,太精準(zhǔn)了!

中美關(guān)系走到今天,回頭看毛主席當(dāng)年說的兩句話,太精準(zhǔn)了!

素年文史
2026-01-15 13:29:54
吳辰君移居迪拜報(bào)平安,稱當(dāng)?shù)匚镔Y充足生活如常,暫時(shí)不打算離開

吳辰君移居迪拜報(bào)平安,稱當(dāng)?shù)匚镔Y充足生活如常,暫時(shí)不打算離開

東方不敗然多多
2026-03-02 16:43:07
干掉強(qiáng)硬派,然后來談判?伊朗外長愿意和美國談判,特朗普同意

干掉強(qiáng)硬派,然后來談判?伊朗外長愿意和美國談判,特朗普同意

陳蕙侃故事
2026-03-02 18:11:53
美國已經(jīng)成為第二個(gè)蘇聯(lián),只需要犯一個(gè)錯(cuò),國家就分崩離析了

美國已經(jīng)成為第二個(gè)蘇聯(lián),只需要犯一個(gè)錯(cuò),國家就分崩離析了

歷史有些冷
2026-03-01 17:50:03
3天付清16億!山東80后拒上市,44歲穩(wěn)坐首富,千億帝國靠啥硬撐

3天付清16億!山東80后拒上市,44歲穩(wěn)坐首富,千億帝國靠啥硬撐

青眼財(cái)經(jīng)
2026-01-13 22:58:50
特朗普訪華行程定了,國務(wù)卿魯比奧卻卡制裁名單里,放話加稅逼開綠燈?

特朗普訪華行程定了,國務(wù)卿魯比奧卻卡制裁名單里,放話加稅逼開綠燈?

流年拾光
2026-03-02 19:54:11
他接受監(jiān)察調(diào)查

他接受監(jiān)察調(diào)查

錫望
2026-03-01 18:21:26
59歲宋祖英現(xiàn)身活動(dòng)狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

59歲宋祖英現(xiàn)身活動(dòng)狀態(tài)驚艷!短發(fā)利落大氣,黑色套裝優(yōu)雅端莊

琴聲飛揚(yáng)
2026-02-12 11:51:25
孟加拉國女足主帥談戰(zhàn)中國女足:這是一場大衛(wèi)對(duì)歌利亞的較量

孟加拉國女足主帥談戰(zhàn)中國女足:這是一場大衛(wèi)對(duì)歌利亞的較量

懂球帝
2026-03-02 15:34:47
煮湯圓,有人用開水,用冷水!廚師長:都不對(duì),教您做法,不粘鍋

煮湯圓,有人用開水,用冷水!廚師長:都不對(duì),教您做法,不粘鍋

阿龍美食記
2026-02-23 17:09:09
終于換對(duì)發(fā)型!前港姐冠軍摘掉假劉海,顏值瞬間回春

終于換對(duì)發(fā)型!前港姐冠軍摘掉假劉海,顏值瞬間回春

暖心萌阿菇?jīng)?/span>
2026-03-01 21:09:44
4-2!邁阿密半場連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進(jìn)898球

4-2!邁阿密半場連扳4球獲賽季首勝 38歲梅西2射1傳+生涯進(jìn)898球

我愛英超
2026-03-02 10:16:26
黃金大漲后,套的就是你

黃金大漲后,套的就是你

新浪財(cái)經(jīng)
2026-03-02 20:29:36
發(fā)燒友用56節(jié)5號(hào)電池運(yùn)行臺(tái)式機(jī)電腦:實(shí)測玩掃雷續(xù)航不到5分鐘

發(fā)燒友用56節(jié)5號(hào)電池運(yùn)行臺(tái)式機(jī)電腦:實(shí)測玩掃雷續(xù)航不到5分鐘

快科技
2026-03-02 09:58:11
3月2日,小米股這是怎么了?一路狂瀉5個(gè)點(diǎn),竟然跌破34了!

3月2日,小米股這是怎么了?一路狂瀉5個(gè)點(diǎn),竟然跌破34了!

劉森森
2026-03-02 11:14:19
安東尼奧計(jì)劃招入4位07后球員,進(jìn)入U(xiǎn)23國足名單

安東尼奧計(jì)劃招入4位07后球員,進(jìn)入U(xiǎn)23國足名單

吳朑愛游泳
2026-03-02 20:22:34
2026-03-02 21:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12395文章數(shù) 142575關(guān)注度
往期回顧 全部

科技要聞

榮耀發(fā)布機(jī)器人手機(jī)、折疊屏、人形機(jī)器人

頭條要聞

特朗普稱對(duì)伊行動(dòng)還要打四周 學(xué)者:達(dá)成目標(biāo)需"補(bǔ)槍"

頭條要聞

特朗普稱對(duì)伊行動(dòng)還要打四周 學(xué)者:達(dá)成目標(biāo)需"補(bǔ)槍"

體育要聞

“想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對(duì)手主帥

娛樂要聞

美伊以沖突爆發(fā),多位明星被困中東

財(cái)經(jīng)要聞

金銀大漲 市場仍在評(píng)估沖突會(huì)否長期化

汽車要聞

國民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

游戲
時(shí)尚
本地
藝術(shù)
手機(jī)

手握357靈第一無級(jí)別神鏈!夢幻西游東海淵能否劍指神威第一?

推廣|| 春天第一雙鞋!暴走不累、搭遍好看小裙子

本地新聞

津南好·四時(shí)總相宜

藝術(shù)要聞

簡約的風(fēng)景畫,美國畫家Ben Bauer作品

手機(jī)要聞

盧偉冰回應(yīng)小米新機(jī)海外售價(jià)1.6萬元:有信心沖擊iPhone!

無障礙瀏覽 進(jìn)入關(guān)懷版