国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

階躍星辰開(kāi)源Deep Think新框架,小模型解鎖百萬(wàn)Token測(cè)試時(shí)計(jì)算

0
分享至



8B 模型在數(shù)學(xué)競(jìng)賽任務(wù)上超越 GPT-5!

階躍星辰正式推出并行協(xié)同推理(PaCoRe, Parallel Coordinated Reasoning),這是一個(gè)全新的訓(xùn)練和推理框架,讓大模型的能力不再受限于線性思維鏈的上下文窗口大?。–ontext Window)和處理速度,而是基于大規(guī)模并行協(xié)同的方式,讓模型進(jìn)行前所未有的廣度和深度思考。

強(qiáng)大性能的 Gemini Deep Think 模式僅隱約透露其采用“并行思考”擴(kuò)展測(cè)試時(shí)計(jì)算的思路;而 PaCoRe 以卓越的表現(xiàn)驗(yàn)證了大規(guī)模擴(kuò)展測(cè)試時(shí)計(jì)算的有效性,并完整開(kāi)源模型,訓(xùn)練數(shù)據(jù),推理管線從而加速該領(lǐng)域的研究與創(chuàng)新。

基于該框架,小模型亦能解鎖百萬(wàn)級(jí) Token 測(cè)試時(shí)計(jì)算(Test-Time Compute)。

經(jīng)過(guò)大規(guī)模、基于結(jié)果的強(qiáng)化學(xué)習(xí)(Outcome-based RL)訓(xùn)練,階躍星辰研究團(tuán)隊(duì)的 PaCoRe-8B 模型掌握了綜合發(fā)散性推理軌跡的能力。在 HMMT 2025 數(shù)學(xué)基準(zhǔn)測(cè)試中,它取得了 94.5 的高分,一舉超越了 GPT-5 的 93.2 分。這一成績(jī)的取得,得益于模型在解決單個(gè)問(wèn)題時(shí),能夠有效利用高達(dá)兩百萬(wàn) Token 的計(jì)算量。

長(zhǎng)程推理是人類智力皇冠上的明珠。正如人類需要數(shù)月甚至數(shù)年的專注思考來(lái)攻克最棘手的難題,通用人工智能(AGI)也必須在推理階段大幅擴(kuò)展其計(jì)算規(guī)模,PaCoRe的研究進(jìn)展標(biāo)志著在這個(gè)方向上邁出了堅(jiān)實(shí)的一步。



  • 論文鏈接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf
  • GitHub:https://github.com/stepfun-ai/PaCoRe
  • Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

PaCoRe 框架

標(biāo)準(zhǔn)的思維鏈(Chain-of-Thought)推理與上下文容量是強(qiáng)耦合的:一旦窗口填滿,推理就必須停止。PaCoRe 通過(guò)將推理的主要驅(qū)動(dòng)力從 “串行深度” 轉(zhuǎn)移到 “并行協(xié)同的廣度”,成功解耦了這種關(guān)系。



圖 1:并行協(xié)同推理(PaCoRe)的性能表現(xiàn)。

左圖: 在 HMMT 2025 上,PaCoRe-8B 展示了驚人的測(cè)試時(shí)擴(kuò)展(Test-Time Scaling)能力。通過(guò)增加并行軌跡(Parallel Trajectories)和協(xié)同輪次(Coordinated Rounds),性能穩(wěn)步提升,最終超越了 GPT-5。右圖: 在 LiveCodeBench 上,普通的 RLVR-8B 模型無(wú)法利用增加的測(cè)試時(shí)計(jì)算量,而 PaCoRe 有效地解鎖了這種綜合能力,隨著計(jì)算量的增加帶來(lái)了顯著的性能提升。

推理機(jī)制 (Inference)



圖 2:PaCoRe 的推理流程。



PaCoRe 的核心是一個(gè)按輪次運(yùn)行的迭代消息傳遞架構(gòu)。其工作流程如下:





3.迭代協(xié)同(Iterative Coordination): 這些精簡(jiǎn)消息成為下一輪的上下文,使模型能夠在多次迭代中修正理解、發(fā)現(xiàn)共識(shí)并糾正錯(cuò)誤。為了確保收斂,最后一輪僅使用單一軌跡,生成最終的精簡(jiǎn)消息作為 PaCoRe 推理流水線的輸出。

這種循環(huán)機(jī)制使得系統(tǒng)能夠?qū)?“有效測(cè)試時(shí)計(jì)算量(Effective TTC)”—— 即所有軌跡的 Token 總和 —— 擴(kuò)展到遠(yuǎn)遠(yuǎn)超出模型物理上下文窗口限制的程度。

訓(xùn)練方法 (Training)

實(shí)現(xiàn)這一框架的主要挑戰(zhàn)在于將模型從簡(jiǎn)單聚合孤立推理轉(zhuǎn)移為主動(dòng)合作。未經(jīng)訓(xùn)練的推理模型常常在具有簡(jiǎn)單解結(jié)構(gòu)的問(wèn)題上使用諸如多數(shù)表決這樣的簡(jiǎn)單規(guī)則,而在更加多樣解的問(wèn)題上,模型常常展現(xiàn)出 孤立推理 的現(xiàn)象:盡管在上下文中接收到了來(lái)自并行分支的豐富見(jiàn)解,但模型往往會(huì)忽略它們,試圖從頭開(kāi)始重新解決問(wèn)題。

為了克服這一問(wèn)題,研究團(tuán)隊(duì)將綜合階段視為一個(gè)情景式強(qiáng)化學(xué)習(xí)環(huán)境。我們采用大規(guī)模、基于結(jié)果的 RL 來(lái)教會(huì)模型推理綜合(Reasoning Synthesis) 能力:即審查并行分支、調(diào)和相互沖突的證據(jù)并提煉出統(tǒng)一解決方案的能力。

通過(guò)過(guò)濾訓(xùn)練數(shù)據(jù),排除那些僅靠啟發(fā)式規(guī)則就能解決的簡(jiǎn)單問(wèn)題,我們迫使模型發(fā)展出真正的綜合能力,將其從一個(gè)孤立的求解者轉(zhuǎn)變?yōu)橐粋€(gè)高效的協(xié)同者。



圖 3:PaCoRe 訓(xùn)練動(dòng)力學(xué)。



實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)將 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的內(nèi)部后訓(xùn)練模型)與當(dāng)前最具代表性的前沿推理模型進(jìn)行了對(duì)比評(píng)估。

前沿級(jí)的性能表現(xiàn)

結(jié)果表明,并行協(xié)同機(jī)制使 8B 模型能夠通過(guò)大規(guī)模擴(kuò)展 TTC,獲得遠(yuǎn)超標(biāo)準(zhǔn)解碼限制的顯著收益,在一些最復(fù)雜的數(shù)學(xué)和代碼基準(zhǔn)測(cè)試中超越了最先進(jìn)的系統(tǒng)。



“綜合” 能力的涌現(xiàn)



圖 4:訓(xùn)練過(guò)程中模型輸出中 “綜合” 相關(guān)語(yǔ)言特征的演變。

研究團(tuán)隊(duì)繪制了 PaCoRe 訓(xùn)練期間,數(shù)學(xué)和代碼任務(wù)生成解決方案中 “交叉檢查” 類詞匯(包括 'reference', ' 參考 ', 'Ref

', 'ref

')的頻率。訓(xùn)練在這兩個(gè)領(lǐng)域都激發(fā)并放大了這種綜合能力。值得注意的是,模型最初在代碼任務(wù)上很少進(jìn)行交叉檢查,這佐證了圖 1 中代碼任務(wù)在 PaCoRe 訓(xùn)練前測(cè)試時(shí)擴(kuò)展性差的現(xiàn)象。

研究團(tuán)隊(duì)通過(guò)追蹤訓(xùn)練過(guò)程中 “交叉檢查”(cross-checking)語(yǔ)言標(biāo)記的普遍性來(lái)探究 PaCoRe 的底層機(jī)制。如上圖所示,基于結(jié)果的強(qiáng)化學(xué)習(xí)推動(dòng)了這種行為在兩個(gè)領(lǐng)域的穩(wěn)步上升。模型顯式地學(xué)會(huì)了引用同伴的消息(Referencing peer messages),這種行為在未經(jīng) PaCoRe 訓(xùn)練的模型中幾乎不存在。這證實(shí)了 RL 根本性地改變了推理動(dòng)態(tài),使模型能夠有效地利用大規(guī)模并行計(jì)算。

訓(xùn)練數(shù)據(jù)的通用有效性

除了框架本身,研究團(tuán)隊(duì)還發(fā)現(xiàn)為 PaCoRe 構(gòu)建的訓(xùn)練語(yǔ)料庫(kù)是一種密度極高的學(xué)習(xí)資源。經(jīng)驗(yàn)觀察表明,將我們發(fā)布的數(shù)據(jù)集作為標(biāo)準(zhǔn) RLVR 的主要基底,也能帶來(lái)穩(wěn)健的性能提升。這表明我們的問(wèn)題集 —— 經(jīng)過(guò)精心篩選以要求真正的綜合能力 —— 是訓(xùn)練通用強(qiáng)推理模型的高效催化劑。

結(jié)論與未來(lái)方向

PaCoRe 建立了一條通往大規(guī)模測(cè)試時(shí)擴(kuò)展(Test-Time Scaling)的無(wú)限路徑。通過(guò)圍繞 “并行協(xié)同” 構(gòu)建推理架構(gòu)并針對(duì) “綜合能力” 進(jìn)行訓(xùn)練,研究團(tuán)隊(duì)以將測(cè)試時(shí)計(jì)算擴(kuò)展到數(shù)百萬(wàn) Token,從而允許較小的開(kāi)放權(quán)重模型在復(fù)雜任務(wù)上超越專有的前沿系統(tǒng)。

階躍星辰團(tuán)隊(duì)將發(fā)布模型權(quán)重、訓(xùn)練數(shù)據(jù)和推理代碼,以加速社區(qū)的研究。

展望未來(lái),團(tuán)隊(duì)將 PaCoRe 視為通向以下更大目標(biāo)的基礎(chǔ)性一步:

1.擴(kuò)展極限(Scaling the Extremes): 計(jì)劃將 PaCoRe 應(yīng)用于更強(qiáng)大的基礎(chǔ)模型,擴(kuò)展任務(wù)領(lǐng)域,并進(jìn)一步擴(kuò)大廣度(并行軌跡)和深度(協(xié)同輪次),以攻克目前被認(rèn)為無(wú)法解決的挑戰(zhàn)。

2.提升 Token 智能密度(Boosting Token Intelligence Density): 雖然目前通過(guò) “量” 來(lái)擴(kuò)展,但研究團(tuán)隊(duì)的目標(biāo)是最大化每一個(gè)計(jì)算單元的效用。這包括通過(guò)更好的組織、合作和軌跡間的勞動(dòng)分工,實(shí)現(xiàn)更高效的并行探索。

3.涌現(xiàn)多智能體智能(Emergent Multi-Agent Intelligence): 研究團(tuán)隊(duì)有興趣探索綜合策略(Synthesis Policy)與消息傳遞機(jī)制的聯(lián)合訓(xùn)練,構(gòu)建一個(gè)極簡(jiǎn)卻豐富的協(xié)作多智能體學(xué)習(xí)環(huán)境,這將是研究涌現(xiàn)式溝通、自組織和群體智能的寶貴試驗(yàn)場(chǎng)。

4.銜接預(yù)訓(xùn)練與后訓(xùn)練的 “銜尾蛇”(Ouroboros): 研究團(tuán)隊(duì)打算利用 PaCoRe 流程開(kāi)發(fā)先進(jìn)的合成數(shù)據(jù)生成技術(shù),以反哺并改進(jìn)當(dāng)前的預(yù)訓(xùn)練和后訓(xùn)練過(guò)程,形成良性循環(huán)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
蘇聯(lián)不要的裝備,70萬(wàn)武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫(kù)”

蘇聯(lián)不要的裝備,70萬(wàn)武器被八路軍拉3天3夜,撿出“半個(gè)軍械庫(kù)”

古書記史
2025-12-15 23:29:05
誰(shuí)說(shuō)屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

誰(shuí)說(shuō)屁股大就不能穿瑜伽褲?黃色T恤搭薄荷綠瑜伽褲,成熟有活力

小喬古裝漢服
2025-11-12 11:46:01
4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

春秋論娛
2025-12-18 07:11:35
Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

Angelababy在上海與一眾網(wǎng)紅聚會(huì)!這真是“美得突出”

今古深日?qǐng)?bào)
2025-12-18 11:58:58
案例:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

案例:北京一女教授在家養(yǎng)病長(zhǎng)達(dá)10年,民警進(jìn)門后,當(dāng)場(chǎng)愣在原地

蘭姐說(shuō)故事
2025-01-02 20:00:06
掃地機(jī)器人鼻祖宣布破產(chǎn)

掃地機(jī)器人鼻祖宣布破產(chǎn)

臺(tái)州交通廣播
2025-12-16 20:24:44
王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來(lái)恩愛(ài)只是“遮羞布”

王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來(lái)恩愛(ài)只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

緬甸電詐園區(qū)暗藏軍事基地,遭泰軍大規(guī)模轟炸

遠(yuǎn)方青木
2025-12-18 23:51:19
全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國(guó)首富在干啥

全球首富榜揭曉:美首富造火箭,俄首富搞天然氣,中國(guó)首富在干啥

策略述
2025-12-19 12:39:06
男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

男子公園騎三輪車遭“攔路鐵絲”勒脖身亡,園方:事發(fā)地為私人承包區(qū),已排查公園安全隱患

極目新聞
2025-12-18 17:10:51
不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

不查不知道!龐萊臣后人與南京博物院,早在2014年就打起了官司…

火山詩(shī)話
2025-12-18 18:47:29
劉二狗栽了!泳池派對(duì)搞低俗親密互動(dòng)直播,4400 萬(wàn)粉也救不了!

劉二狗栽了!泳池派對(duì)搞低俗親密互動(dòng)直播,4400 萬(wàn)粉也救不了!

小椰的奶奶
2025-12-19 12:15:15
日本人靠它發(fā)財(cái),美國(guó)人用它打仗,中國(guó)人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

日本人靠它發(fā)財(cái),美國(guó)人用它打仗,中國(guó)人卻把它當(dāng)毒藥扔進(jìn)垃圾桶

策略述
2025-12-18 14:11:27
張繼科"炮轟"劉國(guó)梁,2017年換教練不提前說(shuō),誰(shuí)會(huì)高三換語(yǔ)文老師

張繼科"炮轟"劉國(guó)梁,2017年換教練不提前說(shuō),誰(shuí)會(huì)高三換語(yǔ)文老師

查爾菲的筆記
2025-10-12 17:15:34
1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場(chǎng),昔日部下已是軍委副主席,含淚送別這位鐵血師長(zhǎng)!

1984年他一聲令下,把老山幾千噸炮彈當(dāng)水潑,2019年葬禮現(xiàn)場(chǎng),昔日部下已是軍委副主席,含淚送別這位鐵血師長(zhǎng)!

史海孤雁
2025-12-17 16:50:24
石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒(méi)開(kāi)始反制,日企就已經(jīng)撐不住了

石破茂預(yù)言果然應(yīng)驗(yàn),中方還沒(méi)開(kāi)始反制,日企就已經(jīng)撐不住了

鐵錘簡(jiǎn)科
2025-12-19 13:22:04
泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

泰王又封00后“新妃”,王后素顏跑馬淡定!真宮斗冠軍不在怕的

商務(wù)范
2025-12-18 14:16:58
當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

當(dāng)前最火的五部電視劇,《老舅》跌至第二,你在追哪一部?

草莓解說(shuō)體育
2025-12-19 10:26:11
美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

蜉蝣說(shuō)
2025-12-01 11:20:58
2025-12-19 14:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11953文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

頭條要聞

團(tuán)播女生私下賣力維護(hù)"大哥":經(jīng)常擦邊 有女生會(huì)被約走

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

最便宜GLS 2026款奔馳GLS經(jīng)典版售96.8萬(wàn)

態(tài)度原創(chuàng)

旅游
房產(chǎn)
本地
時(shí)尚
軍事航空

旅游要聞

北京周末可往返!賞冰雪、涮暖鍋、逛大集……官方推薦攻略來(lái)了→

房產(chǎn)要聞

萬(wàn)科·三亞嘉瀾地,萬(wàn)科高端旅居系1號(hào)作品全球發(fā)布

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

“煙管褲”今年冬天爆火,怎么搭都時(shí)髦!

軍事要聞

媒體:美方官宣史上對(duì)臺(tái)單筆最大軍售 野心藏不住了

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版