国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

無(wú)需訓(xùn)練、即插即用,這個(gè)解碼方法讓模型學(xué)會(huì)謹(jǐn)慎思考

0
分享至

你有沒(méi)有發(fā)現(xiàn)這樣一種現(xiàn)象:面對(duì)同一個(gè)問(wèn)題,大模型可能在每次回答時(shí)都給出不同答案。一個(gè)不容忽視的問(wèn)題是,這種不確定性,是否意味著推理仍不穩(wěn)定?

隨著技術(shù)的發(fā)展,大模型在自然語(yǔ)言處理和多模態(tài)任務(wù)中已經(jīng)表現(xiàn)出越來(lái)越強(qiáng)的性能。傳統(tǒng)解碼策略主要包括隨機(jī)采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認(rèn)的是隨機(jī)采樣(random sample),即便是回答相同的問(wèn)題,它們可能每次都會(huì)給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準(zhǔn)測(cè)試(benchmark)上表現(xiàn)會(huì)有所提升,特別是在推理性任務(wù)上。但是,模型在不確定情況下的表現(xiàn)仍不理想。

為解決上述問(wèn)題,美國(guó)東北大學(xué)與 Adobe、美國(guó)凱斯西儲(chǔ)大學(xué)聯(lián)合團(tuán)隊(duì)提出了一種無(wú)需訓(xùn)練的新型解碼策略,名為“謹(jǐn)慎下一步預(yù)測(cè)(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過(guò)在模型不確定性高的步驟采樣多個(gè)候選路徑,并選擇困惑度最低的路徑。相較于隨機(jī)采樣和貪婪解碼等傳統(tǒng)策略,CNTP 顯著提升了大模型在多種任務(wù)上的推理準(zhǔn)確度,可應(yīng)用場(chǎng)景包括語(yǔ)音助手、視覺(jué)助手、聊天機(jī)器人等。


圖丨相關(guān)論文(來(lái)源:arXiv)

“我們的研究證明了 Transformer 模型下一個(gè)詞元預(yù)測(cè)(next token prediction)的范式,有可能實(shí)現(xiàn)真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?duì) DeepTech 表示。他目前正在東北大學(xué)攻讀博士學(xué)位,主要研究方向包括大模型、多模態(tài)模型和計(jì)算機(jī)視覺(jué),即將加入 Adobe 擔(dān)任研究科學(xué)家/工程師。


圖丨王亦周(來(lái)源:王亦周)

Safe Superintelligence 公司創(chuàng)始人、前 OpenAI 首席科學(xué)家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開(kāi)表示,如果模型足夠強(qiáng)大,對(duì)下一個(gè) token 的預(yù)測(cè)能力可能反映對(duì)世界的某種理解,這可能是實(shí)現(xiàn)更深層智能的關(guān)鍵路徑。

也就是說(shuō),next token prediction 是智能的核心。要實(shí)現(xiàn)這一點(diǎn),需要在模型內(nèi)部進(jìn)行強(qiáng)推理,再通過(guò)一系列計(jì)算預(yù)測(cè)下一個(gè) token。

受此啟發(fā),研究團(tuán)隊(duì)從人類(lèi)認(rèn)知行為中尋找靈感:人在思考時(shí),往往越謹(jǐn)慎回答,結(jié)果的準(zhǔn)確率越高,那么大模型會(huì)不會(huì)也和人腦有類(lèi)似的機(jī)制?

王亦周解釋道:“這種過(guò)程類(lèi)似于我們?cè)趨⒓涌荚嚂r(shí)的解題過(guò)程,我們可能會(huì)先想下有哪些解法,然后從中挑選一種認(rèn)為最有把握的方法,確認(rèn)無(wú)誤后再進(jìn)行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來(lái)源:arXiv)

這里的謹(jǐn)慎指的是,當(dāng)面對(duì)不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩(wěn)妥、最可信的路徑。

研究團(tuán)隊(duì)用熵作為模型不確定性的衡量標(biāo)準(zhǔn):熵越高越不可信。在自然語(yǔ)言處理(NLP)中,困惑度(perplexity)越低代表對(duì)答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會(huì)采樣多個(gè)候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過(guò)消融研究證明,由于思維鏈推理的回答往往較長(zhǎng),每條路徑長(zhǎng)度也不同,如果算完整評(píng)估的困惑度無(wú)法很好地衡量答案的可靠性?;诖耍麄儾扇×嗣康揭痪湓挼臉?biāo)點(diǎn)符號(hào)截止的方式來(lái)計(jì)算困惑度。相當(dāng)于每句話、每個(gè)小的推理單元,即每個(gè)局部自洽能夠?qū)崿F(xiàn)較理想的效果。

為控制采樣次數(shù),研究團(tuán)隊(duì)通過(guò)設(shè)置最小熵 Hmin 和最大熵 Hmax 兩個(gè)閾值和最大試驗(yàn)次數(shù) Nmax。該方法在提高解碼準(zhǔn)確性的同時(shí),還有效地限制了計(jì)算成本,避免了在每個(gè)步驟大量采樣而帶來(lái)的高計(jì)算開(kāi)銷(xiāo)。


(來(lái)源:arXiv)

在實(shí)驗(yàn)驗(yàn)證方面,該團(tuán)隊(duì)在數(shù)學(xué)推理(GSM8K、MATH)、常識(shí)推理(StrategyQA)和開(kāi)放問(wèn)答(TruthfulQA)等任務(wù)中證明,與包括貪婪解碼、隨機(jī)解碼和束搜索在內(nèi)的傳統(tǒng)方法相比,CNTP 策略的結(jié)果更具優(yōu)勢(shì)。

例如,在 TruthfulQA 任務(wù)中,Llama-2-7B 在使用 CNTP 方法后,真實(shí)性準(zhǔn)確率提升到了 84.8%,相較于隨機(jī)解碼提升 6.8%。

值得關(guān)注的是,CNTP 策略無(wú)需訓(xùn)練,僅解碼即可直接實(shí)現(xiàn)提升性能。王亦周解釋道:這種方法在某種程度上像“免費(fèi)午餐”,盡管可能會(huì)帶來(lái)更多的 token 消耗,但在實(shí)際應(yīng)用中有很多優(yōu)化的方法可解決該問(wèn)題。


(來(lái)源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進(jìn)一步提升性能(注:自一致性是取多個(gè)樣本,然后選一個(gè)出現(xiàn)頻率最高的答案),且計(jì)算成本遠(yuǎn)低于后者。原因在于,利用多樣性和隨機(jī)性集思廣益后,選取多數(shù)投票。

研究團(tuán)隊(duì)證明,每個(gè)樣本也是越謹(jǐn)慎越好?!拔覀兊姆椒〞?huì)在一定程度上限制它的多樣性,但通過(guò)調(diào)高溫度可以解決這一點(diǎn),所以它能進(jìn)一步提升?!蓖跻嘀苷f(shuō)。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對(duì)話任務(wù)。除了有固定答案的數(shù)學(xué)題或代碼題,它也可以用于開(kāi)放式問(wèn)題,研究團(tuán)隊(duì)未來(lái)將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優(yōu)化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關(guān)論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
斯諾克重磅官宣!奧沙利文出戰(zhàn)元老世錦賽!馬克威廉姆斯?fàn)幑诔袎?>
    </a>
        <h3>
      <a href=林子說(shuō)事
2026-02-24 16:40:57
歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂

歐冠一夜4戰(zhàn)!將有4隊(duì)出線:頭號(hào)黑馬呼之欲出 2隊(duì)晉級(jí)無(wú)憂

葉青足球世界
2026-02-24 09:46:59
《鏢人》原著作者許先哲的逆襲:欠債青年畫(huà)出“世界級(jí)水平中國(guó)動(dòng)漫精品”

《鏢人》原著作者許先哲的逆襲:欠債青年畫(huà)出“世界級(jí)水平中國(guó)動(dòng)漫精品”

封面新聞
2026-02-24 13:33:07
不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

不能令人信服的通報(bào),媒體就別轉(zhuǎn)發(fā)了吧!

林中木白
2026-02-23 12:40:41
破案了!谷愛(ài)凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

破案了!谷愛(ài)凌嘴里那個(gè)東西,關(guān)鍵時(shí)刻能救命,甚至能防腦震蕩!

小娛樂(lè)悠悠
2026-02-24 12:57:58
三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

三位軍長(zhǎng),同時(shí)被破格提拔,當(dāng)了大軍區(qū)司令

文史茶館2020
2026-02-23 14:35:47
36 歲離婚女子獨(dú)自過(guò)年崩潰痛哭:沒(méi)老公沒(méi)孩子,誰(shuí)還會(huì)娶我

36 歲離婚女子獨(dú)自過(guò)年崩潰痛哭:沒(méi)老公沒(méi)孩子,誰(shuí)還會(huì)娶我

一盅情懷
2026-02-23 14:10:06
香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

香港身份爛尾潮已來(lái)!12萬(wàn)內(nèi)地中產(chǎn),正在被精準(zhǔn)收割

社會(huì)日日鮮
2026-02-22 04:38:12
毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

毒梟死亡引發(fā)多州暴力事件 墨西哥總統(tǒng)呼吁民眾保持冷靜

極目新聞
2026-02-23 09:14:54
西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

西部亂了,雷霆重返第1卻高興不起來(lái),3-6名太激烈,附加賽無(wú)意義

鐵甲西奇
2026-02-24 15:24:44
不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

不好的征兆!美軍又在吃出征宴了!龍蝦、蟹腿、牛排隨便挑著吃!

我心縱橫天地間
2026-02-23 13:20:50
孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

孔蒂與那不勒斯的緣分將盡!衛(wèi)冕冠軍那不勒斯賽季表現(xiàn)糟糕

小驛拍客在北漂
2026-02-24 03:09:06
央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷(xiāo)往全國(guó)

央媒曝光:14種品牌奶粉都是假的!原料為奶精+淀粉,已銷(xiāo)往全國(guó)

云舟史策
2026-02-23 16:26:54
國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

國(guó)安部披露:境外反華勢(shì)力以快速“入籍”為餌,誘騙我國(guó)公民參加反華活動(dòng)

澎湃新聞
2026-02-24 07:56:11
山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

山姆超市偶遇金莎和孫丞瀟,金莎本人不年輕,一看就比老公大很多

阿廢冷眼觀察所
2026-02-23 22:31:01
夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

夢(mèng)鴿心中永遠(yuǎn)的痛:如今58歲的她,已經(jīng)為兒子鋪好下一條路了嗎?

小熊侃史
2026-02-24 18:06:25
當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

當(dāng)?shù)厝艘脖辉?,蓬萊酒樓屢教不改連夜被摘牌,老板透露身份還掙扎

社會(huì)日日鮮
2026-02-24 09:27:23
從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

從阿森納挖來(lái)的瑰寶!曼聯(lián)小將狂轟4球,青訓(xùn)主帥直言潛力未觸頂

夜白侃球
2026-02-24 18:59:48
59歲佟瑞欣近況曝光!娶生病變胖演員恩愛(ài)27年,兒女雙全很幸福

59歲佟瑞欣近況曝光!娶生病變胖演員恩愛(ài)27年,兒女雙全很幸福

代軍哥哥談娛樂(lè)
2026-02-23 09:47:05
中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

中國(guó)正在大量囤油,一度吞掉世界9成囤量,有什么大事要發(fā)生?

森羅萬(wàn)象視頻
2026-02-23 21:13:07
2026-02-24 20:12:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
16315文章數(shù) 514648關(guān)注度
往期回顧 全部

科技要聞

AI顛覆發(fā)展最新?tīng)奚?!IBM跳水重挫超13%

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

頭條要聞

20家日本實(shí)體被列入管制名單 中方:完全正當(dāng) 合理合法

體育要聞

蘇翊鳴總結(jié)米蘭征程:我仍是那個(gè)熱愛(ài)單板滑雪的少年

娛樂(lè)要聞

汪小菲官宣三胎出生:承諾會(huì)照顧好3個(gè)孩子

財(cái)經(jīng)要聞

縣城消費(fèi)「限時(shí)繁榮」了十天

汽車(chē)要聞

入門(mén)即滿配 威蘭達(dá)AIR版上市 13.78萬(wàn)元起

態(tài)度原創(chuàng)

本地
教育
時(shí)尚
房產(chǎn)
公開(kāi)課

本地新聞

春花齊放2026:《駿馬奔騰迎新歲》

教育要聞

收藏!2026四川高中學(xué)業(yè)水平考試報(bào)名指南

今年春天一定要擁有的針織,這樣穿減齡又好看!

房產(chǎn)要聞

330萬(wàn)人涌入!春節(jié)全國(guó)樓市,第一個(gè)賣(mài)爆的區(qū)域出現(xiàn)了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版