国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

0
分享至

你有沒有發(fā)現(xiàn)這樣一種現(xiàn)象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩(wěn)定?

隨著技術的發(fā)展,大模型在自然語言處理和多模態(tài)任務中已經(jīng)表現(xiàn)出越來越強的性能。傳統(tǒng)解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現(xiàn)會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現(xiàn)仍不理想。

為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯(lián)合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統(tǒng)策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


圖丨相關論文(來源:arXiv)

“我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現(xiàn)真正的智能?!痹撜撐牡谝蛔髡咄跻嘀軐?DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態(tài)模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


圖丨王亦周(來源:王亦周)

Safe Superintelligence 公司創(chuàng)始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現(xiàn)更深層智能的關鍵路徑。

也就是說,next token prediction 是智能的核心。要實現(xiàn)這一點,需要在模型內(nèi)部進行強推理,再通過一系列計算預測下一個 token。

受此啟發(fā),研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結(jié)果的準確率越高,那么大模型會不會也和人腦有類似的機制?

王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來源:arXiv)

這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩(wěn)妥、最可信的路徑。

研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性?;诖耍麄儾扇×嗣康揭痪湓挼臉它c符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠?qū)崿F(xiàn)較理想的效果。

為控制采樣次數(shù),研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數(shù) Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


(來源:arXiv)

在實驗驗證方面,該團隊在數(shù)學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內(nèi)的傳統(tǒng)方法相比,CNTP 策略的結(jié)果更具優(yōu)勢。

例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現(xiàn)提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優(yōu)化的方法可解決該問題。


(來源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現(xiàn)頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數(shù)投票。

研究團隊證明,每個樣本也是越謹慎越好?!拔覀兊姆椒〞谝欢ǔ潭壬舷拗扑亩鄻有?,但通過調(diào)高溫度可以解決這一點,所以它能進一步提升?!蓖跻嘀苷f。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數(shù)學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優(yōu)化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
政府文件系偽造,專項資金為虛構,浙江一商人陷“移民小區(qū)”項目騙局,自稱已投入資金近2900萬元

政府文件系偽造,專項資金為虛構,浙江一商人陷“移民小區(qū)”項目騙局,自稱已投入資金近2900萬元

臺州交通廣播
2026-04-10 20:03:16
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
DeepSeek拋棄英偉達,華為給出第二選擇,中國AI迎來“安卓時刻”

DeepSeek拋棄英偉達,華為給出第二選擇,中國AI迎來“安卓時刻”

王新喜
2026-04-10 20:46:42
美談判團隊攜數(shù)十輛裝甲車抵達后,巴基斯坦:伊朗團隊我負責護航

美談判團隊攜數(shù)十輛裝甲車抵達后,巴基斯坦:伊朗團隊我負責護航

共工之錨
2026-04-11 01:03:28
廣西一小學生在鬧市獨自駕車行駛,被群眾和交警攔下,知情人:偷拿老師車鑰匙開車出來

廣西一小學生在鬧市獨自駕車行駛,被群眾和交警攔下,知情人:偷拿老師車鑰匙開車出來

臺州交通廣播
2026-04-11 18:34:55
中國足協(xié)要求半小時內(nèi)報告比賽異常行為!有球隊連射自家球門

中國足協(xié)要求半小時內(nèi)報告比賽異常行為!有球隊連射自家球門

南方都市報
2026-04-11 18:28:56
蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

老謝談史
2026-03-18 18:33:35
廣西7人被控制,涉案工具全扣押!

廣西7人被控制,涉案工具全扣押!

930老友記
2026-04-11 22:49:08
中國引進最成功的航空發(fā)動機,它的裝備為空軍緩解了30年的壓力

中國引進最成功的航空發(fā)動機,它的裝備為空軍緩解了30年的壓力

小熊侃史
2026-04-10 10:15:23
湖北發(fā)布最新癌癥年報:肺癌發(fā)病和死亡率均排“第一”;死亡率前5里消化道腫瘤占3個,分別是胃癌、結(jié)直腸癌和食管癌

湖北發(fā)布最新癌癥年報:肺癌發(fā)病和死亡率均排“第一”;死亡率前5里消化道腫瘤占3個,分別是胃癌、結(jié)直腸癌和食管癌

極目新聞
2026-04-11 13:01:17
江西一大學,領導調(diào)整

江西一大學,領導調(diào)整

雙一流高校
2026-04-12 00:09:05
父母悄悄存下的大額存單,正為無數(shù)家庭矛盾埋下隱形雷區(qū)

父母悄悄存下的大額存單,正為無數(shù)家庭矛盾埋下隱形雷區(qū)

復轉(zhuǎn)這些年
2026-04-10 11:00:09
演員趙達官宣結(jié)婚,周也發(fā)文祝賀:“恭喜舅舅,新婚快樂”

演員趙達官宣結(jié)婚,周也發(fā)文祝賀:“恭喜舅舅,新婚快樂”

韓小娛
2026-04-11 11:46:56
演員湯唯:我這輩子最正確的決定,就是在37歲高齡為大丈夫生孩子

演員湯唯:我這輩子最正確的決定,就是在37歲高齡為大丈夫生孩子

阿尢說歷史
2026-04-11 08:25:00
李斌:不是所有的隱藏式門把手都不安全 蔚來的是個例外

李斌:不是所有的隱藏式門把手都不安全 蔚來的是個例外

快科技
2026-04-10 12:20:06
470億遺產(chǎn)爭奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

470億遺產(chǎn)爭奪戰(zhàn)打響,遲重瑞被陳麗華子女踢出局?

王一曉
2026-04-09 17:16:09
遼寧凌晨發(fā)生地震,專家釋疑:正常能量釋放,市民無需恐慌

遼寧凌晨發(fā)生地震,專家釋疑:正常能量釋放,市民無需恐慌

周哥一影視
2026-04-12 03:18:58
讀衛(wèi)校時去同學家玩,對他姐姐一見鐘情,3年后我成了同學的姐夫

讀衛(wèi)校時去同學家玩,對他姐姐一見鐘情,3年后我成了同學的姐夫

農(nóng)村情感故事
2025-04-12 08:00:16
4月中,撒貝寧50歲官宣喜訊,印證李白選擇

4月中,撒貝寧50歲官宣喜訊,印證李白選擇

老好人的憤怒
2026-04-12 02:45:25
以色列襲擊黎巴嫩已造成超2000人死亡

以色列襲擊黎巴嫩已造成超2000人死亡

新華社
2026-04-12 01:57:06
2026-04-12 07:47:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16567文章數(shù) 514863關注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

伊朗總統(tǒng)與法國總統(tǒng)通電話 稱美伊談判成敗取決于美方

頭條要聞

伊朗總統(tǒng)與法國總統(tǒng)通電話 稱美伊談判成敗取決于美方

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

健康
本地
手機
公開課
軍事航空

干細胞抗衰4大誤區(qū),90%的人都中招

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機要聞

谷歌Pixel系列更新后出問題,官方已承認正在調(diào)查

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進入關懷版