国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型答題總翻車(幻覺)?先挑錯再寫答案,正確率飆升還不花錢!

0
分享至

你有沒有過這種經(jīng)歷:做數(shù)學(xué)題時,自己順著思路算半天得出錯誤答案,可看到同學(xué)的錯題后,反而一眼看穿問題所在?現(xiàn)在,清華大學(xué)的研究團(tuán)隊(duì)把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 ——關(guān)鍵是,不用額外訓(xùn)練、不用多花錢,只是換個提問方式!

論文《Asking LLMs to Verify First is Almost Free Lunch》就進(jìn)行了這項(xiàng)研究。


核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機(jī)猜的、無關(guān)緊要的),讓它先驗(yàn)證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計(jì)算成本~


圖 1:反向推理路徑(驗(yàn)證過程)更易構(gòu)建,且包含與正向推理路徑(標(biāo)準(zhǔn)思維鏈,CoT)互補(bǔ)的信息。

原來大模型答題,也有 “自我中心” 的小毛病

我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

比如這道經(jīng)典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發(fā)現(xiàn)邏輯漏洞。

這就是大模型的 “老毛病”:現(xiàn)在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導(dǎo)”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達(dá)流暢,反而容易忽略邏輯嚴(yán)謹(jǐn)性—— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

而且之前想提升 AI 推理能力,要么得花大價錢訓(xùn)練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

“先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?

清華團(tuán)隊(duì)的 VF(Verification-First,先驗(yàn)證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認(rèn)知規(guī)律:

  1. 驗(yàn)證答案,比自己算答案簡單多了!

  2. 就像老師批改作業(yè)比自己做題快 —— 假設(shè)答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導(dǎo)簡單太多。哪怕給的是錯答案,AI 在驗(yàn)證時也會理清 “題目該怎么解”,相當(dāng)于提前搭好了思路框架。從數(shù)學(xué)上來說,其實(shí)是讓大模型的回答事先收斂到相關(guān)領(lǐng)域的大的特征空間里,再從大的特征空間里尋找準(zhǔn)確的部分進(jìn)行檢索和回答。而非直接讓大模型跳進(jìn)最小的特征空間找答案。

  3. 讓 AI “挑別人的錯”,能激活批判性思維!

  4. 人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗(yàn)證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當(dāng)然” 的錯誤。

舉兩個例子,一看就懂!


圖 2:帶有隨機(jī) / 簡單答案的 VF 提示(右側(cè)),與標(biāo)準(zhǔn)的 CoT 提示(左側(cè))對比

這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區(qū)別,兩道題就能看出差距:

左欄是普通 CoT:AI 順著思路推導(dǎo),蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號)。

右欄是 VF 策略:先給一個隨機(jī)答案 “1”,讓 AI 先驗(yàn)證——? 驗(yàn)證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗(yàn)證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。

是不是很神奇?一個隨機(jī)的 “錯題”,反而幫 AI 理清了思路~

升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準(zhǔn)

如果遇到復(fù)雜題,給一個隨機(jī)答案不夠用怎么辦?團(tuán)隊(duì)又搞出了 “迭代版”——Iter-VF。

簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗(yàn)證這個答案、生成新答案;再用新答案當(dāng) “候選答案”,重復(fù)驗(yàn)證 - 生成的過程,循環(huán)幾次(次數(shù)可以控制,不浪費(fèi)算力)。


圖3:(a)使用先前生成的答案進(jìn)行VF提示的說明,以及將此過程迭代為(b)用于測試時擴(kuò)展的Iter-VF的說明。

圖 3 左邊展示了 “用 AI 之前的答案做驗(yàn)證”(比如編程題,沒法給隨機(jī)答案,就用 AI 第一次寫的代碼當(dāng)候選),右邊是 Iter-VF 的循環(huán)流程:從初始答案開始,迭代驗(yàn)證 - 生成,最后得到最優(yōu)解。

關(guān)鍵優(yōu)勢是:AI 每次只關(guān)注上一個答案,不糾結(jié)之前的推導(dǎo)過程,不會因?yàn)?“想太多” 導(dǎo)致邏輯混亂(這是很多其他迭代方法的通病),還能控制計(jì)算成本~

實(shí)驗(yàn)結(jié)果:準(zhǔn)確率暴漲,成本幾乎可以忽略!

團(tuán)隊(duì)在數(shù)學(xué)題(GSM8K、MATH500)、研究生級科學(xué)題(GPQA)、編程題(HumanEval)、API 調(diào)用等多個任務(wù)上測試,結(jié)果超亮眼:

這里要貼論文圖 4 和表 1


圖4:VF提示法始終優(yōu)于標(biāo)準(zhǔn)的CoT提示法。

圖 4 能看到:不管是 10 億參數(shù)的小模型,還是 720 億參數(shù)的大模型,VF 策略都比普通 CoT 準(zhǔn)確率高,數(shù)學(xué)題上的提升尤其明顯(畢竟數(shù)學(xué)最需要邏輯嚴(yán)謹(jǐn));


表1:推理基準(zhǔn)測試的輸出標(biāo)記數(shù)量。

表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計(jì)算成本幾乎可以忽略—— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


表2:編碼和API任務(wù)的性能比較。具有可比性結(jié)果的行未用水平線分隔?!癏Eval”是“HumanEval”的縮寫。

表 2 證明:在編程、API 調(diào)用這些 “沒法給隨機(jī)答案” 的實(shí)際任務(wù)中,VF 用 AI 之前的答案做驗(yàn)證,表現(xiàn)也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


表3:與隱藏思維的大語言模型服務(wù)的性能對比。準(zhǔn)確率%(輸出令牌數(shù)量)。

表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業(yè)大模型(我們看不到它怎么推導(dǎo),沒法讓它 “修改思路”),用 VF 策略也能提升準(zhǔn)確率,而且只多花一點(diǎn)點(diǎn)算力~

總結(jié):簡單卻強(qiáng)大的 “答題技巧”,未來可期!

清華團(tuán)隊(duì)的這個方法,本質(zhì)上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗(yàn)證比生成簡單”“批判性思維能避坑” 的認(rèn)知規(guī)律,就大幅提升了大模型的推理能力。

對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結(jié)果 —— 說不定正確率會翻倍~

感興趣的同學(xué)可以去看原文,里面還有更多實(shí)驗(yàn)細(xì)節(jié)和案例~ 不得不說,把人類的學(xué)習(xí)技巧用在 AI 上,真的太妙了!

? 科研不一定都要 “高大上”,有時候一個簡單的思路轉(zhuǎn)變,就能帶來巨大突破~ 為研究團(tuán)隊(duì)點(diǎn)贊!

原標(biāo)題:大模型答題總翻車(幻覺)?清華大學(xué)新方法:先挑錯再寫答案,正確率飆升還不花錢!

來源:計(jì)算科學(xué)

編輯:丁香葉子

轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

不代表中科院物理所立場

如需轉(zhuǎn)載請聯(lián)系原公眾號

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多部門出手,嫣然傳來好消息!醫(yī)院新地址已定,但面臨一個大難題

多部門出手,嫣然傳來好消息!醫(yī)院新地址已定,但面臨一個大難題

哄動一時啊
2026-01-23 16:42:19
絕不重蹈委內(nèi)瑞拉覆轍,中國無視特朗普威脅,緊急援助運(yùn)抵古巴!

絕不重蹈委內(nèi)瑞拉覆轍,中國無視特朗普威脅,緊急援助運(yùn)抵古巴!

通鑒史智
2026-01-23 16:25:11
萬萬沒想到,丁克了大半輩子的梁丹妮,如今在71歲活成人生贏家

萬萬沒想到,丁克了大半輩子的梁丹妮,如今在71歲活成人生贏家

暖心萌阿菇?jīng)?/span>
2026-01-11 10:33:13
1999香港 站在雙層巴士上的張柏芝年十九歲。青春靈動,美的驚艷!

1999香港 站在雙層巴士上的張柏芝年十九歲。青春靈動,美的驚艷!

可樂談情感
2026-01-21 00:05:37
勝湖人!泰倫盧采訪沮喪不滿判罰,多人爆贊祖巴茨,小卡主動擔(dān)責(zé)

勝湖人!泰倫盧采訪沮喪不滿判罰,多人爆贊祖巴茨,小卡主動擔(dān)責(zé)

籃球資訊達(dá)人
2026-01-23 15:19:17
俄羅斯遭遇重大襲擊!烏軍首次使用火烈鳥巡航導(dǎo)彈!可覆蓋莫斯科

俄羅斯遭遇重大襲擊!烏軍首次使用火烈鳥巡航導(dǎo)彈!可覆蓋莫斯科

番茄說史聊
2026-01-22 09:53:30
32歲程序員周末在家暈倒后猝死,當(dāng)天有4項(xiàng)工作任務(wù)待完成,人社局一工作人員回應(yīng):是否算工傷還在調(diào)查

32歲程序員周末在家暈倒后猝死,當(dāng)天有4項(xiàng)工作任務(wù)待完成,人社局一工作人員回應(yīng):是否算工傷還在調(diào)查

極目新聞
2026-01-22 17:02:53
徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

徹底崩盤!基輔上演“大逃亡”,美軍M270被俄打爆,小澤幻想破滅

壹知眠羊
2026-01-23 16:36:22
約旦、阿聯(lián)酋等國發(fā)表聯(lián)合聲明 決定加入所謂“和平委員會”

約旦、阿聯(lián)酋等國發(fā)表聯(lián)合聲明 決定加入所謂“和平委員會”

每日經(jīng)濟(jì)新聞
2026-01-22 17:07:22
又被家暴了?馬克龍右眼血管破裂遭質(zhì)疑!布麗吉特:15歲的他讓我癡迷

又被家暴了?馬克龍右眼血管破裂遭質(zhì)疑!布麗吉特:15歲的他讓我癡迷

小魚愛魚樂
2026-01-17 17:50:43
可控核聚變,有明確訂單的5家公司!

可控核聚變,有明確訂單的5家公司!

Thurman在昆明
2026-01-21 10:36:35
AI眼鏡:下一個千億級消費(fèi)電子賽道

AI眼鏡:下一個千億級消費(fèi)電子賽道

界面新聞
2026-01-22 14:04:13
女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

女孩當(dāng)小姐,一晚要提供4到5次上門服務(wù),2015年被親人點(diǎn)到不赴約

漢史趣聞
2025-11-08 09:27:32
大清洗!大眾裁員3.5萬人,包括1/3高管

大清洗!大眾裁員3.5萬人,包括1/3高管

全球汽貿(mào)網(wǎng)
2026-01-22 14:06:34
人社部明確!2026養(yǎng)老金繼續(xù)調(diào)整,1955年到1961年出生,漲更多嗎

人社部明確!2026養(yǎng)老金繼續(xù)調(diào)整,1955年到1961年出生,漲更多嗎

有范又有料
2026-01-23 09:32:06
3.17GB更新!鴻蒙6.0.0.130正式版推送,Mate 60以上機(jī)型支持升級

3.17GB更新!鴻蒙6.0.0.130正式版推送,Mate 60以上機(jī)型支持升級

小8說科技
2026-01-23 17:06:58
在股票市場上,90%的人根本不是在投資,甚至連投機(jī)都算不上

在股票市場上,90%的人根本不是在投資,甚至連投機(jī)都算不上

流蘇晚晴
2025-12-07 16:55:20
上海三至五年級期末考試取消英語,只考語文數(shù)學(xué),令家長不解!

上海三至五年級期末考試取消英語,只考語文數(shù)學(xué),令家長不解!

李老師講最真教育
2026-01-22 21:17:11
將解說U23國足,詹俊:抱歉利物浦,我要解說真正的主隊(duì)去了

將解說U23國足,詹?。罕咐锲郑乙庹f真正的主隊(duì)去了

懂球帝
2026-01-22 18:25:12
你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

你身邊有把一手好牌打的稀爛的人嗎?網(wǎng)友:都是上輩子欠人家的

帶你感受人間冷暖
2026-01-21 00:15:05
2026-01-23 17:48:49
中科院物理所 incentive-icons
中科院物理所
愛上物理,改變世界。
9798文章數(shù) 136432關(guān)注度
往期回顧 全部

教育要聞

中小學(xué)課程方案和音樂課程標(biāo)準(zhǔn)日常修訂版國家級示范培訓(xùn)在上音舉辦

頭條要聞

21歲女孩確診白血病后急尋親生父母:已簽病危通知書

頭條要聞

21歲女孩確診白血病后急尋親生父母:已簽病危通知書

體育要聞

跑個步而已,他們在燃什么?

娛樂要聞

劉大錘曝料 將王星越的“體面”撕粉碎

財(cái)經(jīng)要聞

茂名首富,這次糟了

科技要聞

TikTok守住了算法"靈魂" 更握緊了"錢袋子"

汽車要聞

主打家庭大六座 奕境首款SUV將北京車展亮相

態(tài)度原創(chuàng)

教育
本地
家居
房產(chǎn)
軍事航空

教育要聞

經(jīng)典平均數(shù)問題,輕松搞定!

本地新聞

云游中國|格爾木的四季朋友圈,張張值得你點(diǎn)贊

家居要聞

在家度假 160平南洋混搭宅

房產(chǎn)要聞

正式官宣!三亞又一所名校要來了!

軍事要聞

美軍首艘“高超導(dǎo)彈戰(zhàn)艦”出海測試

無障礙瀏覽 進(jìn)入關(guān)懷版