国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLM把簡單任務(wù)復(fù)雜化,Karpathy無語:有些任務(wù)無需那么多思考

0
分享至



機(jī)器之心報(bào)道

編輯:冷貓

隨著推理大模型和思維鏈的出現(xiàn)與普及,大模型具備了「深度思考」的能力,不同任務(wù)的泛用性得到了很大的提高。

借助思維鏈,大模型能夠?qū)θ蝿?wù)進(jìn)行深入分析,完成任務(wù)規(guī)劃與拆解,從而勝任長周期、復(fù)雜度高的工作。同時(shí),我們也能更直觀地了解模型的推理與分析過程,從中發(fā)現(xiàn)執(zhí)行環(huán)節(jié)中的問題,并有針對(duì)性地調(diào)整指令,以更高效地完成目標(biāo)。

可以說,有了「深度思考」的推理模型,才有了現(xiàn)在擁有多種輔助功能與自主能力的 AI 智能體。

但現(xiàn)在的大模型漸漸有些偏科了。為了構(gòu)建應(yīng)用能力更強(qiáng)的智能體,對(duì)長周期的復(fù)雜任務(wù)能力的追求已經(jīng)影響到了大模型的推理模式。

不知道大家在平常使用 AI 工具的時(shí)候有沒有發(fā)現(xiàn),打開了深度思考后,一些簡單的任務(wù)也需要很多的思考,展示了非常冗長的思維鏈,而不打開深度思考的時(shí)候,又很難準(zhǔn)確的得到想要的回復(fù)。

這種現(xiàn)象越來越明顯了,尤其是當(dāng)大模型進(jìn)入工作流(例如編碼工作)的時(shí)候,其負(fù)面效應(yīng)就更加顯著。

這不,AI 領(lǐng)域的大牛 Andrej Karpathy 也感覺到不對(duì)勁,發(fā)了長文推來指出這個(gè)令人無語的現(xiàn)象。



Karpathy 說,「LLM 在默認(rèn)狀態(tài)下正變得比我日常使用需求更具『自主代理(Agentic)』傾向,甚至有些超出了我的平均使用場景」。

最明顯的的確是編碼任務(wù),模型現(xiàn)在往往會(huì)進(jìn)行較長時(shí)間的推理,傾向于在整個(gè)代碼庫中列出并搜索(grep)文件,會(huì)反復(fù)進(jìn)行網(wǎng)絡(luò)搜索,對(duì)一些在開發(fā)中、且明顯并不完整的代碼里極少出現(xiàn)的邊緣情況過度分析、過度思考,甚至在非常簡單的查詢中,也常常需要幾分鐘后才返回結(jié)果。

尤其是在簡單的任務(wù)中,比如在運(yùn)行腳本前快速檢查索引錯(cuò)誤或其他低級(jí)錯(cuò)誤,根本不需要如此復(fù)雜的任務(wù)分析和代碼處理。

因此 Karpathy 不得不經(jīng)常打斷 LLM,并用類似這樣的指令限制它:「停,你想得太多了。只看這一份文件。不要用任何工具。不要過度設(shè)計(jì)。

這帶來了很多麻煩,不僅是在編碼任務(wù),我們發(fā)現(xiàn)日常使用 LLM 工具時(shí)候的類似打斷情況也越來越多了。

簡單拿剛發(fā)布幾天的 GPT-5 舉個(gè)例子,發(fā)布時(shí) OpenAI 顯然意識(shí)到深度思考的問題,所以他們強(qiáng)調(diào) GPT-5 是一個(gè)集成模型,也就是說,你用它的時(shí)候不需要在不同模型之間切換,它會(huì)自己決定何時(shí)需要深入思考。

但這個(gè)問題顯然沒有這么簡單。記得當(dāng)時(shí) GPT-4o 模型的圖像編輯生成功能很好用,但在更新到新模型后就不太一樣了。

我們給了 GPT-5 這個(gè)指令:「去除圖中文字,把這張圖變得高清一些,機(jī)器人的臉看起來更溫和一些」,希望它能夠調(diào)用圖像編輯的功能。

但結(jié)果它就開始進(jìn)行「深度思考」了:



經(jīng)過了 38 秒的思考,它考慮了很多細(xì)節(jié),但仍然未能開始使用圖像生成功能,導(dǎo)致不得不打斷它的任務(wù)進(jìn)程。

或許這也是用戶們無比懷念 GPT-4o 的原因之一。

正如 Karpathy 指出的,隨著默認(rèn)模式逐漸向這種「超深度思考」的高代理化狀態(tài)靠攏,我們反而更需要一個(gè)相反的選項(xiàng)—— 一種更直接有效的方式去表達(dá)或傳達(dá)我的意圖和任務(wù)的緊迫程度,從「快速看一眼」到「花 30 分鐘徹底確認(rèn)后再回來」都能精確指定。

網(wǎng)友們也苦「過度思考」久矣,甚至為此回到了最樸素的使用方法。





對(duì)于這件事,Karpathy覺得罪魁禍?zhǔn)姿坪跏谴竽P汀?strong>在長周期任務(wù)上進(jìn)行了大量基準(zhǔn)測(cè)試優(yōu)化」,為了在基準(zhǔn)測(cè)試上得到更好的成績,LLM的思考就更傾向于長周期的復(fù)雜任務(wù)的實(shí)現(xiàn),因此影響了普通任務(wù)的響應(yīng)。



他指出了兩種情境:

1. 我招呼同事過來看我屏幕上打開的一個(gè)文件,問他「這樣對(duì)嗎?」

2. 我讓某人坐在桌前,他們有 2 個(gè)小時(shí)來作答。這是一場考試, 風(fēng)險(xiǎn)很高。題目是「這樣對(duì)嗎?」

人類協(xié)作者能很自然地區(qū)分情境 1 和情境 2。但 LLM 并不知道你問的是 1 還是 2,而隨著時(shí)間推移、基準(zhǔn)測(cè)試的不斷「極限化」,它會(huì)越來越傾向于假設(shè)你問的是情境 2。

這指出了大模型過度思考,復(fù)雜化任務(wù)的可能原因,大模型的發(fā)展不能完全以基準(zhǔn)測(cè)試分?jǐn)?shù)作為追求。

關(guān)于大模型的「過度思考」,有相關(guān)經(jīng)歷和想法歡迎在評(píng)論區(qū)分享。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
清華大學(xué)社會(huì)科學(xué)學(xué)院政治學(xué)系系主任楊雪冬:“為何中國方案最能落地”的兩個(gè)原因

清華大學(xué)社會(huì)科學(xué)學(xué)院政治學(xué)系系主任楊雪冬:“為何中國方案最能落地”的兩個(gè)原因

環(huán)球網(wǎng)資訊
2025-12-20 22:15:13
今年日本外國游客已突破3900萬人,但11月中國大陸游客驟減......

今年日本外國游客已突破3900萬人,但11月中國大陸游客驟減......

日本窗
2025-12-18 17:44:04
馬琳落選副總教練真相曝光!王皓上位竟因這關(guān)鍵優(yōu)勢(shì)

馬琳落選副總教練真相曝光!王皓上位竟因這關(guān)鍵優(yōu)勢(shì)

帶你逛體壇
2025-12-20 17:37:12
韓媒:韓國全球影響力超過法國位列世界第七

韓媒:韓國全球影響力超過法國位列世界第七

隨波蕩漾的漂流瓶
2025-12-21 17:10:10
胡明軒缺陣廣東迎來最大分差贏球,徐杰正負(fù)值高居全隊(duì)第一

胡明軒缺陣廣東迎來最大分差贏球,徐杰正負(fù)值高居全隊(duì)第一

姜大叔侃球
2025-12-21 21:51:05
這一對(duì)伊斯蘭極端主義的定義發(fā)人深思

這一對(duì)伊斯蘭極端主義的定義發(fā)人深思

寄居在世
2025-12-20 23:04:36
保姆帶她孫女住進(jìn)我家,我準(zhǔn)備吃飯時(shí),她竟指著我的鼻子大罵

保姆帶她孫女住進(jìn)我家,我準(zhǔn)備吃飯時(shí),她竟指著我的鼻子大罵

小秋情感說
2025-12-21 14:41:46
寬帶維權(quán)引罵戰(zhàn),羅永浩大戰(zhàn)項(xiàng)立剛!羅:懷疑這人是智障 項(xiàng):他除了直播啥也做不成!

寬帶維權(quán)引罵戰(zhàn),羅永浩大戰(zhàn)項(xiàng)立剛!羅:懷疑這人是智障 項(xiàng):他除了直播啥也做不成!

EETOP半導(dǎo)體社區(qū)
2025-12-21 11:09:00
新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
外媒:柬方感謝中國調(diào)停柬泰沖突

外媒:柬方感謝中國調(diào)停柬泰沖突

參考消息
2025-12-21 21:27:18
澳門回歸前,富商馬萬祺前來提醒:請(qǐng)向中央反映,澳門必須駐軍

澳門回歸前,富商馬萬祺前來提醒:請(qǐng)向中央反映,澳門必須駐軍

壹知眠羊
2025-12-19 07:17:58
穆里尼奧強(qiáng)勢(shì)復(fù)蘇,本菲卡豪取8場不敗重燃爭冠希望

穆里尼奧強(qiáng)勢(shì)復(fù)蘇,本菲卡豪取8場不敗重燃爭冠希望

星耀國際足壇
2025-12-21 19:35:23
科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

科學(xué)家最終確定:仙女座正在撞向銀河系,速度高達(dá)每秒300公里

觀察宇宙
2025-12-19 21:59:03
范戴克談西蒙斯紅牌:我認(rèn)為他不是故意的,但這確實(shí)傷到了我

范戴克談西蒙斯紅牌:我認(rèn)為他不是故意的,但這確實(shí)傷到了我

懂球帝
2025-12-21 21:45:11
成毅,你真的很“爭氣”

成毅,你真的很“爭氣”

溫柔娛公子
2025-12-21 18:40:07
張?zhí)m去汪小菲家過冬至!提前一晚做醉蟹、包餃子,給馬筱梅做牛排

張?zhí)m去汪小菲家過冬至!提前一晚做醉蟹、包餃子,給馬筱梅做牛排

笑一個(gè)吧
2025-12-21 18:38:37
著名演員新片與《阿凡達(dá)3》對(duì)打,票房零元,12月最慘電影誕生了

著名演員新片與《阿凡達(dá)3》對(duì)打,票房零元,12月最慘電影誕生了

影視高原說
2025-12-20 10:41:19
演員王東近況曝光!一家5口擠小房子21歲大兒子有病生活不能自理

演員王東近況曝光!一家5口擠小房子21歲大兒子有病生活不能自理

曹幺妹的小廚房
2025-12-20 14:38:20
工齡超過30年的恭喜了!2026年養(yǎng)老金有望調(diào)整,不分企退事退

工齡超過30年的恭喜了!2026年養(yǎng)老金有望調(diào)整,不分企退事退

貓叔東山再起
2025-12-21 09:05:06
“彈劾賴清德”網(wǎng)絡(luò)連署結(jié)果驚人,藍(lán)白有重要決定,鄭麗文被打臉

“彈劾賴清德”網(wǎng)絡(luò)連署結(jié)果驚人,藍(lán)白有重要決定,鄭麗文被打臉

聞識(shí)
2025-12-21 13:36:51
2025-12-21 22:39:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

頭條要聞

美國外交系統(tǒng)現(xiàn)重大調(diào)整 約有24名駐外大使被要求離任

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

數(shù)碼
家居
藝術(shù)
手機(jī)
游戲

數(shù)碼要聞

Intel顯卡沖擊高端:竟然要直接上32GB顯存!

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

俄羅斯畫家尼古拉·波格丹諾夫·貝爾斯基人物繪畫作品

手機(jī)要聞

曝折疊屏iPhone嘗試 UFG 玻璃,明年九月發(fā)

冠以戰(zhàn)神之名的坦克,能否制霸戰(zhàn)場?坦克世界2.1.1版本ARES將至

無障礙瀏覽 進(jìn)入關(guān)懷版