国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

推翻推理鏈!林俊旸復(fù)盤Qwen,大模型走錯關(guān)鍵一步

0
分享至



最近,AI圈最火的話題,莫過于“HarnessEngineer(駕馭工程)”和“智能體思維”。而前阿里千問技術(shù)負(fù)責(zé)人林俊旸,在離職后首次公開發(fā)聲,就用一篇長文《從“推理”思維到“智能體思維”》,給這場討論定了調(diào)——大模型的未來,不是比誰的推理鏈更長,而是要學(xué)會“為行動而思考”,在與世界的互動中解決問題。

這篇文章,不僅是他對千問研發(fā)歷程的復(fù)盤,更是對整個AI行業(yè)方向的一次重新校準(zhǔn)。當(dāng)OpenAI的o1、DeepSeek-R1把“推理模型時代”推向高潮時,林俊旸卻提出了一個更根本的問題:大模型最好的思考方式,到底應(yīng)該是什么樣子?答案,藏在從“推理思維”到“智能體思維”的范式轉(zhuǎn)移里。

一、Qwen3的試錯:混合思維的“兩頭受損”

2025年初,千問團(tuán)隊做了一次大膽嘗試——把“思考模式(thinking)”和“指令模式(Instruct)”合并到同一個模型里,也就是后來的Qwen3。林俊旸的理想很美好:一個先進(jìn)的模型,不該只有“會不會思考”的開關(guān),而要能根據(jù)問題難度,自動決定該投入多少算力——簡單問題直接答,復(fù)雜問題多想想,難題就全力推演。

但現(xiàn)實給了他們一記重?fù)?。合并后的模型,思考變得啰嗦、猶豫,指令模式也不再干脆、穩(wěn)定、低成本。問題不在模型架構(gòu),而在數(shù)據(jù)本身:兩種模式的數(shù)據(jù)分布、行為目標(biāo)完全不同,強行融合只會“兩頭受損”,而非取長補短。

這次失敗,讓林俊旸徹底清醒:單純延長推理鏈、堆算力,不是AI的終極答案。當(dāng)行業(yè)都在琢磨“怎么讓模型多想一會兒”時,他開始追問——AI的思考,到底該服務(wù)于什么?

二、推理思維vs智能體思維:兩種完全不同的“大腦”

要理解這場變革,得先分清兩種思維的本質(zhì)區(qū)別。

1.推理思維:悶頭推演的“解題機器”

以O(shè)penAIo1、DeepSeek-R1為代表,核心是靜態(tài)、內(nèi)部、獨白式的長推理鏈。

目標(biāo):追求“思考的質(zhì)量和正確性”,比如解數(shù)學(xué)題、寫代碼、通過基準(zhǔn)測試。

方式:模型在封閉環(huán)境里“悶頭想”,靠延長推理鏈、增加計算量,輸出越來越長的“思考過程”文本。

局限:只能“回答問題”,不能“解決問題”——它知道答案,但不會動手做;能生成方案,但無法落地執(zhí)行。

2.智能體思維:邊做邊想的“行動者”

這是林俊旸提出的新方向,核心是為行動而思考,在環(huán)境中思考,通過反饋閉環(huán)修正。

目標(biāo):不是“想得夠久”,而是“用思考支撐有效行動”,在與世界的互動中持續(xù)推進(jìn)任務(wù)。

方式:模型不再孤立推演,而是邊想邊做——調(diào)用工具、獲取反饋、失敗后改計劃、多輪交互中保持思路一致。

能力:能處理純推理模型解決不了的問題——何時停止思考動手、選什么工具、整合嘈雜的環(huán)境信息、修訂計劃、維持多輪交互一致性。

Anthropic的Claude系列,給了林俊旸關(guān)鍵啟發(fā)。Claude3.7是“可控預(yù)算的混合推理模型”,Claude4更讓推理和工具調(diào)用交錯進(jìn)行——思考不再是為了展示,而是服務(wù)于編碼、工具調(diào)用、長時任務(wù)和智能體工作流。

三、HarnessEngineering:智能體的“腳手架”與“操作系統(tǒng)”

智能體思維要落地,離不開一個核心概念——HarnessEngineering(駕馭工程)。林俊旸把它比作AI的“腳手架”,也是模型的“操作系統(tǒng)”。

1.什么是Harness?

如果把大模型比作“引擎”,Harness就是圍繞引擎造的“車”——沒有它,再強的引擎也跑不起來。

本質(zhì):為AI搭建環(huán)境、工具、約束、反饋循環(huán)、多智能體協(xié)同機制的完整系統(tǒng)。

作用:把“裸模型”變成能在現(xiàn)實任務(wù)中持續(xù)行動、修正、完成工作的Agent(智能體)。

公式:Agent=Model+Harness——模型是大腦,Harness是手腳、眼睛、控制系統(tǒng)。

2.Harness的核心價值:解決“執(zhí)行難題”

很多時候,模型執(zhí)行任務(wù)失敗,不是不夠聰明,而是外部系統(tǒng)太亂——它會迷失方向、重復(fù)失敗、忘記目標(biāo)。Harness就是來解決這些問題的:

工具管理:協(xié)調(diào)模型調(diào)用API、數(shù)據(jù)庫、代碼執(zhí)行器等,讓“思考”落地為“行動”。

反饋閉環(huán):把行動結(jié)果返回給模型,讓它知道“做對了沒”,并修正策略。

約束與安全:設(shè)定規(guī)則、沙箱環(huán)境,防止模型“作弊”(比如直接搜答案、濫用工具)。

多智能體協(xié)同:協(xié)調(diào)規(guī)劃器、領(lǐng)域?qū)<摇⒆又悄荏w分工,讓復(fù)雜任務(wù)高效推進(jìn)。

四、從訓(xùn)練模型到訓(xùn)練系統(tǒng):AI競爭的新戰(zhàn)場

林俊旸的核心判斷,是AI行業(yè)正在從“訓(xùn)練模型”的時代,走向“訓(xùn)練智能體”,再到“訓(xùn)練系統(tǒng)”的時代。這意味著,競爭優(yōu)勢的來源徹底變了。

1.推理時代的優(yōu)勢:算法、算力、數(shù)據(jù)

過去,誰的強化學(xué)習(xí)算法更強、反饋信號更穩(wěn)、訓(xùn)練流水線更可擴展,誰就領(lǐng)先。大家比拼的是模型本身——參數(shù)規(guī)模、推理能力、數(shù)據(jù)質(zhì)量。

2.智能體時代的優(yōu)勢:環(huán)境、Harness、閉環(huán)能力

未來,核心競爭力轉(zhuǎn)向系統(tǒng)工程能力:

環(huán)境設(shè)計:環(huán)境的穩(wěn)定性、真實性、覆蓋面、反饋豐富度,成了“一等研究對象”——就像SFT時代癡迷數(shù)據(jù)多樣性,現(xiàn)在要癡迷環(huán)境質(zhì)量。

訓(xùn)推協(xié)同:訓(xùn)練和推理緊密結(jié)合,讓模型在接近生產(chǎn)的環(huán)境中學(xué)習(xí),解決“推理側(cè)等待反饋、訓(xùn)練側(cè)斷糧”的低效問題。

反作弊與魯棒性:防范“獎勵作弊”(比如模型搜答案、走捷徑),提升評估器、環(huán)境的抗利用能力。

多智能體接口:設(shè)計高效的協(xié)同機制,讓不同智能體各司其職,控制上下文、避免污染。

五、未來已來:AI從“回答者”變成“辦事者”

智能體思維的終極意義,是讓AI從“被動回答問題的百科全書”,變成“主動解決問題的數(shù)字行動者”。

舉個例子:你要安排一場商務(wù)晚宴。

傳統(tǒng)大模型:給你生成菜單、推薦餐廳、寫邀請函,但聯(lián)系餐廳、預(yù)訂、發(fā)邀請、確認(rèn),全要你自己做。

AI智能體:你只說“下周三8人晚宴,人均500元,CEO海鮮過敏”,它自動查日歷、篩餐廳、預(yù)訂、發(fā)邀請、提醒你——你只需要最終確認(rèn)。

這就是智能體思維的價值:不是展示最長的思考鏈,而是在現(xiàn)實約束下,最穩(wěn)健、高效地解決問題。哪怕是最難的數(shù)學(xué)題、編碼任務(wù),先進(jìn)的系統(tǒng)也會去搜索、模擬、執(zhí)行、驗證,而不是悶頭寫長文本。

六、AI的下一場革命,是“落地”的革命

林俊旸的這篇文章,給狂熱的AI行業(yè)潑了一盆冷水,也指明了方向——大模型的未來,不在“推理鏈更長”,而在“行動能力更強”。

從推理思維到智能體思維,從訓(xùn)練模型到訓(xùn)練系統(tǒng),從比拼算法到比拼Harness工程能力,AI正在經(jīng)歷一場深刻的范式轉(zhuǎn)移。這場變革,不是技術(shù)細(xì)節(jié)的優(yōu)化,而是從“能思考”到“能做事”的本質(zhì)跨越。

未來,真正的AI強者,不再只是“會解題的學(xué)霸”,而是“能辦事的實干家”。而我們,也將迎來一個AI真正融入日常、解決實際問題的新時代——這,才是人工智能的終極價值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
通往佛山莫氏雞煲店的道路即將完工,預(yù)計下周可通行,老莫:我想縮小店面

通往佛山莫氏雞煲店的道路即將完工,預(yù)計下周可通行,老莫:我想縮小店面

極目新聞
2026-04-11 15:20:15
馬卡:洛塞爾索傷愈復(fù)出,為阿根廷隊世界杯席位做最后沖刺

馬卡:洛塞爾索傷愈復(fù)出,為阿根廷隊世界杯席位做最后沖刺

懂球帝
2026-04-11 19:12:41
3月轎車銷量榜完整版!22款車破萬輛,前10名竟有大反轉(zhuǎn)

3月轎車銷量榜完整版!22款車破萬輛,前10名竟有大反轉(zhuǎn)

購車前線
2026-04-10 19:13:07
中國空軍從俄烏沖突吸取經(jīng)驗:殲-20一定不能再打火箭彈了

中國空軍從俄烏沖突吸取經(jīng)驗:殲-20一定不能再打火箭彈了

隨夢而飛起
2026-04-11 09:44:18
補貼砍掉1萬4,五菱MINI EV銷量暴跌90%,微型電車黃金時代終結(jié)

補貼砍掉1萬4,五菱MINI EV銷量暴跌90%,微型電車黃金時代終結(jié)

小怪吃美食
2026-04-11 04:13:30
臺當(dāng)局撒謊!走進(jìn)人民大會堂前,鄭麗文團(tuán)中現(xiàn)“特殊人物”

臺當(dāng)局撒謊!走進(jìn)人民大會堂前,鄭麗文團(tuán)中現(xiàn)“特殊人物”

牛鍋巴小釩
2026-04-11 19:08:25
2.4萬億!30萬家庭!爛尾2年恒大仍沒完,狂徒許家印終于自尋死路

2.4萬億!30萬家庭!爛尾2年恒大仍沒完,狂徒許家印終于自尋死路

歷史偉人錄
2026-04-10 18:07:28
賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉(zhuǎn)國民黨20年頹勢

賴清德做夢也想不到,鄭麗文只用6天時間,或扭轉(zhuǎn)國民黨20年頹勢

肖茲探秘說
2026-04-10 18:09:23
松島輝空放狠話!面對日媒嚷嚷“下次換成金牌”!劍指世錦賽冠軍

松島輝空放狠話!面對日媒嚷嚷“下次換成金牌”!劍指世錦賽冠軍

眼界縱橫
2026-04-11 23:00:47
天助曼城:1-2大冷門,阿森納遭英超第13掀翻,4連勝終結(jié)

天助曼城:1-2大冷門,阿森納遭英超第13掀翻,4連勝終結(jié)

側(cè)身凌空斬
2026-04-11 21:24:39
格列茲曼含淚告別馬競:10年紅白生涯終章,35歲法國傳奇歐冠謝幕

格列茲曼含淚告別馬競:10年紅白生涯終章,35歲法國傳奇歐冠謝幕

里芃芃體育
2026-04-11 00:10:06
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

昊軒看世界
2026-03-24 19:56:42
詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

詐尸了!哈梅內(nèi)伊死而復(fù)生?特朗普大秀軍功,伊朗做出了一個舉動

榮亭小吏
2026-04-08 11:21:24
李亞鵬不忍了!出手替陳光標(biāo)出了口“惡氣”,原來張雪當(dāng)初沒說謊

李亞鵬不忍了!出手替陳光標(biāo)出了口“惡氣”,原來張雪當(dāng)初沒說謊

社會日日鮮
2026-04-11 09:40:17
她因長得漂亮,被日本兵拖進(jìn)炮樓,一晚上遭受50多個鬼子的折磨

她因長得漂亮,被日本兵拖進(jìn)炮樓,一晚上遭受50多個鬼子的折磨

凡人聊史
2026-04-11 03:06:57
重磅!4月9日國防部強硬發(fā)聲:中國軍隊必讓侵略者付出代價

重磅!4月9日國防部強硬發(fā)聲:中國軍隊必讓侵略者付出代價

Ck的蜜糖
2026-04-11 02:06:54
這是迄今為止,我見過最美的中年女性,成熟豐腴太完美

這是迄今為止,我見過最美的中年女性,成熟豐腴太完美

動物奇奇怪怪
2026-04-05 12:26:48
太逗!1米60的張雪站女主播身邊多次踮腳 網(wǎng)友:他的形象足夠高大

太逗!1米60的張雪站女主播身邊多次踮腳 網(wǎng)友:他的形象足夠高大

風(fēng)過鄉(xiāng)
2026-04-11 08:15:29
好拽!沒全票得獎會意外!文班你是真狠!

好拽!沒全票得獎會意外!文班你是真狠!

柚子說球
2026-04-11 18:25:20
原來我們都被他騙了?陳坤兒子的生母,其實早在14年前就公開了

原來我們都被他騙了?陳坤兒子的生母,其實早在14年前就公開了

凡知
2026-04-11 19:10:48
2026-04-11 23:48:49
魏家東 incentive-icons
魏家東
一個人的營銷商學(xué)院!
2628文章數(shù) 12233關(guān)注度
往期回顧 全部

科技要聞

半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

頭條要聞

霍爾木茲海峽突傳大消息 特朗普最新發(fā)聲

體育要聞

換帥之后,他們從降級區(qū)沖到升級區(qū)

娛樂要聞

鄭鈞回應(yīng)兒子走路:會監(jiān)督他挺直腰板

財經(jīng)要聞

從日本翻身看:這次誰能扛住高油價?

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

家居
游戲
親子
旅游
公開課

家居要聞

復(fù)古風(fēng)格 自然簡約

碾壓前作!《極限競速:地平線6》創(chuàng)系列新紀(jì)錄

親子要聞

測試一下兒子的安全意識

旅游要聞

[視頻]多元業(yè)態(tài)融合 打造文旅消費新熱點

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版