網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

離職阿里后林俊旸首發(fā)長文:告別純推理,AI轉(zhuǎn)入"為行動而思考"范式

2026-03-27 07:08:41　來源: AI先鋒官

北京舉報

分享至

剛剛，林俊旸在 X 上更新了一篇文章：《從“推理式”思考到“智能體式”思考》，講述 thinking范式的變化。

他認為，下一步將是為行動而思考，即模型需在與環(huán)境交互中持續(xù)更新計劃、調(diào)用工具、處理反饋。

訓練重心由此也從模型，轉(zhuǎn)向“模型+環(huán)境”的智能體系統(tǒng)。

競爭優(yōu)勢則將從算法，轉(zhuǎn)向來自環(huán)境設(shè)計，及訓練-服務(wù)解耦與 harness 工程化。

以下為全文：

過去兩年徹底重塑了我們評估模型的方式，以及對模型的期待。

OpenAI 的 o1 證明了，“思考”可以成為一項一等公民能力——一項專門訓練并向用戶開放的能力。

DeepSeek-R1 則證明，推理式后訓練可以在原實驗室之外被復(fù)現(xiàn)和規(guī)?；?。

OpenAI 將 o1 描述為一個通過強化學習訓練、“先思考再回答”的模型；DeepSeek 則將 R1 定位為一款能與 o1 抗衡的開源推理模型。

這一階段至關(guān)重要。

但 2025 年上半年的核心議題幾乎都圍繞推理式思考展開：如何讓模型在推理時投入更多計算、如何用更強的獎勵信號訓練它們、如何暴露或控制額外的推理算力消耗。

現(xiàn)在的問題是：下一步是什么？我認為答案是智能體式思考（agentic thinking）：為行動而思考，在與環(huán)境交互的過程中思考，并根據(jù)來自現(xiàn)實世界的反饋持續(xù)更新計劃。

1. o1 與 R1 的崛起真正教會了我們什么

第一代推理模型讓我們明白：若想在語言模型中規(guī)?；瘡娀瘜W習，就需要確定性、穩(wěn)定且可擴展的反饋信號。

數(shù)學、代碼、邏輯及其他可驗證領(lǐng)域之所以成為核心，是因為這些場景下的獎勵信號遠強于通用偏好監(jiān)督——它們讓強化學習優(yōu)化“正確性”，而非“看似合理”。

基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓練為在更長軌跡中推理，強化學習就不再是監(jiān)督微調(diào)的輕量附加項，而成為一個系統(tǒng)級問題：你需要大規(guī)模軌跡采樣、高吞吐量驗證、穩(wěn)定的策略更新、高效的采樣機制。

推理模型的崛起，既是建模層面的突破，也是基礎(chǔ)設(shè)施層面的突破。

OpenAI 將 o1 描述為用強化學習訓練的推理路線，DeepSeek R1 隨后也印證了這一方向，展示了基于推理的強化學習需要多少專門的算法與基建投入。

第一個重大轉(zhuǎn)變：從規(guī)?；A(yù)訓練，轉(zhuǎn)向為推理而規(guī)模化后訓練。

2. 真正的問題從來不是“簡單合并思考與指令模式”

2025 年初，通義千問團隊的許多人都懷揣著一個雄心勃勃的構(gòu)想：理想系統(tǒng)應(yīng)能統(tǒng)一思考與指令模式，支持可調(diào)節(jié)的推理算力消耗——類似低/中/高推理檔位的設(shè)計。

更理想的是，它能從提示詞和上下文自動推斷合適的推理量，讓模型自主決定何時直接回答、何時需要更長思考、何時為真正困難的問題投入大量計算。

從概念上看，這是正確方向。

通義千問 3 是最清晰的公開嘗試之一：它引入了“混合思考模式”，在一個模型家族中同時支持思考與非思考行為，強調(diào)可控的思考預(yù)算，并描述了一個四階段后訓練 pipeline，明確包含在長思維鏈冷啟動與推理強化學習之后的“思考模式融合”。

但“合并”說起來容易，做起來卻很難。

核心難點在于數(shù)據(jù)。當人們談?wù)摵喜⑺伎寂c指令模式時，往往首先想到模型層面的兼容性：一個 checkpoint 能否同時支持兩種模式、一個對話模板能否在兩者間切換、一個服務(wù)棧能否暴露正確的控制開關(guān)。

更深層的問題是，兩種模式的數(shù)據(jù)分布與行為目標本質(zhì)不同。

我們在平衡模型合并與提升后訓練數(shù)據(jù)的質(zhì)量、多樣性時，并未做到盡善盡美。

在這一修正過程中，我們也密切關(guān)注了用戶實際使用思考與指令模式的方式：

? 優(yōu)秀的指令模型通常因直接、簡潔、格式合規(guī)、低延遲而受青睞，適用于重復(fù)、高吞吐量的企業(yè)任務(wù)，如改寫、標注、模板化客服、結(jié)構(gòu)化提取、運營 QA 等。

? 優(yōu)秀的思考模型則因在困難問題上投入更多 token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠內(nèi)部計算以顯著提升最終正確性而受獎勵。

這兩種行為模式彼此拉扯。

若合并后的數(shù)據(jù)未被精心篩選，結(jié)果通常是兩頭平庸：“思考”行為變得嘈雜、冗余或不夠果斷，而“指令”行為則變得不夠清晰、不夠可靠，且成本高于商業(yè)用戶的實際需求。

在實踐中，分離模式依然更具吸引力。

2025 年下半年，在通義千問 3 最初的混合框架之后，2507 系列發(fā)布了獨立的指令版與思考版更新，包括 30B 和 235B 兩種規(guī)格。

在商業(yè)部署中，大量客戶仍需要高吞吐量、低成本、高度可控的指令行為來處理批量任務(wù)——對這些場景而言，合并模式并無明顯優(yōu)勢。

分離路線讓團隊能更清晰地聚焦解決每種模式的數(shù)據(jù)與訓練問題。

其他實驗室則選擇了相反路徑。

Anthropic 公開倡導一體化模型理念：Claude 3.7 Sonnet 作為混合推理模型推出，用戶可選擇普通響應(yīng)或擴展思考，API 用戶可設(shè)置思考預(yù)算。Anthropic 明確表示，他們認為推理應(yīng)是一項集成能力，而非獨立模型。

GLM-4.5 也公開將自身定位為同時支持思考與非思考模式的混合推理模型，統(tǒng)一了推理、代碼與智能體能力；DeepSeek 隨后也在 V3.1 的“思考/非思考”混合推理中走向了類似方向。

關(guān)鍵問題在于合并是否自然。如果思考與指令只是被塞進同一個 checkpoint，卻仍像兩個生硬縫合的人格，產(chǎn)品體驗依然會很不自然。

真正成功的合并需要平滑的推理算力消耗光譜：模型應(yīng)能表達多級別的思考力度，并理想地自適應(yīng)選擇。

GPT 風格的算力控制就指向這一目標：基于計算量的策略，而非二元開關(guān)。

3. 為何 Anthropic 的方向是一次有益的修正

Anthropic 對 Claude 3.7 與 Claude 4 的公開表述十分克制：他們強調(diào)集成推理、用戶可控的思考預(yù)算、真實世界任務(wù)、代碼質(zhì)量，以及后來在擴展思考中使用工具的能力。

Claude 3.7 被定位為支持可控預(yù)算的混合推理模型；Claude 4 進一步擴展，允許推理與工具使用交錯進行，同時 Anthropic 強調(diào)編碼、長時任務(wù)與智能體工作流是核心目標。

生成更長的推理軌跡，并不會自動讓模型變得更聰明。在很多情況下，過度可見的推理恰恰暴露了資源分配的低效。

如果模型試圖用同樣冗長的方式思考一切，可能是在優(yōu)先級排序、信息壓縮或行動執(zhí)行上存在缺陷。Anthropic 的發(fā)展軌跡指向了一種更自律的觀點：思考應(yīng)服務(wù)于目標任務(wù)。

若目標是編碼，思考應(yīng)幫助導航代碼庫、規(guī)劃、拆解、錯誤恢復(fù)與工具編排；若目標是智能體工作流，思考應(yīng)提升長時執(zhí)行質(zhì)量，而非產(chǎn)出華麗的中間文本。

這種對目標導向?qū)嵱眯缘膹娬{(diào)，指向了一個更宏大的趨勢：我們正從訓練模型的時代邁向訓練智能體的時代。

我們在通義千問 3 的博客中明確寫道：“我們正從聚焦訓練模型的時代，轉(zhuǎn)向以訓練智能體為中心的時代”，并將未來強化學習的進步與長時推理的環(huán)境反饋綁定。

智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略、并在長時尺度上持續(xù)推進的系統(tǒng)——它的核心定義是與世界的閉環(huán)交互。

4. “智能體式思考”真正意味著什么

智能體式思考是一個截然不同的優(yōu)化目標。

推理式思考通常以最終答案前的內(nèi)部思考質(zhì)量為評判標準：模型能否證明定理、寫出證明、生成正確代碼，或通過基準測試。而智能體式思考的核心是：模型能否在與環(huán)境交互的過程中持續(xù)取得進展。

核心問題從“模型能否思考足夠久？”轉(zhuǎn)變?yōu)椤澳Ｐ湍芊褚灾斡行袆拥姆绞剿伎?？”?/p>

智能體式思考必須處理純推理模型大多可以回避的幾個問題：

? 決定何時停止思考并采取行動

? 選擇調(diào)用哪個工具、以何種順序調(diào)用

? 整合來自環(huán)境的噪聲或部分觀測信息

? 在失敗后修正計劃

? 在多輪對話與多次工具調(diào)用中保持連貫性

智能體式思考，本質(zhì)是通過行動進行推理的模型。

5. 為何智能體強化學習基礎(chǔ)設(shè)施更具挑戰(zhàn)

一旦目標從解決基準問題轉(zhuǎn)向解決交互任務(wù)，強化學習技術(shù)棧就會發(fā)生變化。傳統(tǒng)推理強化學習所用的基礎(chǔ)設(shè)施已不再足夠。

在推理強化學習中，你通?？梢詫④壽E采樣視為相對自包含的過程，評估器也較為清晰。而在智能體強化學習中，策略被嵌入到一個更大的“ harness”中：工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 層、記憶系統(tǒng)與編排框架。

環(huán)境不再是靜態(tài)驗證器，而是訓練系統(tǒng)的一部分。

這催生了新的系統(tǒng)要求：訓練與推理必須更清晰地解耦。若沒有這種解耦，軌跡采樣吞吐量會急劇下降。

試想一個編碼智能體：它必須在實時測試 harness 中執(zhí)行生成的代碼——推理端會因等待執(zhí)行反饋而停滯，訓練端則因缺少完成的軌跡而“饑餓”，整個 pipeline 的 GPU 利用率遠低于傳統(tǒng)推理強化學習的預(yù)期。

工具延遲、部分可觀測性與有狀態(tài)環(huán)境會進一步放大這些低效問題，結(jié)果是實驗進展緩慢，在達到目標能力水平前就變得痛苦不堪。

環(huán)境本身也成為了一等公民的研究對象。

在監(jiān)督微調(diào)時代，我們癡迷于數(shù)據(jù)多樣性；在智能體時代，我們應(yīng)癡迷于環(huán)境質(zhì)量：穩(wěn)定性、真實性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富性、抗利用性與軌跡生成可擴展性。

環(huán)境構(gòu)建已開始成為一個真正的創(chuàng)業(yè)賽道，而非副業(yè)項目。如果智能體要在類生產(chǎn)環(huán)境中運行，環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更可用的思考

我預(yù)計，智能體式思考將成為主導的思考形式。

它最終可能會取代大部分舊式靜態(tài)獨白式推理思考——那些過長、孤立的內(nèi)部軌跡，試圖通過輸出越來越多的文本來彌補交互的缺失。

即便在極難的數(shù)學或編碼任務(wù)中，真正先進的系統(tǒng)也應(yīng)有權(quán)進行搜索、模擬、執(zhí)行、檢查、驗證與修正。目標是穩(wěn)健且高效地解決問題。

訓練這類系統(tǒng)的最大挑戰(zhàn)是獎勵作弊（reward hacking）。一旦模型獲得有意義的工具訪問權(quán)限，獎勵作弊的風險會大幅升高：

? 具備搜索能力的模型可能在強化學習中學會直接查找答案；

? 編碼智能體可能利用倉庫中的未來信息、濫用日志，或發(fā)現(xiàn)使任務(wù)失效的捷徑；

? 存在信息泄露的環(huán)境可能讓策略看起來“超人類”，實則訓練它作弊。

這正是智能體時代比推理時代更微妙的地方：更好的工具讓模型更有用，但也擴大了虛假優(yōu)化的攻擊面。

我們可以預(yù)期，下一個嚴肅的研究瓶頸將來自環(huán)境設(shè)計、評估器魯棒性、反作弊協(xié)議，以及策略與世界之間更具原則性的接口。

盡管如此，方向是明確的：工具賦能的思考遠比孤立思考更有用，也更有機會提升真實生產(chǎn)力。

智能體式思考也意味著harness 工程化。核心智能將越來越多地來自多智能體的組織方式——一個負責規(guī)劃與任務(wù)路由的編排器、像領(lǐng)域?qū)＜乙粯有袆拥膶I(yè)智能體，以及執(zhí)行更窄任務(wù)的子智能體（幫助控制上下文、避免污染、保持不同推理層級的分離）。

未來的轉(zhuǎn)變是，從訓練模型到訓練智能體，再從訓練智能體到訓練系統(tǒng)。

結(jié)論

推理浪潮的第一階段確立了一個重要事實：當反饋信號可靠、基礎(chǔ)設(shè)施能支撐時，語言模型之上的強化學習可以產(chǎn)生質(zhì)的更強認知。

更深層的轉(zhuǎn)變是從推理式思考走向智能體式思考：從“思考更久”轉(zhuǎn)向“為行動而思考”。

訓練的核心對象發(fā)生了變化——它不再是單純的模型，而是模型+環(huán)境系統(tǒng)。更具體地說，是智能體及其周圍的 harness。

這改變了最重要的研究對象：模型架構(gòu)與訓練數(shù)據(jù)固然重要，但環(huán)境設(shè)計、軌跡采樣基礎(chǔ)設(shè)施、評估器魯棒性，以及多智能體協(xié)作的接口也同樣關(guān)鍵。

它也改變了“好的思考”的定義：支撐現(xiàn)實約束下有效行動的最有用軌跡，而非最長或最可見的軌跡。

這同樣改變了競爭優(yōu)勢的來源：

? 在推理時代，優(yōu)勢來自更好的強化學習算法、更強的獎勵信號與更可擴展的訓練 pipeline；

? 在智能體時代，優(yōu)勢將來自更好的環(huán)境、更緊密的訓練-服務(wù)集成、更強的 harness 工程能力，以及閉合模型決策與其后果之間循環(huán)的能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

阿里前員工做了個“破壁”版龍蝦，這能讓大模型記住你嗎｜AI Founder 請回答

鈦媒體APP 2026-03-27 15:54:13
1 跟貼 1
2026年，大模型訓練的下半場屬于「強化學習云」

機器之心Pro 2026-01-12 14:03:47
0 跟貼 0

AGILE：自監(jiān)督+交互式強化學習助力VLMs感知與推理全面提升

機器之心Pro 2025-10-20 18:30:03
0 跟貼 0

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
2 跟貼 2
清華聯(lián)手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0

國產(chǎn)玩家亮劍世界模型！把全模態(tài)卷到頂后，天工AI不藏了

量子位 2026-03-27 22:05:37
1 跟貼 1

732M模型超越7B！機器人操控新范式：從視頻中「悟」物理

新智元 2026-03-27 21:37:19
0 跟貼 0
從“養(yǎng)蝦”狂歡到落地“最后一公里”：騰訊智能體走向深水區(qū)

每日經(jīng)濟新聞 2026-03-28 16:13:14
0 跟貼 0

SpatialActor通過解耦語義與幾何，為具身智能注入強魯棒空間基因

機器之心Pro 2025-12-05 13:50:29
0 跟貼 0
趨境ATaaS平臺發(fā)布，打造日均萬億產(chǎn)能的“Token工廠”

量子位 2026-03-28 21:56:10
0 跟貼 0
MiniMax來承包你的桌面了-4

機器之心Pro 2026-01-20 20:19:42
0 跟貼 0
AI流量增速超人類8倍！流量“倒掛”前夜：AI智能體正掏空互聯(lián)網(wǎng)的舊金礦

鈦媒體APP 2026-03-28 13:22:11
0 跟貼 0
當Anthropic的安全人設(shè)崩塌：一場被泄露戳穿的生存游戲

虎嗅APP 2026-03-29 01:18:14
0 跟貼 0
霍爾木茲海峽"鎖死"全球能源五角大樓醞釀"致命一擊"

上游新聞 2026-03-27 22:22:04
9734 跟貼 9734
明明是兩個不同的齒輪，轉(zhuǎn)起來卻能絲滑通過，這算法真絕了！

搞笑大蘑菇 2026-03-27 13:35:59
176 跟貼 176
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
9 跟貼 9
呦呵！好性感的戰(zhàn)術(shù)！強度還沒上來尺度先上來了！

言之尤里 2026-03-25 01:31:36
1 跟貼 1
阿里千問正式接入紅旗汽車智能座艙：一句話就能指揮干很多事

快科技 2026-03-26 14:23:09
0 跟貼 0
阿里發(fā)布Accio Work，30分鐘就能“手搓”一家店鋪

封面新聞 2026-03-27 08:32:54
0 跟貼 0
“龍蝦”出現(xiàn)后，大模型時代的共識被推翻了

虎嗅APP 2026-03-28 02:41:40
746 跟貼 746
黃仁勛道破中國創(chuàng)新秘訣！竟是“人情社會”在加速創(chuàng)新！

網(wǎng)易科技態(tài)度見聞 2026-03-24 20:55:00
0 跟貼 0
算法堡壘與數(shù)字騎士：從美以伊沖突看“軍事革命”

第一財經(jīng)資訊 2026-03-27 17:51:07
0 跟貼 0
專家：慎用純節(jié)約勞動力AI！涉及勞動者的公平，不能靠市場

網(wǎng)易科技態(tài)度見聞 2026-03-26 14:41:15
0 跟貼 0
這個揮金如土的闊太，才是馬云真正的靠山

雷科技 2025-11-12 16:35:27
0 跟貼 0
馬云的奇幻漂流：斷臂2023（中）

飯統(tǒng)戴老板 2025-10-17 10:36:14
0 跟貼 0
VinciCoder：多模態(tài)統(tǒng)一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
印度又官宣自研五代機！17年就憋出個模型，能趕超中美俄嗎？

浩然簡史 2026-03-28 16:39:42
0 跟貼 0
上班開糞車下班開奔馳的小伙今日大婚，當事人：吸糞車婚車隊，全球第一個

極目新聞 2026-03-28 08:51:05
6483 跟貼 6483
閆妮尺度最大的一部電影，這段看了不下十遍太過癮了

簾卷西風醉 2026-03-28 06:05:11
0 跟貼 0
深度｜華為 AI，迎來大變

新智元 2026-03-28 17:07:57
1 跟貼 1
排超總決賽：“全華班”江蘇女排贏下首回合，上海女排外援為何不靈了？

上觀新聞 2026-03-29 04:46:09
3 跟貼 3
國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人督辦“3?15”晚會曝光問題整改

新京報 2026-03-28 19:17:17
68 跟貼 68
廣州：下周一起，公立醫(yī)院掛號費調(diào)整

南方都市報 2026-03-28 11:52:00
1501 跟貼 1501
27噸凍牛頭牛蹄跨省運輸后部分發(fā)霉變質(zhì) 多部門已介入

紅星新聞 2026-03-28 19:53:39
298 跟貼 298
老板決策讓人摸不著頭腦，如此操作堪比干燒，員工直呼看不懂

嘻哈搞笑局 2026-03-25 00:00:00
0 跟貼 0
合肥野生動物園泉山新址“泡湯”？社區(qū)：去年7月已暫停，暫無新消息

極目新聞 2026-03-28 17:17:59
73 跟貼 73
供應(yīng)鏈管理數(shù)智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0
“龍蝦”等新型AI智能體出現(xiàn) 哪些職業(yè)或軟技能是必須具備的？

鳳凰衛(wèi)視 2026-03-25 15:59:19
0 跟貼 0
電視劇照進現(xiàn)實生活，你面臨艱難抉擇時刻，果斷選擇改寫人生軌跡

果然探影 2026-03-25 09:26:20
1 跟貼 1
保定一小店售賣咸菜絲燒餅意外爆火，排隊人數(shù)太多店鋪宣布暫停營業(yè)，店主：流量太大了，我們承接不住，也擔心影響燒餅品質(zhì)

極目新聞 2026-03-26 22:43:02
1747 跟貼 1747

“魯比奧顯然很惱火”！美媒爆料：G7外長會上，美國務(wù)卿和歐盟“外長”激烈交鋒

AI先鋒官

AIGC大模型及應(yīng)用精選與評測

465文章數(shù) 69關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

旅游

健康

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

離職阿里后林俊旸首發(fā)長文:告別純推理,AI轉(zhuǎn)入"為行動而思考"范式

華為盤古大模型負責人王云鶴確認離職

上海爺叔在家"打傘做飯" 自嘲掏空三代400萬買了個啥

上海爺叔在家"打傘做飯" 自嘲掏空三代400萬買了個啥

“我是全家最差勁的運動員”

陳牧馳陳冰官宣得子 曬一家三口握拳照

臥底"科技與狠活"培訓:化工調(diào)味劑泛濫

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態(tài)度原創(chuàng)

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

泰安市岱岳區(qū)：賞梨花 看村晚 萬畝梨園迎客來

干細胞抗衰4大誤區(qū),90%的人都中招

美軍中東基地損失最新披露

陳牧馳陳冰官宣得子曬一家三口握拳照

置換補貼價4.28萬起第五代宏光MINIEV正式上市

和田曦薇一樣嫩嘟嘟，這3個變美技巧你一定不能錯過！

泰安市岱岳區(qū)：賞梨花看村晚萬畝梨園迎客來