林俊旸離職后首度發(fā)聲：萬字復(fù)盤，大模型下一站「智能體式思考」

2026-03-27 10:10:47　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編輯部

本周四晚，前阿里千問大模型負(fù)責(zé)人林俊旸（Junyang Lin）在離職阿里千問后的首度公開發(fā)聲，立刻在 AI 科技圈引發(fā)了關(guān)注。

自三周前自宣離開后，林俊旸這次并沒有談?wù)搨€人的職業(yè)規(guī)劃或離職內(nèi)幕，而是發(fā)表了一篇題為《From "Reasoning" Thinking to "Agentic" Thinking》（從「推理式思考」到「智能體式思考」）的長文。

這篇文章深度復(fù)盤了過去兩年大模型行業(yè)的演進(jìn)，特別是千問團(tuán)隊在研發(fā) Qwen3 時走過的彎路，并前瞻性地指出了 AI 大模型未來的絕對主線。

以下是全文內(nèi)容：

過去兩年重塑了我們評估（大語言）模型的方式以及我們對模型的期望。OpenAI 的 o1 表明，「思考」可以成為一項核心能力，可以進(jìn)行訓(xùn)練并向用戶展示。DeepSeek-R1 證明了推理式的后訓(xùn)練可以在原始實驗室之外復(fù)現(xiàn)和擴(kuò)展。OpenAI 將 o1 描述為一個使用強(qiáng)化學(xué)習(xí)訓(xùn)練的模型，其特點是「先思考后回答」。DeepSeek 將 R1 定位為一個與 o1 競爭的開放式推理模型。

這一階段至關(guān)重要。2025 年上半年我們主要關(guān)注的是推理思維：如何讓模型花費更多時間進(jìn)行推理計算，如何用更強(qiáng)的獎勵來訓(xùn)練它們，以及如何展示或控制這些額外的推理工作。現(xiàn)在的問題是，接下來會發(fā)生什么？我認(rèn)為答案是智能體思維：在與環(huán)境交互的同時進(jìn)行思考以采取行動，并根據(jù)來自世界的反饋不斷更新計劃。

1. o1 和 R1 的崛起究竟教會了我們什么

第一波推理模型告訴我們，如果想要在語言模型中擴(kuò)展強(qiáng)化學(xué)習(xí)，我們需要確定性、穩(wěn)定性和可擴(kuò)展性的反饋信號。數(shù)學(xué)、代碼、邏輯和其他可驗證領(lǐng)域變得至關(guān)重要，因為在這些場景下，獎勵遠(yuǎn)比通用的偏好監(jiān)督更有力。它們使得強(qiáng)化學(xué)習(xí)能夠優(yōu)化正確性而非合理性。基礎(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練成能夠推理更長的軌跡，強(qiáng)化學(xué)習(xí)就不再是監(jiān)督式微調(diào)的輕量級附加組件，而變成了一個系統(tǒng)問題。我們需要大規(guī)模部署、高吞吐量驗證、穩(wěn)定的策略更新和高效的采樣。推理模型的出現(xiàn)既是一個基礎(chǔ)設(shè)施的故事，也是一個建模的故事。OpenAI 將 o1 描述為一條用強(qiáng)化學(xué)習(xí)訓(xùn)練的推理線，而 DeepSeek R1 后來通過展示基于推理的強(qiáng)化學(xué)習(xí)需要多少專門的算法和基礎(chǔ)設(shè)施工作，進(jìn)一步強(qiáng)化了這一方向。第一個重大轉(zhuǎn)變：從擴(kuò)展預(yù)訓(xùn)練規(guī)模到擴(kuò)展后訓(xùn)練規(guī)模以進(jìn)行推理。

2. 真正的問題絕非僅僅是「融合思考與指令」

2025 年初，Qwen 團(tuán)隊的許多成員心中都勾勒出了一幅宏大的愿景。我們理想中的系統(tǒng)，應(yīng)當(dāng)能夠?qū)ⅰ杆伎寄Ｊ健古c「指令模式」合二為一。它應(yīng)支持可調(diào)節(jié)的推理強(qiáng)度 —— 其理念類似于推理設(shè)置中的「低 / 中 / 高」檔位。更理想的是，系統(tǒng)能根據(jù)用戶提示詞（Prompt）及上下文語境自動推斷出恰當(dāng)?shù)耐评韽?qiáng)度：從而讓模型自行決定何時應(yīng)即刻作答、何時需稍作深思，以及何時應(yīng)投入海量算力去攻克那些真正棘手的難題。

從概念層面來看，這無疑是正確的方向。Qwen3 便是這一理念在公開領(lǐng)域最鮮明的一次嘗試。它引入了「混合思考模式」：在同一系列模型中同時支持「思考型」與「非思考型」兩種行為模式；它強(qiáng)調(diào)對「思考預(yù)算」的可控性；此外，它還詳述了一個四階段的后訓(xùn)練（Post-training）流程 —— 在該流程中，「思考模式融合」被明確安排在「長鏈?zhǔn)剿季S（Long-CoT）冷啟動」與「基于推理的強(qiáng)化學(xué)習(xí)（Reasoning RL）」之后執(zhí)行。

然而，「融合」二字說來容易，要真正將其完美落地卻難如登天。癥結(jié)所在，其實是「數(shù)據(jù)」。當(dāng)人們探討如何融合思考與指令模式時，腦海中往往首先浮現(xiàn)的是模型層面的兼容性問題：能否僅憑一個模型檢查點（Checkpoint）便同時支持這兩種模式？能否通過一套聊天模板在兩者之間自如切換？能否通過一套服務(wù)部署架構(gòu)（Serving Stack）提供恰當(dāng)?shù)哪Ｊ角袚Q開關(guān)？然而，問題的深層本質(zhì)在于：這兩種模式所依賴的數(shù)據(jù)分布及其所追求的行為目標(biāo)，在根本上是截然不同的。

在試圖兼顧「模型融合」與「提升后訓(xùn)練數(shù)據(jù)質(zhì)量及多樣性」這兩大目標(biāo)時，我們并未做到面面俱到。在這一迭代修正的過程中，我們始終密切關(guān)注著用戶在實際場景中究竟是如何使用「思考模式」與「指令模式」的。對于一款優(yōu)秀的「指令型」模型而言，其價值往往體現(xiàn)在：回答直截了當(dāng)、言簡意賅、嚴(yán)格遵循格式規(guī)范；且在處理諸如文本重寫、數(shù)據(jù)標(biāo)注、模板化輔助、結(jié)構(gòu)化信息提取以及操作性問答（Operational QA）等高頻、重復(fù)性的企業(yè)級任務(wù)時，能夠保持極低的時延。

反觀優(yōu)秀的「思考型」模型，其價值則體現(xiàn)在：愿意為解決疑難問題投入更多的 Token 資源；能夠維持連貫且富有邏輯的中間推理結(jié)構(gòu)；敢于探索多元化的解題路徑；并能預(yù)留充足的內(nèi)部計算資源，從而切實提升最終答案的準(zhǔn)確率。

這兩種行為模式之間存在著內(nèi)在的張力與沖突。如果用于融合訓(xùn)練的數(shù)據(jù)未經(jīng)精細(xì)化的篩選與編排，其結(jié)果往往是兩頭皆空、表現(xiàn)平庸：其「思考型」行為會變得冗雜、臃腫，甚至顯得優(yōu)柔寡斷；而其「指令型」行為則會變得不再干脆利落、可靠性下降，且其運行成本也遠(yuǎn)高于商業(yè)用戶所期望的合理范疇。

在實際應(yīng)用層面，將兩者保持「分離」的狀態(tài)，依然是更具吸引力的選擇。 2025 年晚些時候，繼 Qwen3 最初采用混合架構(gòu)之后，2507 系列推出了針對指令（Instruct）和思維（Thinking）功能的獨立更新，其中包括單獨的 30B 和 235B 變體。在商業(yè)部署中，大量客戶仍希望在進(jìn)行批量操作時，能獲得高吞吐量、低成本且高度可控的指令響應(yīng)行為。對于此類場景，將兩者合并帶來的益處并不顯著。將產(chǎn)品線拆分開來，使得各團(tuán)隊能夠更純粹地專注于解決每種模式各自面臨的數(shù)據(jù)與訓(xùn)練難題。

其他實驗室則選擇了截然不同的路徑。Anthropic 公開倡導(dǎo)一種「集成式模型」的理念：Claude 3.7 Sonnet 作為一款混合推理模型問世，用戶既可以選擇獲取常規(guī)響應(yīng)，也可以選擇啟用「擴(kuò)展思維」模式；API 用戶甚至可以為模型設(shè)定具體的「思維預(yù)算」。

Anthropic 明確表示，他們堅信推理能力應(yīng)當(dāng)作為模型的一項內(nèi)在集成能力而存在，而非被拆分為獨立的模型。GLM-4.5 也公開將自身定位為一款混合推理模型，同時支持思維模式與非思維模式，并實現(xiàn)了推理、編程及智能體（Agent）能力的統(tǒng)一；隨后，DeepSeek 也在 V3.1 版本中采取了類似的策略，推出了「思維與非思維」（Think & Non-Think）混合推理功能。

問題的關(guān)鍵在于：這種合并究竟是否真正做到了有機(jī)統(tǒng)一？如果思維功能與指令響應(yīng)功能僅僅是物理上共存于同一個模型檢查點（checkpoint）之中，但在實際表現(xiàn)上依然像是兩種生硬拼湊而成的「人格」，那么最終的產(chǎn)品體驗仍將顯得極不自然。真正成功的合并，要求模型能夠呈現(xiàn)出一個平滑且連續(xù)的推理「強(qiáng)度」譜系。模型應(yīng)當(dāng)具備表達(dá)多種不同推理強(qiáng)度層級的能力，且理想情況下，應(yīng)能根據(jù)具體情境自適應(yīng)地在這些層級之間進(jìn)行選擇。GPT 系列模型所采用的推理強(qiáng)度控制機(jī)制，正是指向了這一方向：它并非簡單的二元開關(guān)，而是一套基于計算資源調(diào)度的策略體系。

3. Anthropic 的發(fā)展方向為何起到了有益的糾偏作用

Anthropic 在對外宣傳 Claude 3.7 和 Claude 4 時，其措辭顯得相當(dāng)克制。他們強(qiáng)調(diào)了集成推理能力、用戶可控的「思考預(yù)算」、解決現(xiàn)實世界任務(wù)的能力、代碼編寫質(zhì)量，以及隨后引入的在進(jìn)行長程思考時調(diào)用工具的能力。

Claude 3.7 被定位為一種具備可控預(yù)算的混合推理模型；而 Claude 4 則在此基礎(chǔ)上進(jìn)行了擴(kuò)展，允許推理過程與工具調(diào)用交錯進(jìn)行，與此同時，Anthropic 明確將代碼編寫、長周期任務(wù)處理以及智能體（Agent）工作流視為其主要發(fā)展目標(biāo)。

生成更長的推理軌跡，并不意味著模型就自動變得更加智能。在許多情況下，過度的、顯性的推理痕跡反而暴露出模型在資源分配上的低效與薄弱。如果模型試圖以同樣冗長繁瑣的方式去對所有事物進(jìn)行推理，那很可能意味著它未能有效地進(jìn)行優(yōu)先級排序、未能對信息進(jìn)行精簡壓縮，甚至未能果斷地采取行動。

Anthropic 的發(fā)展軌跡所體現(xiàn)的，是一種更為嚴(yán)謹(jǐn)?shù)睦砟睿?strong>模型的思考過程應(yīng)當(dāng)根據(jù)其所針對的具體工作負(fù)載來塑形。如果目標(biāo)任務(wù)是代碼編寫，那么思考過程就應(yīng)當(dāng)致力于輔助代碼庫的導(dǎo)航、任務(wù)規(guī)劃、問題拆解、錯誤修復(fù)以及工具的協(xié)同調(diào)度。如果目標(biāo)任務(wù)是智能體工作流，那么思考過程的核心目的應(yīng)當(dāng)是提升在長周期任務(wù)執(zhí)行中的質(zhì)量與成效，而非僅僅為了生成那些看似精彩卻無實質(zhì)意義的中間過程文本。

這種對「針對性實用價值」的強(qiáng)調(diào)，指向了一個更為宏大的趨勢：我們正從「訓(xùn)練模型」的時代，邁向「訓(xùn)練智能體」的時代。我們在 Qwen3 的官方博客文章中明確闡述了這一觀點，文中寫道：「我們正從一個專注于訓(xùn)練基礎(chǔ)模型的時代，向一個以訓(xùn)練智能體為核心的時代過渡」；同時，我們將未來強(qiáng)化學(xué)習(xí)（RL）技術(shù)的進(jìn)步，與基于環(huán)境反饋所實現(xiàn)的長程推理能力緊密地聯(lián)系在了一起。所謂「智能體」，是指這樣一種系統(tǒng)：它能夠制定行動計劃、自主決定何時采取行動、調(diào)用外部工具、感知并解讀環(huán)境反饋、適時調(diào)整策略，并能在漫長的時間跨度內(nèi)持續(xù)地執(zhí)行任務(wù)。智能體的本質(zhì)特征，在于它與現(xiàn)實世界之間所建立的那種「閉環(huán)式」的交互關(guān)系。

4. 「智能體式思維」的真正含義

智能體式思維設(shè)定了一個截然不同的優(yōu)化目標(biāo)。推理式思維通常是根據(jù)模型在得出最終答案之前進(jìn)行內(nèi)部推演的質(zhì)量來評判的：即模型能否解出定理、寫出證明、生成正確的代碼，或者通過基準(zhǔn)測試。而智能體式思維關(guān)注的則是：模型在與環(huán)境進(jìn)行交互的過程中，能否持續(xù)地取得進(jìn)展。

核心問題由此發(fā)生了轉(zhuǎn)變：不再是「模型能否進(jìn)行足夠長時間的思考？」，而是「模型能否以一種能夠支撐有效行動的方式進(jìn)行思考？」智能體式思維必須處理一系列純粹的推理模型大多可以回避的問題：

決定何時停止思考并采取行動
選擇調(diào)用哪種工具，以及按何種順序調(diào)用
整合來自環(huán)境的帶有噪聲或不完整（部分）的觀測信息
在遭遇失敗后對計劃進(jìn)行修正
在多輪交互及多次工具調(diào)用之間保持邏輯的一致性

智能體式思維所描述的模型，是通過「行動」來進(jìn)行推理的。

5. 為什么智能體式強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施構(gòu)建難度更大？

一旦優(yōu)化目標(biāo)從解決基準(zhǔn)測試問題轉(zhuǎn)向解決交互式任務(wù)，整個強(qiáng)化學(xué)習(xí)（RL）的技術(shù)棧也就隨之發(fā)生了變化。用于傳統(tǒng)推理式強(qiáng)化學(xué)習(xí)的基礎(chǔ)設(shè)施，已不足以滿足新的需求。在推理式強(qiáng)化學(xué)習(xí)中，我們通?？梢詫ⅰ杠壽E采樣」（rollouts）視為相對獨立且自洽的序列，并配合相對純凈、簡單的評估器進(jìn)行評判。而在智能體式強(qiáng)化學(xué)習(xí)中，策略模型被嵌入到了一個更為龐大的支撐框架之中 —— 該框架涵蓋了工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API 接口層、記憶系統(tǒng)以及編排調(diào)度框架等一系列組件。此時，環(huán)境不再僅僅是一個靜態(tài)的驗證器，它已然成為了整個訓(xùn)練系統(tǒng)不可分割的一部分。

這種轉(zhuǎn)變帶來了一項全新的系統(tǒng)級需求：訓(xùn)練過程與推理過程之間必須實現(xiàn)更為徹底、干凈的解耦。若無法實現(xiàn)這種解耦，軌跡采樣的吞吐量將會急劇下滑。試想這樣一個場景：一個負(fù)責(zé)編寫代碼的智能體必須將其生成的代碼提交至一個「實時運行」的測試環(huán)境（test harness）中進(jìn)行執(zhí)行與驗證。在此過程中，推理端（inference side）將因苦等執(zhí)行結(jié)果的反饋而陷入停滯；訓(xùn)練端（training side）則因無法獲得足夠多的已完成軌跡數(shù)據(jù)而處于「饑餓」?fàn)顟B(tài)；最終導(dǎo)致整個訓(xùn)練管線的運行效率遠(yuǎn)低于我們在傳統(tǒng)推理式強(qiáng)化學(xué)習(xí)場景中所預(yù)期的 GPU 利用率水平。若再疊加工具調(diào)用的延遲、環(huán)境的部分可觀測性以及環(huán)境狀態(tài)的動態(tài)變化（有狀態(tài)環(huán)境）等因素，這種低效狀況將會被進(jìn)一步放大。其直接后果便是：在模型尚未達(dá)到你所預(yù)期的能力水平之前，相關(guān)的實驗迭代過程就已經(jīng)變得步履維艱、令人倍感煎熬了。

此外，環(huán)境本身也由此躍升為一種「最核心」級別的研究資產(chǎn)。回溯至 SFT（監(jiān)督微調(diào)）時代，我們曾將全部精力與關(guān)注點都聚焦于「數(shù)據(jù)多樣性」這一核心議題之上。在「智能體時代」，我們應(yīng)當(dāng)對環(huán)境質(zhì)量精益求精：包括穩(wěn)定性、真實性、覆蓋度、難度、狀態(tài)多樣性、反饋豐富度、抗利用性，以及推演生成的可擴(kuò)展性。環(huán)境構(gòu)建已不再僅僅是一項輔助性的副業(yè)，而是開始演變?yōu)橐粋€真正獨立的創(chuàng)業(yè)賽道。如果智能體的訓(xùn)練目標(biāo)是在接近生產(chǎn)環(huán)境的設(shè)定中運行，那么其所處的環(huán)境便構(gòu)成了其核心能力棧不可或缺的一部分。

6. 下一個前沿：更具可用性的思維

我預(yù)計，智能體式思維（agentic thinking）將成為主導(dǎo)性的思維形式。我認(rèn)為，它最終可能會取代許多舊有的、靜態(tài)獨白式的推理思維模式 —— 即那些過于冗長、孤立的內(nèi)部思維軌跡，它們試圖通過不斷生成文本輸出來彌補(bǔ)缺乏交互的缺陷。即使面對極其困難的數(shù)學(xué)或編程任務(wù)，一個真正先進(jìn)的系統(tǒng)也應(yīng)當(dāng)擁有執(zhí)行搜索、模擬、執(zhí)行代碼、檢查、驗證及修訂操作的權(quán)限。其核心目標(biāo)在于：以穩(wěn)健且高效的方式解決問題。

訓(xùn)練此類系統(tǒng)面臨的最棘手挑戰(zhàn)是「獎勵作弊」（reward hacking）問題。一旦模型獲得了調(diào)用外部工具的實質(zhì)性權(quán)限，獎勵作弊的風(fēng)險便會急劇攀升。例如，一個具備搜索功能的模型可能會在強(qiáng)化學(xué)習(xí)（RL）訓(xùn)練過程中，直接通過搜索來獲取標(biāo)準(zhǔn)答案；一個編程智能體可能會利用代碼倉庫中未來的信息、濫用日志數(shù)據(jù)，或者發(fā)現(xiàn)某些能繞過任務(wù)實質(zhì)的「捷徑」。如果訓(xùn)練環(huán)境存在隱蔽的信息泄露漏洞，模型在表面上可能會展現(xiàn)出超乎常人的能力，但實際上它只是學(xué)會了如何「作弊」。正是在這一點上，「智能體時代」的運作機(jī)制遠(yuǎn)比此前的「推理時代」要精細(xì)、微妙得多。雖然更強(qiáng)大的工具能提升模型的實用性，但也隨之?dāng)U大了「虛假優(yōu)化」（spurious optimization）的潛在攻擊面。因此，我們應(yīng)當(dāng)預(yù)見到，下一波嚴(yán)峻的研究瓶頸將主要集中在以下領(lǐng)域：環(huán)境設(shè)計、評估器的魯健性、防作弊協(xié)議，以及在策略（policy）與世界（world）之間構(gòu)建更具原則性的接口。

盡管挑戰(zhàn)重重，但發(fā)展方向已然清晰：基于工具輔助的思維模式，其實用性顯然優(yōu)于孤立的內(nèi)部思維，且更有望切實提升現(xiàn)實世界的生產(chǎn)力。

智能體式思維的興起，同時也意味著對「系統(tǒng)編排工程」（harness engineering）的精細(xì)化構(gòu)建。系統(tǒng)的核心智能將日益源自于對多個智能體之間的組織與協(xié)同：包括負(fù)責(zé)規(guī)劃與任務(wù)分發(fā)的「編排者」（orchestrator）；扮演特定領(lǐng)域?qū)＜医巧摹笇I(yè)化智能體」；以及負(fù)責(zé)執(zhí)行具體微小任務(wù)的「子智能體」—— 后者在執(zhí)行任務(wù)的同時，還能協(xié)助管理上下文語境、防止信息污染，并確保不同層級推理過程之間的邏輯隔離。未來的發(fā)展趨勢將呈現(xiàn)出一種演進(jìn)：從單純訓(xùn)練模型轉(zhuǎn)向訓(xùn)練智能體，進(jìn)而從訓(xùn)練智能體升華為訓(xùn)練整個智能體系統(tǒng)。

結(jié)語

「推理浪潮」的第一階段確立了一項至關(guān)重要的事實：若能確保反饋信號的可靠性，且底層基礎(chǔ)設(shè)施能夠提供充分支撐，那么在語言模型之上疊加強(qiáng)化學(xué)習(xí)（RL）機(jī)制，確實能夠催生出在本質(zhì)上更為強(qiáng)大的認(rèn)知能力。

而更為深層的變革，則是從「推理式思維」向「智能體式思維」的范式轉(zhuǎn)移 —— 即從單純追求「思考得更長、更深」，轉(zhuǎn)向追求「為了采取行動而進(jìn)行思考」。至此，訓(xùn)練工作的核心對象已發(fā)生了根本性的轉(zhuǎn)變：它不再僅僅是孤立的模型本身，而是「模型與環(huán)境構(gòu)成的整體系統(tǒng)」；若具體來說，其核心對象便是「智能體」及其周遭用于駕馭與協(xié)同的架構(gòu)體系（harness）。這改變了哪些研究產(chǎn)物最為關(guān)鍵：誠然，模型架構(gòu)和訓(xùn)練數(shù)據(jù)依然重要，但環(huán)境設(shè)計、部署基礎(chǔ)設(shè)施、評估器的魯棒性，以及多個智能體之間進(jìn)行協(xié)調(diào)的接口，也變得同樣關(guān)鍵。這也重新定義了何為「優(yōu)質(zhì)思考」：它不再指最冗長或最顯眼的思考軌跡，而是在現(xiàn)實世界的種種約束下，最有助于維持行動持續(xù)性的那條軌跡。

此外，這也改變了競爭優(yōu)勢的來源。在「推理時代」，競爭優(yōu)勢主要源自更優(yōu)的強(qiáng)化學(xué)習(xí)算法、更強(qiáng)的反饋信號，以及更具擴(kuò)展性的訓(xùn)練流水線。而在「智能體時代」，競爭優(yōu)勢將轉(zhuǎn)而源自更優(yōu)良的環(huán)境設(shè)計、更緊密的訓(xùn)練與服務(wù)集成、更強(qiáng)大的「駕馭工程」（harness engineering）能力，以及能夠?qū)⒛Ｐ偷臎Q策與其所產(chǎn)生的后果之間形成閉環(huán)的能力。

參考內(nèi)容：

https://x.com/JustinLin610/status/2037116325210829168

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.