網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

林俊旸離職后首次發(fā)聲！復盤千問的彎路，指出AI的新路

2026-03-27 14:11:42　來源: 量子位

北京舉報

分享至

夢晨發(fā)自凹非寺
量子位 | 公眾號 QbitAI

林俊旸，離職阿里千問后首次發(fā)聲。

他沒有回應離職風波或宣告去向，而是發(fā)長文探討從“推理模型時代的思考”到“智能體時代的思考”的轉變。

整篇文章談的是技術和AI的未來方向，但字里行間對千問技術路線的反思藏不住。

他在文中坦白承認“我們沒有全做對”（We did not get everything right），

千問團隊曾有一個雄心勃勃的構想：把thinking和instruct兩種模式合并到一個模型里。

Qwen3就是這個方向上“最清晰的公開嘗試之一”，它引入了混合思維模式。

但在今天的林俊旸仍不夠滿意，他覺得最終thinking變得啰嗦且猶豫不決，instruct變得不夠干脆、不夠可靠，還更貴了。

在他看來，真正成功的合并，不是把兩種人格硬塞進一個checkpoint，而是讓模型擁有一個連續(xù)的推理努力光譜。

面對未來，他還給出這樣的判斷：過去兩年Reasoning Thinking時代的使命已經完成了。

OpenAI的o1和DeepSeek-R1證明了推理能力可以被訓練和復現(xiàn)，這教會了整個行業(yè)一個關鍵認知：

要在語言模型上做強化學習，需要確定性強、可規(guī)�；姆答佇盘�。

2025年上半年開始，大家?guī)缀醵荚谘芯客患拢涸趺醋屇Ｐ突ǜ嗤评頃r間、怎么訓練更強的獎勵、怎么控制推理的力度。

現(xiàn)在最關鍵的問題是，下一步是什么？

林俊旸的答案是Agentic Thinking，智能體式思維，在與環(huán)境的交互中不斷修正計劃。

他列出了Agentic Thinking和Reasoning Thinking的關鍵區(qū)別：

判斷何時停止思考、開始行動。推理模型輸出完答案就結束了，智能體要在思考和行動之間不斷切換。
選擇調用哪個工具、以什么順序。不是簡單的function call，是動態(tài)規(guī)劃問題。
消化來自環(huán)境的噪聲和部分觀測。真實世界不會給你完美反饋。
失敗后修正計劃，而不是推倒重來。
跨越多輪對話和多次工具調用保持連貫。

他用一句話做出總結：

從“想更久”到“為了行動而想”。

在林俊旸看來，未來的競爭力不只來自更好的模型，還來自更好的環(huán)境設計、更強的harness工程、以及多個智能體之間的編排。

從訓練模型，到訓練智能體，再到訓練系統(tǒng)。

（以下為林俊旸原文翻譯。）

從“推理式思考”到“智能體式思考”

過去兩年，重新定義了我們評估模型的方式和我們對模型的期待。

OpenAI的o1表明，“思考”可以成為一種一等公民級別的能力——一種你專門去訓練、并向用戶開放的能力。

DeepSeek-R1，證明了推理式后訓練可以在原始實驗室之外被復現(xiàn)和規(guī)�；�。

OpenAI將o1描述為通過強化學習訓練出“先想后答”能力的模型，DeepSeek則將R1定位為與o1具有競爭力的開源推理模型。

那個階段很重要。

但2025年上半年，行業(yè)把大部分精力花在了推理式思考上：怎么讓模型在推理時花更多算力，怎么用更強的獎勵來訓練，怎么暴露或控制這些額外的推理力度。

現(xiàn)在的問題是：下一步是什么？

我認為答案是智能體思考（agentic thinking）——為了行動而思考，在與環(huán)境的交互中思考，并根據(jù)來自真實世界的反饋持續(xù)更新計劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們：

如果想在語言模型上規(guī)�；瘡娀瘜W習，我們需要確定性強、穩(wěn)定且可擴展的反饋信號。

數(shù)學、代碼、邏輯以及其他可驗證領域變得至關重要，因為這些場景中的獎勵信號遠強于通用的偏好監(jiān)督。

它們讓RL能夠針對正確性進行優(yōu)化，而非僅追求“看起來合理”�；A設施變得至關重要。

一旦模型被訓練出在更長軌跡上進行推理的能力，RL就不再是監(jiān)督微調（SFT）的輕量附加模塊，它變成了一個系統(tǒng)工程問題。

你需要大規(guī)模的軌跡采樣（rollout）、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。

推理模型的崛起，既是一個建模的故事，也同樣是一個基礎設施的故事。

OpenAI將o1描述為一條用RL訓練的推理產品線，DeepSeek R1隨后進一步驗證了這個方向——它展示了基于推理的RL需要多么專門化的算法和基礎設施工作。

第一次重大轉變：從擴展預訓練，到擴展面向推理的后訓練。

2. 真正的問題從來不只是“合并思考和指令”

2025年初，千問團隊中的我們很多人心中都有一幅宏大的藍圖。

理想的系統(tǒng)應當統(tǒng)一思考模式和指令模式。它應支持可調節(jié)的推理力度，類似低/中/高推理檔位的設定。

更理想的狀態(tài)是，它能從提示和上下文中自動推斷合適的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量計算。

從概念上看，這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。

它引入了“混合思維模式”，在一個模型家族中同時支持思考和非思考行為，強調可控的思維預算，并設計了一條四階段后訓練流水線——在長CoT冷啟動和推理RL之后，明確包含了“思維模式融合”這一步。

但合并說起來容易做好難，真正的難點是數(shù)據(jù)。

人們談到合并思考和指令時，往往首先想到的是模型側的兼容性：一個checkpoint能不能同時支持兩種模式，一個對話模板能不能在它們之間切換，一套推理服務架構能不能暴露正確的開關。

更深層的問題是，兩種模式的數(shù)據(jù)分布和行為目標有本質差異。

在試圖平衡模型合并與提升后訓練數(shù)據(jù)的質量和多樣性時，我們沒有全做對。

在迭代過程中，我們也密切關注了用戶實際使用思考和指令模式的方式。一個強指令模型通常因簡潔直接、格式規(guī)范、低延遲而受到獎勵——尤其是在改寫、標注、模板化支持、結構化提取、運營QA等重復性高、批量大的企業(yè)任務上。

一個強思考模型則因在難題上花更多token、保持連貫的中間推理結構、探索替代路徑、并保留足夠的內部計算以切實提升最終正確率而受到獎勵。

這兩種行為模式互相拉扯。

如果合并數(shù)據(jù)未經精心策劃，結果通常兩邊都做得平庸：“思考”行為變得嘈雜、臃腫或不夠果斷，“指令”行為則變得不夠干脆、不夠可靠，而且比商業(yè)用戶實際需要的更貴。

在實踐中，將兩者分離仍然更有吸引力。

2025年下半年，在Qwen3最初的混合框架之后，2507版本發(fā)布了獨立的Instruct和Thinking更新，包括分開的30B和235B版本。

在商業(yè)部署中，大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對這些場景來說，合并的好處并不明顯。分離產品線讓團隊可以更專注地解決每種模式各自的數(shù)據(jù)和訓練問題。

其他實驗室選擇了相反的路線。

Anthropic公開主張整合模型的理念：Claude 3.7 Sonnet作為混合推理模型推出，用戶可以選擇普通回復或擴展思考，API用戶可以設置思維預算。Anthropic明確表示，他們認為推理應該是一種整合的能力，而非獨立的模型。

GLM-4.5也公開將自身定位為同時具備思考和非思考模式的混合推理模型，統(tǒng)一了推理、編程和智能體能力。

DeepSeek后來也在V3.1的“Think & Non-Think”混合推理中走向了類似方向。

關鍵問題是，這種合并是否是有機的。

如果思考和指令只是被塞進同一個checkpoint，卻仍然像兩個別扭拼接的人格那樣運作，產品體驗仍然是不自然的。

真正成功的合并，需要的是一個流暢的推理力度連續(xù)光譜。模型應該能表達多個層級的推理力度，理想情況下還能自適應地做出選擇。

GPT式的力度控制指向了這個方向：一種關于算力分配的策略，而非一個非此即彼的開關。

3. 為什么Anthropic的方向是一次有用的糾偏

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。

他們強調整合推理、用戶可控的思維預算、真實世界任務、編程質量，以及后來在擴展思考過程中使用工具的能力。Claude 3.7被呈現(xiàn)為一個具有可控預算的混合推理模型；Claude 4在此基礎上更進一步，允許推理與工具使用交替進行，同時Anthropic將編程、長時間運行的任務和智能體工作流強調為首要目標。

產出更長的推理軌跡并不會自動讓模型更聰明。

在很多情況下，過多的可見推理恰恰是算力分配低效的信號。如果模型試圖用同樣啰嗦的方式對所有事情進行推理，它可能是在失敗地確定優(yōu)先級、失敗地壓縮信息，或者失敗地采取行動。

Anthropic的發(fā)展軌跡暗示了一種更有紀律的視角：思考應當由目標工作負載來塑造。

如果目標是編程，那么思考應當幫助代碼庫導航、規(guī)劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流，那么思考應當提升長周期內的執(zhí)行質量，而非產出華麗的中間文字。

這種對目標化效用的強調，指向了更大的圖景：

我們正在從訓練模型的時代走向訓練智能體的時代。

我們在Qwen3博客中明確寫下了這一點——“我們正在從專注于訓練模型的時代，走向以訓練智能體為核心的時代”，并將未來的RL進展與面向長周期推理的環(huán)境反饋聯(lián)系在一起。

一個智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略、并在長周期內持續(xù)運行的系統(tǒng)。它的定義特征是與世界的閉環(huán)交互。

4. “智能體式思考”到底意味著什么

智能體式思考是一個不同的優(yōu)化目標。

推理式思考通常以最終答案之前的內部推理質量來衡量：模型能不能解出定理、寫出證明、生成正確代碼、通過基準測試。智能體式思考則關注的是：模型能不能在與環(huán)境交互的過程中持續(xù)取得進展。

核心問題從“模型能不能想得足夠久？”轉變?yōu)椤澳Ｐ湍懿荒芤砸环N維持有效行動的方式來思考？”智能體式思考必須處理幾件純推理模型大多可以回避的事：

決定何時停止思考、采取行動
選擇調用哪個工具、以什么順序
消化來自環(huán)境的噪聲或部分觀測
失敗后修正計劃
跨越多輪交互和多次工具調用保持連貫

智能體式思考，是通過行動來進行推理的模型。

5. 為什么智能體RL的基礎設施更難

一旦優(yōu)化目標從解決基準測試問題轉向解決交互式任務，RL技術棧就要跟著變，經典推理RL的基礎設施不夠用了。

在推理RL中，你通�？梢詫⒉蓸榆壽E視為基本自包含的序列，配以相對干凈的評估器。

在智能體RL中，策略被嵌入到一個更大的編排框架（harness）中：工具服務器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和調度框架。

環(huán)境不再是一個靜態(tài)的驗證器，它本身就是訓練系統(tǒng)的一部分。

這帶來了一個新的系統(tǒng)需求：訓練和推理必須更徹底地解耦。

沒有這種解耦，采樣吞吐量就會崩潰。

想象一個編程智能體需要在實時測試框架上執(zhí)行生成的代碼：推理側因等待執(zhí)行反饋而停滯，訓練側因缺少已完成軌跡而“饑餓”，整個流水線的GPU利用率遠低于你對經典推理RL的預期。

加上工具延遲、部分可觀測性和有狀態(tài)環(huán)境，這些低效會被進一步放大。結果就是，在你達到目標能力水平之前很久，實驗就已經慢得令人痛苦了。

環(huán)境本身也變成了一等公民級別的研究對象。

在SFT時代，我們癡迷于數(shù)據(jù)多樣性。在智能體時代，我們應該癡迷于環(huán)境質量：穩(wěn)定性、真實性、覆蓋度、難度、狀態(tài)多樣性、反饋豐富度、防作弊能力，以及軌跡生成的可擴展性。

構建環(huán)境已經開始變成一個真正的創(chuàng)業(yè)賽道，而非副業(yè)。如果智能體是為了在類生產環(huán)境中運行而訓練的，那么環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更可用的思考

我的預期是，智能體式思考將成為主流的思維形式。

我認為它最終可能取代大部分舊式的“靜態(tài)獨白”推理式思考——那些過長的、孤立的內部推理軌跡，試圖通過輸出越來越多的文字來彌補缺乏交互的不足。

即使面對非常困難的數(shù)學或編程任務，一個真正先進的系統(tǒng)也應該有權去搜索、模擬、執(zhí)行、檢查、驗證和修正。目標是穩(wěn)健且高效地解決問題。

訓練此類系統(tǒng)最大的挑戰(zhàn)是reward hacking（獎勵作弊）。

一旦模型獲得了有意義的工具訪問權限，reward hacking就變得危險得多。

一個能搜索的模型可能學會在RL訓練中直接搜索答案。一個編程智能體可能利用代碼倉庫中的未來信息、濫用日志，或發(fā)現(xiàn)讓任務失效的捷徑。一個有隱藏泄漏的環(huán)境可能讓策略看起來超越人類水平，實際上卻是在訓練它作弊。

這就是智能體時代變得比推理時代微妙得多的地方。

更好的工具讓模型更有用，但也擴大了虛假優(yōu)化的攻擊面。

我們應該預期，下一批嚴肅的研究瓶頸將來自環(huán)境設計、評估器魯棒性、防作弊協(xié)議，以及策略與世界之間更有原則的接口。盡管如此，方向是明確的。工具賦能的思維就是比孤立的思維更有用，也更有可能真正提升生產力。

智能體式思考還意味著編排工程（harness engineering）的興起。核心智能將越來越多地來自多個智能體的組織方式：

一個負責規(guī)劃和分發(fā)任務的編排者，多個像領域專家一樣行動的專業(yè)智能體，以及執(zhí)行更窄任務的子智能體——它們幫助控制上下文、避免信息污染、并維護不同層級推理之間的隔離。

未來的方向是：從訓練模型到訓練智能體，從訓練智能體到訓練系統(tǒng)。

結語

推理浪潮的第一階段確立了一件重要的事：

當反饋信號可靠且基礎設施能夠支撐時，語言模型之上的RL可以產出質的飛躍式的認知能力。

更深層的轉變是從推理式思考到智能體式思考：

從想得更久，到為了行動而想。訓練的核心對象已經改變了——它變成了模型+環(huán)境的系統(tǒng)，或者更具體地說，是智能體和圍繞它的編排框架。

這改變了哪些研究要素最重要：

模型架構和訓練數(shù)據(jù)當然仍然重要，但環(huán)境設計、軌跡采樣基礎設施、評估器魯棒性、以及多智能體之間的協(xié)調接口同樣關鍵。

這也改變了“好的思考”的定義：

最有用的軌跡，是能在真實世界約束下維持有效行動的那個——而非最長或最醒目的那個。

這也改變了競爭優(yōu)勢的來源：

在推理時代，優(yōu)勢來自更好的RL算法、更強的反饋信號和更可擴展的訓練流水線。

在智能體時代，優(yōu)勢將來自更好的環(huán)境、更緊密的訓練-推理耦合、更強的編排工程，以及在模型的決策與這些決策產生的后果之間實現(xiàn)閉環(huán)的能力。

原文地址：
https://x.com/JustinLin610/status/2037116325210829168?s=20

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.