国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

林俊旸離職后首次發(fā)聲!復盤千問的彎路,指出AI的新路

0
分享至

夢晨 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

林俊旸,離職阿里千問后首次發(fā)聲。

他沒有回應離職風波或宣告去向,而是發(fā)長文探討從“推理模型時代的思考”到“智能體時代的思考”的轉變。



整篇文章談的是技術和AI的未來方向,但字里行間對千問技術路線的反思藏不住。

他在文中坦白承認“我們沒有全做對”(We did not get everything right),



千問團隊曾有一個雄心勃勃的構想:把thinking和instruct兩種模式合并到一個模型里。

Qwen3就是這個方向上“最清晰的公開嘗試之一”,它引入了混合思維模式。

但在今天的林俊旸仍不夠滿意,他覺得最終thinking變得啰嗦且猶豫不決,instruct變得不夠干脆、不夠可靠,還更貴了。

在他看來,真正成功的合并,不是把兩種人格硬塞進一個checkpoint,而是讓模型擁有一個連續(xù)的推理努力光譜。



面對未來,他還給出這樣的判斷:過去兩年Reasoning Thinking時代的使命已經完成了。

OpenAI的o1和DeepSeek-R1證明了推理能力可以被訓練和復現(xiàn),這教會了整個行業(yè)一個關鍵認知:

  • 要在語言模型上做強化學習,需要確定性強、可規(guī);姆答佇盘。

2025年上半年開始,大家?guī)缀醵荚谘芯客患拢涸趺醋屇P突ǜ嗤评頃r間、怎么訓練更強的獎勵、怎么控制推理的力度。

現(xiàn)在最關鍵的問題是,下一步是什么?

林俊旸的答案是Agentic Thinking,智能體式思維,在與環(huán)境的交互中不斷修正計劃。

他列出了Agentic Thinking和Reasoning Thinking的關鍵區(qū)別:

  • 判斷何時停止思考、開始行動。推理模型輸出完答案就結束了,智能體要在思考和行動之間不斷切換。
  • 選擇調用哪個工具、以什么順序。不是簡單的function call,是動態(tài)規(guī)劃問題。
  • 消化來自環(huán)境的噪聲和部分觀測。真實世界不會給你完美反饋。
  • 失敗后修正計劃,而不是推倒重來。
  • 跨越多輪對話和多次工具調用保持連貫。

他用一句話做出總結:

  • 從“想更久”到“為了行動而想”。

在林俊旸看來,未來的競爭力不只來自更好的模型,還來自更好的環(huán)境設計、更強的harness工程、以及多個智能體之間的編排。

從訓練模型,到訓練智能體,再到訓練系統(tǒng)。

(以下為林俊旸原文翻譯。)

從“推理式思考”到“智能體式思考”

過去兩年,重新定義了我們評估模型的方式和我們對模型的期待。

OpenAI的o1表明,“思考”可以成為一種一等公民級別的能力——一種你專門去訓練、并向用戶開放的能力。

DeepSeek-R1,證明了推理式后訓練可以在原始實驗室之外被復現(xiàn)和規(guī);。

OpenAI將o1描述為通過強化學習訓練出“先想后答”能力的模型,DeepSeek則將R1定位為與o1具有競爭力的開源推理模型。



那個階段很重要。

但2025年上半年,行業(yè)把大部分精力花在了推理式思考上:怎么讓模型在推理時花更多算力,怎么用更強的獎勵來訓練,怎么暴露或控制這些額外的推理力度。

現(xiàn)在的問題是:下一步是什么?

我認為答案是智能體思考(agentic thinking)——為了行動而思考,在與環(huán)境的交互中思考,并根據(jù)來自真實世界的反饋持續(xù)更新計劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們:

如果想在語言模型上規(guī);瘡娀瘜W習,我們需要確定性強、穩(wěn)定且可擴展的反饋信號。

數(shù)學、代碼、邏輯以及其他可驗證領域變得至關重要,因為這些場景中的獎勵信號遠強于通用的偏好監(jiān)督。

它們讓RL能夠針對正確性進行優(yōu)化,而非僅追求“看起來合理”;A設施變得至關重要。

一旦模型被訓練出在更長軌跡上進行推理的能力,RL就不再是監(jiān)督微調(SFT)的輕量附加模塊,它變成了一個系統(tǒng)工程問題。

你需要大規(guī)模的軌跡采樣(rollout)、高吞吐量的驗證、穩(wěn)定的策略更新、高效的采樣。

推理模型的崛起,既是一個建模的故事,也同樣是一個基礎設施的故事。

OpenAI將o1描述為一條用RL訓練的推理產品線,DeepSeek R1隨后進一步驗證了這個方向——它展示了基于推理的RL需要多么專門化的算法和基礎設施工作。

第一次重大轉變:從擴展預訓練,到擴展面向推理的后訓練。

2. 真正的問題從來不只是“合并思考和指令”

2025年初,千問團隊中的我們很多人心中都有一幅宏大的藍圖。

理想的系統(tǒng)應當統(tǒng)一思考模式和指令模式。它應支持可調節(jié)的推理力度,類似低/中/高推理檔位的設定。

更理想的狀態(tài)是,它能從提示和上下文中自動推斷合適的推理量——讓模型自行決定何時直接回答、何時多想一會兒、何時在真正困難的問題上投入大量計算。

從概念上看,這個方向是對的。Qwen3是這個方向上最清晰的公開嘗試之一。

它引入了“混合思維模式”,在一個模型家族中同時支持思考和非思考行為,強調可控的思維預算,并設計了一條四階段后訓練流水線——在長CoT冷啟動和推理RL之后,明確包含了“思維模式融合”這一步。



但合并說起來容易做好難,真正的難點是數(shù)據(jù)。

人們談到合并思考和指令時,往往首先想到的是模型側的兼容性:一個checkpoint能不能同時支持兩種模式,一個對話模板能不能在它們之間切換,一套推理服務架構能不能暴露正確的開關。

更深層的問題是,兩種模式的數(shù)據(jù)分布和行為目標有本質差異。

在試圖平衡模型合并與提升后訓練數(shù)據(jù)的質量和多樣性時,我們沒有全做對。

在迭代過程中,我們也密切關注了用戶實際使用思考和指令模式的方式。一個強指令模型通常因簡潔直接、格式規(guī)范、低延遲而受到獎勵——尤其是在改寫、標注、模板化支持、結構化提取、運營QA等重復性高、批量大的企業(yè)任務上。

一個強思考模型則因在難題上花更多token、保持連貫的中間推理結構、探索替代路徑、并保留足夠的內部計算以切實提升最終正確率而受到獎勵。

這兩種行為模式互相拉扯。

如果合并數(shù)據(jù)未經精心策劃,結果通常兩邊都做得平庸:“思考”行為變得嘈雜、臃腫或不夠果斷,“指令”行為則變得不夠干脆、不夠可靠,而且比商業(yè)用戶實際需要的更貴。

在實踐中,將兩者分離仍然更有吸引力。

2025年下半年,在Qwen3最初的混合框架之后,2507版本發(fā)布了獨立的Instruct和Thinking更新,包括分開的30B和235B版本。

在商業(yè)部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進行批量操作。對這些場景來說,合并的好處并不明顯。分離產品線讓團隊可以更專注地解決每種模式各自的數(shù)據(jù)和訓練問題。

其他實驗室選擇了相反的路線。

Anthropic公開主張整合模型的理念:Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復或擴展思考,API用戶可以設置思維預算。Anthropic明確表示,他們認為推理應該是一種整合的能力,而非獨立的模型。

GLM-4.5也公開將自身定位為同時具備思考和非思考模式的混合推理模型,統(tǒng)一了推理、編程和智能體能力。

DeepSeek后來也在V3.1的“Think & Non-Think”混合推理中走向了類似方向。

關鍵問題是,這種合并是否是有機的。

如果思考和指令只是被塞進同一個checkpoint,卻仍然像兩個別扭拼接的人格那樣運作,產品體驗仍然是不自然的。

真正成功的合并,需要的是一個流暢的推理力度連續(xù)光譜。模型應該能表達多個層級的推理力度,理想情況下還能自適應地做出選擇。

GPT式的力度控制指向了這個方向:一種關于算力分配的策略,而非一個非此即彼的開關。

3. 為什么Anthropic的方向是一次有用的糾偏

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。

他們強調整合推理、用戶可控的思維預算、真實世界任務、編程質量,以及后來在擴展思考過程中使用工具的能力。Claude 3.7被呈現(xiàn)為一個具有可控預算的混合推理模型;Claude 4在此基礎上更進一步,允許推理與工具使用交替進行,同時Anthropic將編程、長時間運行的任務和智能體工作流強調為首要目標。

產出更長的推理軌跡并不會自動讓模型更聰明。

在很多情況下,過多的可見推理恰恰是算力分配低效的信號。如果模型試圖用同樣啰嗦的方式對所有事情進行推理,它可能是在失敗地確定優(yōu)先級、失敗地壓縮信息,或者失敗地采取行動。

Anthropic的發(fā)展軌跡暗示了一種更有紀律的視角:思考應當由目標工作負載來塑造。

如果目標是編程,那么思考應當幫助代碼庫導航、規(guī)劃、分解、錯誤恢復和工具編排。如果目標是智能體工作流,那么思考應當提升長周期內的執(zhí)行質量,而非產出華麗的中間文字。

這種對目標化效用的強調,指向了更大的圖景:

我們正在從訓練模型的時代走向訓練智能體的時代。

我們在Qwen3博客中明確寫下了這一點——“我們正在從專注于訓練模型的時代,走向以訓練智能體為核心的時代”,并將未來的RL進展與面向長周期推理的環(huán)境反饋聯(lián)系在一起。



一個智能體是一個能夠制定計劃、決定何時行動、使用工具、感知環(huán)境反饋、修正策略、并在長周期內持續(xù)運行的系統(tǒng)。它的定義特征是與世界的閉環(huán)交互。

4. “智能體式思考”到底意味著什么

智能體式思考是一個不同的優(yōu)化目標。

推理式思考通常以最終答案之前的內部推理質量來衡量:模型能不能解出定理、寫出證明、生成正確代碼、通過基準測試。智能體式思考則關注的是:模型能不能在與環(huán)境交互的過程中持續(xù)取得進展。

核心問題從“模型能不能想得足夠久?”轉變?yōu)椤澳P湍懿荒芤砸环N維持有效行動的方式來思考?”智能體式思考必須處理幾件純推理模型大多可以回避的事:

  • 決定何時停止思考、采取行動
  • 選擇調用哪個工具、以什么順序
  • 消化來自環(huán)境的噪聲或部分觀測
  • 失敗后修正計劃
  • 跨越多輪交互和多次工具調用保持連貫

智能體式思考,是通過行動來進行推理的模型。

5. 為什么智能體RL的基礎設施更難

一旦優(yōu)化目標從解決基準測試問題轉向解決交互式任務,RL技術棧就要跟著變,經典推理RL的基礎設施不夠用了。

在推理RL中,你通?梢詫⒉蓸榆壽E視為基本自包含的序列,配以相對干凈的評估器。

在智能體RL中,策略被嵌入到一個更大的編排框架(harness)中:工具服務器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和調度框架。

環(huán)境不再是一個靜態(tài)的驗證器,它本身就是訓練系統(tǒng)的一部分。

這帶來了一個新的系統(tǒng)需求:訓練和推理必須更徹底地解耦。

沒有這種解耦,采樣吞吐量就會崩潰。

想象一個編程智能體需要在實時測試框架上執(zhí)行生成的代碼:推理側因等待執(zhí)行反饋而停滯,訓練側因缺少已完成軌跡而“饑餓”,整個流水線的GPU利用率遠低于你對經典推理RL的預期。

加上工具延遲、部分可觀測性和有狀態(tài)環(huán)境,這些低效會被進一步放大。結果就是,在你達到目標能力水平之前很久,實驗就已經慢得令人痛苦了。

環(huán)境本身也變成了一等公民級別的研究對象。

在SFT時代,我們癡迷于數(shù)據(jù)多樣性。在智能體時代,我們應該癡迷于環(huán)境質量:穩(wěn)定性、真實性、覆蓋度、難度、狀態(tài)多樣性、反饋豐富度、防作弊能力,以及軌跡生成的可擴展性。

構建環(huán)境已經開始變成一個真正的創(chuàng)業(yè)賽道,而非副業(yè)。如果智能體是為了在類生產環(huán)境中運行而訓練的,那么環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更可用的思考

我的預期是,智能體式思考將成為主流的思維形式。

我認為它最終可能取代大部分舊式的“靜態(tài)獨白”推理式思考——那些過長的、孤立的內部推理軌跡,試圖通過輸出越來越多的文字來彌補缺乏交互的不足。

即使面對非常困難的數(shù)學或編程任務,一個真正先進的系統(tǒng)也應該有權去搜索、模擬、執(zhí)行、檢查、驗證和修正。目標是穩(wěn)健且高效地解決問題。

訓練此類系統(tǒng)最大的挑戰(zhàn)是reward hacking(獎勵作弊)。

一旦模型獲得了有意義的工具訪問權限,reward hacking就變得危險得多。

一個能搜索的模型可能學會在RL訓練中直接搜索答案。一個編程智能體可能利用代碼倉庫中的未來信息、濫用日志,或發(fā)現(xiàn)讓任務失效的捷徑。一個有隱藏泄漏的環(huán)境可能讓策略看起來超越人類水平,實際上卻是在訓練它作弊。

這就是智能體時代變得比推理時代微妙得多的地方。

更好的工具讓模型更有用,但也擴大了虛假優(yōu)化的攻擊面。

我們應該預期,下一批嚴肅的研究瓶頸將來自環(huán)境設計、評估器魯棒性、防作弊協(xié)議,以及策略與世界之間更有原則的接口。盡管如此,方向是明確的。工具賦能的思維就是比孤立的思維更有用,也更有可能真正提升生產力。

智能體式思考還意味著編排工程(harness engineering)的興起。核心智能將越來越多地來自多個智能體的組織方式:

一個負責規(guī)劃和分發(fā)任務的編排者,多個像領域專家一樣行動的專業(yè)智能體,以及執(zhí)行更窄任務的子智能體——它們幫助控制上下文、避免信息污染、并維護不同層級推理之間的隔離。

未來的方向是:從訓練模型到訓練智能體,從訓練智能體到訓練系統(tǒng)。

結語

推理浪潮的第一階段確立了一件重要的事:

當反饋信號可靠且基礎設施能夠支撐時,語言模型之上的RL可以產出質的飛躍式的認知能力。

更深層的轉變是從推理式思考到智能體式思考:

從想得更久,到為了行動而想。訓練的核心對象已經改變了——它變成了模型+環(huán)境的系統(tǒng),或者更具體地說,是智能體和圍繞它的編排框架。

這改變了哪些研究要素最重要:

模型架構和訓練數(shù)據(jù)當然仍然重要,但環(huán)境設計、軌跡采樣基礎設施、評估器魯棒性、以及多智能體之間的協(xié)調接口同樣關鍵。

這也改變了“好的思考”的定義:

最有用的軌跡,是能在真實世界約束下維持有效行動的那個——而非最長或最醒目的那個。

這也改變了競爭優(yōu)勢的來源:

在推理時代,優(yōu)勢來自更好的RL算法、更強的反饋信號和更可擴展的訓練流水線。

在智能體時代,優(yōu)勢將來自更好的環(huán)境、更緊密的訓練-推理耦合、更強的編排工程,以及在模型的決策與這些決策產生的后果之間實現(xiàn)閉環(huán)的能力。

原文地址:
https://x.com/JustinLin610/status/2037116325210829168?s=20

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
恩比德這一躍,賭上一切

恩比德這一躍,賭上一切

只關于籃球
2026-03-29 12:10:07
鄭麗文來京時間確定,馬英九拒絕通話,大陸發(fā)出統(tǒng)一后安排

鄭麗文來京時間確定,馬英九拒絕通話,大陸發(fā)出統(tǒng)一后安排

快看張同學
2026-03-29 10:22:36
不會再延期!爆料人稱《GTA6》已進入最終沖刺階段

不會再延期!爆料人稱《GTA6》已進入最終沖刺階段

游民星空
2026-03-29 11:20:13
伊朗打出封神級大捷!美軍E-3預警機被炸斷:一招廢掉美以制空權

伊朗打出封神級大捷!美軍E-3預警機被炸斷:一招廢掉美以制空權

奧字侃劇
2026-03-29 13:14:28
槍已上膛,中方啟動對美調查,不到24小時,特朗普稱非常尊重中國

槍已上膛,中方啟動對美調查,不到24小時,特朗普稱非常尊重中國

影孖看世界
2026-03-29 14:34:00
電梯房不是樓層越高越好,房產中介坦言:這3層才是“黃金樓層”

電梯房不是樓層越高越好,房產中介坦言:這3層才是“黃金樓層”

Home范
2026-03-29 10:43:47
金價一夜回到解放前!暴漲暴跌背后,普通人的財富如何安放?

金價一夜回到解放前!暴漲暴跌背后,普通人的財富如何安放?

小蘭聊歷史
2026-03-28 18:40:44
城投集團,當?shù)亍吧贍,少奶奶”的專屬崗位?>
    </a>
        <h3>
      <a href=奇葩游戲醬
2026-03-27 01:17:17
CBA32輪焦點戰(zhàn)!CCTV5直播!上海廣廈爭第1,廣東預送魚腩32連敗

CBA32輪焦點戰(zhàn)!CCTV5直播!上海廣廈爭第1,廣東預送魚腩32連敗

老吳說體育
2026-03-29 11:12:06
油價調整最新消息

油價調整最新消息

中吳網(wǎng)
2026-03-29 14:37:44
廣東省委:堅決擁護黨中央決定

廣東省委:堅決擁護黨中央決定

觀察者網(wǎng)
2026-03-28 08:45:14
血虧!曼聯(lián) 1000 萬賤賣棄將封神,已成新版巴爾韋德

血虧!曼聯(lián) 1000 萬賤賣棄將封神,已成新版巴爾韋德

奶蓋熊本熊
2026-03-29 03:41:06
張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產繼承復雜

張雪峰二婚妻子付幸:幾個月婚姻分走數(shù)億,11歲女兒遺產繼承復雜

眼光很亮
2026-03-27 16:04:09
同學聚會,班長讓我給遲到的鎮(zhèn)長讓座,下一秒,縣長向我道歉

同學聚會,班長讓我給遲到的鎮(zhèn)長讓座,下一秒,縣長向我道歉

農村情感故事
2026-03-23 07:31:39
李梓萌風波大反轉!同事曝光現(xiàn)狀,離開央視傳聞這下終于真相大白

李梓萌風波大反轉!同事曝光現(xiàn)狀,離開央視傳聞這下終于真相大白

曉劗就是我
2026-03-29 11:42:50
老賴黃淑芬把人撞成植物人, 寧可坐牢也不賠償, 后續(xù)結局大快人心

老賴黃淑芬把人撞成植物人, 寧可坐牢也不賠償, 后續(xù)結局大快人心

觀察鑒娛
2026-03-07 10:26:48
100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

100年前,帶回1億美金,家里有160棟別墅,從剃頭匠逆襲中國首富

鶴羽說個事
2026-03-28 22:36:17
烏軍團隊在中東被一鍋端!澤連斯基沒想到:伊朗軍隊比俄軍猛得多

烏軍團隊在中東被一鍋端!澤連斯基沒想到:伊朗軍隊比俄軍猛得多

小童歷史
2026-03-29 14:05:07
鐘小平:柯文哲毫無羞恥心,警告鄭麗文若上凱道“選票會崩”

鐘小平:柯文哲毫無羞恥心,警告鄭麗文若上凱道“選票會崩”

阿七說體育
2026-03-29 13:02:57
4月即將上市的7款重磅新車,最后一款大概率涼涼?

4月即將上市的7款重磅新車,最后一款大概率涼涼?

汽車天涯
2026-03-29 10:51:42
2026-03-29 15:07:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12362文章數(shù) 176427關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創(chuàng)始人均離職

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內輕生:我不想死 但扛不住了

頭條要聞

網(wǎng)約車司機被騙網(wǎng)貸后車內輕生:我不想死 但扛不住了

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續(xù)升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態(tài)度原創(chuàng)

時尚
健康
手機
藝術
公開課

伊姐周六熱推:電視劇《家事法庭》;電視劇《白日提燈》......

干細胞抗衰4大誤區(qū),90%的人都中招

手機要聞

OPPO K15 Pro全系標配12GB內存 產品經理:用16GB上天了 太貴了

藝術要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版