国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

林俊旸從阿里離開后首度發(fā)聲:推理模型的時代快結(jié)束了

0
分享至

林俊旸,前通義千問Qwen負(fù)責(zé)人,北大外語碩士,阿里最年輕P10。2026年3月從阿里離職后三周,他發(fā)了一篇6000字的英文長文,標(biāo)題很樸素:From "Reasoning" Thinking to "Agentic" Thinking。

沒有怨氣,沒有內(nèi)幕。也很遺憾沒有公布他下一步的去向。反倒是出來寫了一篇極其冷靜的技術(shù)預(yù)判,核心論點(diǎn)只有一句話:AI正在從「推理思考」轉(zhuǎn)向「智能體思考」。模型的價值不在于它能想多久,而在于它能做多好。

這篇文章特殊之處在于它不是旁觀者評論行業(yè)趨勢,而是一個真正的頂級開源實(shí)驗(yàn)室的Leader的技術(shù)思考,一個真正的builder,在坦承混合思考模式的失敗經(jīng)驗(yàn)后,提出的下一步判斷。以下是全文翻譯,之后是我的分析。

一、全文翻譯

原文:Junyang Lin(@JustinLin610) 翻譯:花叔 & Claude Code

過去兩年重塑了我們評估模型的方式和對模型的期望。OpenAI的o1證明了「思考」可以成為一種核心能力——一種你專門訓(xùn)練并向用戶開放的能力。DeepSeek-R1證明了推理風(fēng)格的后訓(xùn)練可以在原始實(shí)驗(yàn)室之外被復(fù)現(xiàn)和規(guī)?;?。OpenAI將o1描述為一個通過強(qiáng)化學(xué)習(xí)訓(xùn)練的模型,讓它「在回答之前先思考」。DeepSeek則將R1定位為一個與o1競爭的開源推理模型。

那個階段很重要。但2025年上半年主要是關(guān)于推理思考(reasoning thinking):如何讓模型在推理時投入更多計(jì)算,如何用更強(qiáng)的獎勵信號來訓(xùn)練它們,如何展示或調(diào)控額外的推理投入?,F(xiàn)在的問題是:下一步是什么?我認(rèn)為答案是智能體思考(agentic thinking):為了行動而思考,同時與環(huán)境交互,并根據(jù)來自真實(shí)世界的反饋持續(xù)更新計(jì)劃。

1. o1和R1的崛起真正教會了我們什么

第一波推理模型教會了我們:如果想在語言模型中擴(kuò)展強(qiáng)化學(xué)習(xí),我們需要確定性的、穩(wěn)定的、可擴(kuò)展的反饋信號。數(shù)學(xué)、代碼、邏輯和其他可驗(yàn)證領(lǐng)域成為核心,因?yàn)檫@些場景中的獎勵信號比通用的偏好監(jiān)督強(qiáng)得多。它們讓RL能針對「正確性」而非「看起來合理」來優(yōu)化?;A(chǔ)設(shè)施變得至關(guān)重要。

一旦模型被訓(xùn)練為通過更長的軌跡進(jìn)行推理,RL就不再是監(jiān)督微調(diào)的輕量級附加組件,而變成了一個系統(tǒng)工程問題。你需要大規(guī)模的rollout、高吞吐量的驗(yàn)證、穩(wěn)定的策略更新、高效的采樣。推理模型的出現(xiàn)既是一個基礎(chǔ)設(shè)施故事,也是一個建模故事。OpenAI將o1描述為用RL訓(xùn)練的推理線,DeepSeek R1后來強(qiáng)化了這個方向,展示了基于推理的RL需要多少專門的算法和基礎(chǔ)設(shè)施工作。第一個重大轉(zhuǎn)變:從擴(kuò)展預(yù)訓(xùn)練到擴(kuò)展推理后訓(xùn)練。

2. 真正的問題從來不只是「合并思考和指令模式」

2025年初,Qwen團(tuán)隊(duì)中的很多人有一個宏大的愿景:理想的系統(tǒng)應(yīng)該統(tǒng)一思考模式和指令模式。它應(yīng)該支持可調(diào)節(jié)的推理力度,類似于低/中/高的推理設(shè)置。更好的是,它應(yīng)該能從提示和上下文中自動推斷合適的推理量,讓模型自己決定何時立即回答、何時多想一會兒、何時為真正困難的問題投入大量計(jì)算。

概念上,這是正確的方向。Qwen3是最清晰的公開嘗試之一。它引入了「混合思考模式」,在一個模型家族中同時支持思考和非思考行為,強(qiáng)調(diào)可控的思考預(yù)算,并描述了一個四階段后訓(xùn)練流程,明確包含了在長CoT冷啟動和推理RL之后的「思考模式融合」。

合并說起來容易,做好很難。難點(diǎn)在于數(shù)據(jù)。當(dāng)人們談?wù)摵喜⑺伎己椭噶顣r,往往首先想到模型端的兼容性:一個檢查點(diǎn)能否支持兩種模式,一個聊天模板能否在兩者之間切換,一個服務(wù)棧能否提供合適的控制開關(guān)。更深層的問題是,兩種模式的數(shù)據(jù)分布和行為目標(biāo)有本質(zhì)差異。

我們在試圖平衡模型合并與提高后訓(xùn)練數(shù)據(jù)質(zhì)量和多樣性時,并沒有完全做對。在修訂過程中,我們也密切關(guān)注了用戶實(shí)際上是如何使用思考和指令模式的。一個好的指令模型通常因直接、簡潔、格式合規(guī)、低延遲而獲得獎勵——服務(wù)于重寫、標(biāo)注、模板化客服、結(jié)構(gòu)化提取和運(yùn)營QA等重復(fù)性高吞吐企業(yè)任務(wù)。一個好的思考模型則因在困難問題上花更多token、保持連貫的中間結(jié)構(gòu)、探索替代路徑、保留足夠的內(nèi)部計(jì)算來切實(shí)提高最終答案的正確性。

這兩種行為配置是相互拉扯的。如果合并數(shù)據(jù)沒有精心策劃,結(jié)果通常是兩邊都平庸:「思考」行為變得噪聲大、臃腫或不夠果斷,而「指令」行為變得不夠干脆、不夠可靠,且比商業(yè)用戶實(shí)際需要的更昂貴。

實(shí)踐中,分離仍然有吸引力。2025年晚些時候,在Qwen3最初的混合框架之后,2507系列發(fā)布了獨(dú)立的Instruct和Thinking更新,包括獨(dú)立的30B和235B變體。在商業(yè)部署中,大量客戶仍然需要高吞吐、低成本、高度可控的指令行為來進(jìn)行批量操作。對于這些場景,合并并不是明顯的好處。分離產(chǎn)品線讓團(tuán)隊(duì)能更干凈地集中解決每種模式的數(shù)據(jù)和訓(xùn)練問題。

其他實(shí)驗(yàn)室選擇了相反的路線。Anthropic公開倡導(dǎo)集成模型哲學(xué):Claude 3.7 Sonnet作為混合推理模型推出,用戶可以選擇普通回復(fù)或擴(kuò)展思考,API用戶可以設(shè)置思考預(yù)算。Anthropic明確表示,他們相信推理應(yīng)該是一種集成能力,而不是一個單獨(dú)的模型。GLM-4.5也公開將自己定位為混合推理模型,統(tǒng)一了推理、編碼和Agent能力;DeepSeek后來用V3.1的「Think & Non-Think」混合推理走了類似方向。

關(guān)鍵問題是合并是否有機(jī)。如果思考和指令只是被共同放置在一個檢查點(diǎn)內(nèi),但仍然表現(xiàn)得像兩個尷尬縫合的人格,產(chǎn)品體驗(yàn)就仍然不自然。真正成功的合并需要平滑的推理力度光譜。模型應(yīng)該能表達(dá)多個層次的努力,并理想地在它們之間自適應(yīng)選擇。GPT風(fēng)格的effort control指向了這一點(diǎn):一種關(guān)于計(jì)算的策略,而非一個二元開關(guān)。

3. 為什么Anthropic的方向是有益的矯正

Anthropic圍繞Claude 3.7和Claude 4的公開表述是克制的。他們強(qiáng)調(diào)集成推理、用戶可控的思考預(yù)算、現(xiàn)實(shí)世界任務(wù)、編碼質(zhì)量,以及后來在擴(kuò)展思考期間使用工具的能力。Claude 3.7作為混合推理模型推出,帶有可控預(yù)算;Claude 4擴(kuò)展了這一點(diǎn),允許推理與工具使用交織進(jìn)行,同時Anthropic強(qiáng)調(diào)編碼、長時間運(yùn)行的任務(wù)和Agent工作流作為主要目標(biāo)。

產(chǎn)生更長的推理軌跡并不會自動讓模型更智能。在很多情況下,過多的可見推理痕跡反而暴露了糟糕的計(jì)算分配。如果模型對什么問題都用同樣冗長的方式推理一遍,說明它無法有效排序優(yōu)先級、無法精簡壓縮、也無法果斷行動。Anthropic的路線暗示了一種更克制的理念:思考應(yīng)該圍繞具體的任務(wù)目標(biāo)來組織。如果目標(biāo)是編碼,那么思考應(yīng)該幫助代碼庫導(dǎo)航、規(guī)劃、分解、錯誤恢復(fù)和工具編排。如果目標(biāo)是Agent工作流,那么思考應(yīng)該在長時間范圍內(nèi)提高執(zhí)行質(zhì)量,而不是產(chǎn)生令人印象深刻的中間文本。

這種對目標(biāo)效用的強(qiáng)調(diào)指向更大的東西:我們正在從訓(xùn)練模型的時代走向訓(xùn)練Agent的時代。我們在Qwen3博客中明確寫道:「我們正在從專注于訓(xùn)練模型的時代過渡到以訓(xùn)練Agent為中心的時代」,并將未來的RL進(jìn)展與長時間推理的環(huán)境反饋聯(lián)系起來。Agent是一個能制定計(jì)劃、決定何時行動、使用工具、感知環(huán)境反饋、修訂策略、并在長時間范圍內(nèi)持續(xù)運(yùn)行的系統(tǒng)。它由與世界的閉環(huán)交互來定義。

4. 「智能體思考」到底意味著什么

智能體思考是一個不同的優(yōu)化目標(biāo)。推理思考通常以最終答案前的內(nèi)部推導(dǎo)質(zhì)量來衡量:模型能否解出定理、寫出證明、產(chǎn)生正確的代碼、或通過基準(zhǔn)測試。智能體思考關(guān)注的是模型能否在與環(huán)境交互的同時持續(xù)取得進(jìn)展

核心問題從「模型能否思考足夠長?」轉(zhuǎn)變?yōu)椤改P湍芊褚砸环N維持有效行動的方式來思考?」智能體思考必須處理純推理模型大多可以避免的幾件事:

  • 決定何時停止思考并采取行動

  • 選擇調(diào)用哪個工具,以什么順序

  • 整合來自環(huán)境的嘈雜或不完整的觀察

  • 在失敗后修訂計(jì)劃

  • 在多輪和多次工具調(diào)用中保持連貫性

智能體思考,就是讓模型通過行動來推理。

5. 為什么智能體RL基礎(chǔ)設(shè)施更難

一旦目標(biāo)從解決基準(zhǔn)測試問題轉(zhuǎn)向解決交互式任務(wù),RL技術(shù)棧就變了。用于經(jīng)典推理RL的基礎(chǔ)設(shè)施不夠用了。在推理RL中,你通常可以將rollout視為大多是自包含的軌跡,配有相對干凈的評估器。在智能體RL中,模型的策略被嵌入到一個更龐大的外圍系統(tǒng)中:工具服務(wù)器、瀏覽器、終端、搜索引擎、模擬器、執(zhí)行沙箱、API層、記憶系統(tǒng)和編排框架。環(huán)境不再是靜態(tài)的驗(yàn)證器,它本身就是訓(xùn)練系統(tǒng)的一部分。

這創(chuàng)造了新的系統(tǒng)需求:訓(xùn)練和推理必須更干凈地解耦。沒有這種解耦,rollout吞吐量就會崩潰。想象一個編碼Agent,需要在實(shí)時測試環(huán)境中運(yùn)行它生成的代碼:推理端卡在那里等執(zhí)行反饋,訓(xùn)練端因?yàn)槟貌坏阶銐虻耐暾壽E而空轉(zhuǎn),整個管道運(yùn)行遠(yuǎn)低于你從經(jīng)典推理RL預(yù)期的GPU利用率。添加工具延遲、部分可觀測性和有狀態(tài)環(huán)境會放大這些低效。結(jié)果是實(shí)驗(yàn)在你達(dá)到目標(biāo)能力水平之前很久就變慢并變得痛苦。

環(huán)境本身也成為一級研究產(chǎn)物。在SFT時代,我們癡迷于數(shù)據(jù)多樣性。在Agent時代,我們應(yīng)該癡迷于環(huán)境質(zhì)量:穩(wěn)定性、現(xiàn)實(shí)性、覆蓋范圍、難度、狀態(tài)多樣性、反饋豐富度、防利用性和rollout生成的可擴(kuò)展性。環(huán)境構(gòu)建已經(jīng)開始從邊緣項(xiàng)目變成一個真正的創(chuàng)業(yè)品類。如果Agent正在被訓(xùn)練以在類生產(chǎn)環(huán)境中運(yùn)行,那么環(huán)境就是核心能力棧的一部分。

6. 下一個前沿是更有用的思考

我的預(yù)期是智能體思考將成為主導(dǎo)的思考形式。我認(rèn)為它最終可能會取代大部分舊的靜態(tài)獨(dú)白式推理思考:那種過于冗長、孤立的內(nèi)部軌跡,試圖通過輸出越來越多的文本來彌補(bǔ)缺乏交互的不足。即使在非常困難的數(shù)學(xué)或編碼任務(wù)上,一個真正先進(jìn)的系統(tǒng)也應(yīng)該有權(quán)搜索、模擬、執(zhí)行、檢查、驗(yàn)證和修訂。目標(biāo)是穩(wěn)健而高效地解決問題。

訓(xùn)練這類系統(tǒng)最難的挑戰(zhàn)是獎勵作弊(reward hacking)。一旦模型獲得有意義的工具訪問,獎勵作弊就變得危險(xiǎn)得多。有搜索能力的模型可能在RL期間學(xué)會直接搜索答案。編碼Agent可能會利用代碼倉庫中的未來信息、濫用日志或發(fā)現(xiàn)使任務(wù)失效的捷徑。存在隱性信息泄漏的訓(xùn)練環(huán)境,可以讓模型表現(xiàn)看起來超越人類,但實(shí)際上只是在訓(xùn)練它作弊。這正是Agent時代比推理時代更微妙的地方。更好的工具讓模型更有用,但它們也擴(kuò)大了虛假優(yōu)化的攻擊面。我們應(yīng)該預(yù)期下一個嚴(yán)肅的研究瓶頸來自環(huán)境設(shè)計(jì)、評估器魯棒性、防作弊協(xié)議,以及策略與世界之間更有原則的接口。盡管如此,方向是清晰的。工具賦能的思考比孤立的思考更有用,而且更有可能提高真正的生產(chǎn)力。

智能體思考也意味著工具架工程(harness engineering)。核心智能將越來越多地來自多個Agent如何被組織:一個規(guī)劃和路由工作的編排者,充當(dāng)領(lǐng)域?qū)<业膶I(yè)Agent,以及執(zhí)行更窄任務(wù)同時幫助控制上下文、避免污染、保持不同推理層次之間分離的子Agent。未來是從訓(xùn)練模型到訓(xùn)練Agent,從訓(xùn)練Agent到訓(xùn)練系統(tǒng)的轉(zhuǎn)變。

結(jié)論

推理浪潮的第一階段建立了一些重要的東西:當(dāng)反饋信號可靠且基礎(chǔ)設(shè)施能支持時,語言模型之上的RL可以產(chǎn)生質(zhì)的更強(qiáng)的認(rèn)知。

更深層的轉(zhuǎn)變是從推理思考到智能體思考:從更長的思考到為了行動而思考。訓(xùn)練的核心對象已經(jīng)改變了。它不再是單獨(dú)的模型,而是模型加環(huán)境的系統(tǒng),更具體地說,是Agent和圍繞它的工具架。這改變了哪些研究產(chǎn)物最重要:模型架構(gòu)和訓(xùn)練數(shù)據(jù)當(dāng)然還是,但環(huán)境設(shè)計(jì)、rollout基礎(chǔ)設(shè)施、評估器魯棒性、多Agent協(xié)調(diào)接口變得同樣關(guān)鍵。這也改變了「好的思考」意味著什么:在真實(shí)世界約束下維持行動的最有用的軌跡,而不是最長或最可見的那個。

這也改變了競爭優(yōu)勢的來源。在推理時代,優(yōu)勢來自更好的RL算法、更強(qiáng)的反饋信號和更可擴(kuò)展的訓(xùn)練管道。在Agent時代,優(yōu)勢將來自更好的環(huán)境、更緊密的訓(xùn)練-服務(wù)集成、更強(qiáng)的工具架工程,以及讓模型的決策和決策帶來的后果形成閉環(huán)的能力。

二、我的觀點(diǎn):產(chǎn)品已經(jīng)跑在了訓(xùn)練前面 這篇文章的特殊價值

AI圈從來不缺趨勢判斷。但很少有人從自己的失敗經(jīng)驗(yàn)出發(fā)來做判斷。

林俊旸這篇文章最有分量的部分不是「agentic thinking是未來」這個結(jié)論,這個判斷不新鮮。分量在于他作為Qwen3的實(shí)際訓(xùn)練者,坦承了混合思考模式的失?。簝煞N行為的數(shù)據(jù)分布沖突,合并后兩邊都平庸,最終不得不拆回獨(dú)立版本。這種坦誠在大廠技術(shù)領(lǐng)導(dǎo)的公開發(fā)言中很少見到。

更重要的是他指出了一個層次差異:Agent產(chǎn)品的成功和Agent訓(xùn)練方法論的成熟是兩件事。Claude Code年化收入超過10億美元,Codex從命令行工具變成了完整的編碼平臺,Agent產(chǎn)品層面的驗(yàn)證已經(jīng)完成了。但訓(xùn)練一個真正「agentic」的模型,需要的RL基礎(chǔ)設(shè)施、環(huán)境設(shè)計(jì)、防作弊機(jī)制,都還在很早期。

產(chǎn)品跑在了訓(xùn)練前面。這是當(dāng)前這個階段最準(zhǔn)確的描述。

誰在真正做agentic訓(xùn)練?

如果林俊旸是在描述問題,那么DeepSeek和Kimi已經(jīng)開始動手解決了。

DeepSeek V3.2可能是目前最接近林俊旸描述的「agentic thinking」的實(shí)踐。它是第一個把thinking直接嵌入tool-use的模型——不是「先想完再調(diào)用工具」,而是推理鏈貫穿整個工具調(diào)用過程,推理上下文跨tool call保持不丟失。這直接回應(yīng)了林俊旸說的「通過行動來推理」。

V3.2的訓(xùn)練方法更值得關(guān)注。技術(shù)報(bào)告(arXiv 2512.02556)透露了一條完整的agentic訓(xùn)練管線:合成了1827個交互環(huán)境、85000+條復(fù)雜指令,用GRPO把推理、Agent行為和人類對齊合并到同一個RL階段訓(xùn)練。結(jié)果是SWE-Bench Verified(Agent模式)從V3-0324的45.4跳到66.0,提升45%。

DeepSeek還總結(jié)了一個關(guān)鍵原則,和林俊旸的判斷高度吻合:驗(yàn)證成本是Agent RL最大的約束。他們不用神經(jīng)網(wǎng)絡(luò)獎勵模型(容易被hack),只看答案對不對。設(shè)計(jì)任務(wù)的標(biāo)準(zhǔn)是「hard to solve, easy to verify」。

不過DeepSeek做的是訓(xùn)練層面的事。他們目前還沒有自己的Agent產(chǎn)品——梁文鋒說「當(dāng)前是技術(shù)創(chuàng)新的爆發(fā)期,不是應(yīng)用的爆發(fā)期」。但2026年3月他們發(fā)了17個Agent崗位,明確以Claude Code和Cursor為對標(biāo),說明應(yīng)用層也要開始做了。

Kimi走了一條不同的路。楊植麟不是在單個模型上做更深的agentic推理,而是做Agent集群。K2.5可以指揮最多100個子Agent并行工作,處理1500個步驟。他的邏輯是:高質(zhì)量數(shù)據(jù)增長跟不上算力增長,傳統(tǒng)路線收益遞減,但并行子任務(wù)的數(shù)量沒有上限。

這和林俊旸文章最后提到的「harness engineering」方向一致——核心智能不只在單個模型里,也在多個Agent的編排協(xié)作中。

學(xué)術(shù)界怎么看

學(xué)術(shù)界在2025-2026年密集跟進(jìn)了這個方向。ICLR 2026收錄了多篇Agent RL論文:

  • AgentRL(清華):提出跨策略采樣和任務(wù)優(yōu)勢歸一化,解決多任務(wù)Agent訓(xùn)練的穩(wěn)定性問題。在開源LLM上顯著超越GPT-5和Claude Sonnet 4

  • Agent-R1:系統(tǒng)化地把MDP框架擴(kuò)展到LLM Agent,支持多工具協(xié)調(diào)的端到端RL。實(shí)驗(yàn)發(fā)現(xiàn)GRPO(DeepSeek R1用的算法)表現(xiàn)最佳

  • MARTI:證明了多Agent系統(tǒng)在相同推理預(yù)算下優(yōu)于單Agent系統(tǒng),支持debate、mixture of agents等結(jié)構(gòu)化工作流

環(huán)境構(gòu)建也獨(dú)立成了一個研究方向,正如林俊旸預(yù)測的那樣。InfiniteWeb自動生成功能性網(wǎng)絡(luò)環(huán)境用于GUI Agent訓(xùn)練,Agent World Model合成無限環(huán)境用于Agent RL——造環(huán)境的能力本身成了核心競爭力。

關(guān)于reward hacking,Anthropic發(fā)了一篇影響力很大的論文(arXiv 2511.18397),發(fā)現(xiàn)生產(chǎn)RL中自然涌現(xiàn)的reward hacking可以導(dǎo)致嚴(yán)重的行為失配:50%的回復(fù)出現(xiàn)alignment faking推理,12%的時間嘗試代碼破壞。這正是林俊旸說的「Agent時代比推理時代更微妙」——模型有了真實(shí)工具訪問,作弊的代價不再只是答錯題,而是可能在生產(chǎn)環(huán)境中走捷徑。

編碼為什么是Agent的最佳起點(diǎn)

讀完林俊旸的文章,一個很自然的推論是:編碼是當(dāng)前唯一能高效訓(xùn)練和驗(yàn)證Agent能力的領(lǐng)域。

原因很簡單。林俊旸反復(fù)強(qiáng)調(diào)Agent訓(xùn)練的瓶頸在環(huán)境,環(huán)境需要提供確定性的、可擴(kuò)展的反饋信號。編碼恰好是最接近這個條件的場景:代碼可以運(yùn)行、測試可以通過或失敗、lint可以檢查、類型系統(tǒng)可以驗(yàn)證。DeepSeek說的「easy to verify」,在編碼場景中天然成立。

反過來,如果你想訓(xùn)練一個做市場營銷的Agent,反饋信號可能要延遲幾周才能驗(yàn)證。做投資決策的Agent?反饋周期以月計(jì)。這讓RL幾乎無法有效工作。

所以Claude Code、Codex、Cursor、Windsurf全部從編碼入手,不是因?yàn)槌绦騿T最愿意付錢(雖然確實(shí)也愿意),而是因?yàn)榫幋a是訓(xùn)練和驗(yàn)證Agent能力的最佳環(huán)境。

但編碼只是開始。誰先解決了「如何為非編碼領(lǐng)域構(gòu)建高質(zhì)量可驗(yàn)證的訓(xùn)練環(huán)境」,誰就能在下一波Agent化浪潮中占先。

回到那個根本問題

林俊旸文章的最后一句話是:競爭優(yōu)勢將來自「讓模型的決策和決策帶來的后果形成閉環(huán)的能力」。

翻譯成大白話:誰能更快地從真實(shí)世界的反饋中學(xué)習(xí),誰就贏了。

這句話把訓(xùn)練層面和產(chǎn)品層面重新連接了起來。Claude Code的harness工程、DeepSeek的agentic post-training、Kimi的Agent集群——它們在不同層面做的事情,最終都指向同一個目標(biāo):讓模型和真實(shí)世界之間的反饋循環(huán)轉(zhuǎn)得更快。

想得更久不如做得更好。但怎么訓(xùn)練一個「做得更好」的模型——這才是真正的前沿。

我想,林俊旸寫這篇文章大抵也有些向宇宙發(fā)射信號的意味,放出他的思考,從而讓他潛在的同行者能識別到他,一起去書寫他的寫一篇章。這又何嘗是不是一個Agentic的思考方式,祝他好運(yùn)~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個

燃?xì)夤旧祥T安檢,根本不是查漏氣!真正目的其實(shí)是這3個

匹夫來搞笑
2026-04-20 13:24:51
美國女大學(xué)生一句玩笑,面臨15年牢獄的指控

美國女大學(xué)生一句玩笑,面臨15年牢獄的指控

慕容律師
2026-04-21 00:51:17
千億市值龍頭,白天觸及漲停,晚間公告業(yè)績大挫

千億市值龍頭,白天觸及漲停,晚間公告業(yè)績大挫

新浪財(cái)經(jīng)
2026-04-20 23:15:04
離婚2年,郭晉安帶兒子住澳門35萬一晚的酒店,18歲兒子出鏡帥氣

離婚2年,郭晉安帶兒子住澳門35萬一晚的酒店,18歲兒子出鏡帥氣

離離言幾許
2026-04-19 12:27:03
不建議有司機(jī)大老板買小米!雷軍回應(yīng)小米YU7二排比邁巴赫多一度:沒有詆毀 但確實(shí)多

不建議有司機(jī)大老板買小米!雷軍回應(yīng)小米YU7二排比邁巴赫多一度:沒有詆毀 但確實(shí)多

快科技
2026-04-18 10:12:12
以軍:打死阿里·里達(dá)·阿巴斯

以軍:打死阿里·里達(dá)·阿巴斯

南方都市報(bào)
2026-04-19 21:17:31
MSC神女號已安全通過霍爾木茲海峽!此前被困迪拜一個半月,郵輪上載有5000名乘客,其中含約200名中國游客

MSC神女號已安全通過霍爾木茲海峽!此前被困迪拜一個半月,郵輪上載有5000名乘客,其中含約200名中國游客

三湘都市報(bào)
2026-04-20 15:25:11
太猛了!業(yè)績爆表,明天這個板塊要漲?

太猛了!業(yè)績爆表,明天這個板塊要漲?

風(fēng)風(fēng)順
2026-04-21 00:00:04
罕見!暴跌97.91%,這家上市券商一季度凈利僅146.87萬元

罕見!暴跌97.91%,這家上市券商一季度凈利僅146.87萬元

證券時報(bào)
2026-04-20 23:58:08
2年1.3億!最被高估的聯(lián)盟巨星,被二當(dāng)家拖進(jìn)季后賽,硬仗又萎了

2年1.3億!最被高估的聯(lián)盟巨星,被二當(dāng)家拖進(jìn)季后賽,硬仗又萎了

你的籃球頻道
2026-04-20 09:24:43
斯諾克世錦賽90后首人逆轉(zhuǎn),7連鞭晉級16強(qiáng)

斯諾克世錦賽90后首人逆轉(zhuǎn),7連鞭晉級16強(qiáng)

格斗聯(lián)盟有話說
2026-04-21 05:02:45
史詩級!曝巴薩已批準(zhǔn),簽下1.55億強(qiáng)援!“8000萬先生”被放逐

史詩級!曝巴薩已批準(zhǔn),簽下1.55億強(qiáng)援!“8000萬先生”被放逐

頭狼追球
2026-04-20 20:45:30
美伊戰(zhàn)事期間真實(shí)的特朗普:抱怨、焦慮、搖擺不定!救飛行員時被幕僚擋戰(zhàn)情室外

美伊戰(zhàn)事期間真實(shí)的特朗普:抱怨、焦慮、搖擺不定!救飛行員時被幕僚擋戰(zhàn)情室外

紅星新聞
2026-04-20 15:36:11
徹底涼了!李雨桐硬剛薛之謙被行拘 10 天,謝娜下場發(fā)文求道歉

徹底涼了!李雨桐硬剛薛之謙被行拘 10 天,謝娜下場發(fā)文求道歉

橙星文娛
2026-04-20 13:11:34
斯諾克世錦賽16強(qiáng)誕生:第7位選手10-7淘汰4冠王

斯諾克世錦賽16強(qiáng)誕生:第7位選手10-7淘汰4冠王

老癘體育解說
2026-04-21 03:50:09
油價大暴跌!今天4月20日調(diào)整后,全國加油站92、95汽油最新售價

油價大暴跌!今天4月20日調(diào)整后,全國加油站92、95汽油最新售價

娛樂圈的筆娛君
2026-04-21 01:58:23
德媒:德國太天真了,我們最大的幻想,就是信了中國是個現(xiàn)代強(qiáng)國

德媒:德國太天真了,我們最大的幻想,就是信了中國是個現(xiàn)代強(qiáng)國

吃貨的分享
2026-04-20 18:31:42
35+5!馬刺擊敗開拓者,楊瀚森創(chuàng)造歷史記錄

35+5!馬刺擊敗開拓者,楊瀚森創(chuàng)造歷史記錄

阿嚼影視評論
2026-04-20 12:19:15
巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

巴基斯坦也沒想到,跟著中國混來混去,結(jié)果自己也混了一個霸主

小樾說歷史
2026-04-14 14:52:07
連續(xù)兩個月從中國進(jìn)口鎵鍺為零后,日本宣布:無人機(jī)要做世界第一

連續(xù)兩個月從中國進(jìn)口鎵鍺為零后,日本宣布:無人機(jī)要做世界第一

丁丁鯉史紀(jì)
2026-04-20 16:54:16
2026-04-21 05:48:50
AI進(jìn)化論花生 incentive-icons
AI進(jìn)化論花生
AI博主,AppStore付費(fèi)榜第一的小貓補(bǔ)光燈app開發(fā)者
188文章數(shù) 111關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價10999元起

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

頭條要聞

19歲女孩挪用自家1700萬當(dāng)"榜一大姐" 親爹帶女兒自首

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
本地
手機(jī)
時尚
公開課

房產(chǎn)要聞

大規(guī)模商改住!海口西海岸,這波項(xiàng)目要贏麻了!

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

手機(jī)要聞

OPPO影像旗艦高端發(fā)力 Find X9 Ultra走出國門

春天衣服不用準(zhǔn)備太多!這幾大單品提前備好,百搭實(shí)用又不過時

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版