国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

唐杰、楊植麟、林俊旸、姚順雨:他們眼中的 AGI 三個轉(zhuǎn)折點

0
分享至


出品|虎嗅科技組

作者|宋思杭

編輯|苗正卿

頭圖|AGI-Next前沿峰會現(xiàn)場

2026年1月10日下午,中關(guān)村國際創(chuàng)新中心,一場名為AGI-Next前沿峰會的閉門會議正在進行。

就在兩天前,港交所迎來了“全球大模型第一股”。而此刻,這家公司的核心人物之一,清華大學教授、智譜創(chuàng)始人兼首席科學家唐杰,已經(jīng)出現(xiàn)在北京的會場上。

這是智譜上市后的第三天。團隊連夜從香港返回北京,幾乎沒有留出任何“慶祝窗口期”。

這場由清華大學基礎(chǔ)模型北京市重點實驗室發(fā)起的會議,聚集了當下中國AI學術(shù)與產(chǎn)業(yè)最核心的一批人物:唐杰、月之暗面創(chuàng)始人兼CEO楊植麟、阿里Qwen技術(shù)負責人林俊旸、騰訊首席AI科學家姚順雨。

這場AGI學術(shù)會議沒有“應(yīng)用層”的喧鬧,討論全部指向一個更底層的問題:下一代通用人工智能,往哪走。

如果說在過去兩年,Scaling和Token是AGI領(lǐng)域中最經(jīng)常被提及的兩個關(guān)鍵詞,那么到今天,一些變量已經(jīng)開始發(fā)生。

首先是 Scaling。在大模型飛速演進的兩三年里,無論參數(shù)規(guī)模、算法路徑如何變化,“繼續(xù)Scaling”幾乎是所有討論的默認前提。但事實上,學術(shù)界對Scaling的質(zhì)疑從未真正消失,只是在最近半年變得更加集中。

唐杰并沒有否認繼續(xù)擴大模型規(guī)模的價值,但他的表述已經(jīng)明顯從“能不能繼續(xù)Scaling”,轉(zhuǎn)向了“是否值得繼續(xù)這樣Scaling”。

他直言,今天的問題不再是算力有沒有,而是“如果繼續(xù)投入,效率已經(jīng)變成瓶頸”。在他看來,當算力、數(shù)據(jù)和成本的投入不斷放大,但智能提升的增量卻持續(xù)變小,“Scaling也許是一個比較偷懶的方式”。

而當范式討論真正落到技術(shù)細節(jié)上,Token被反復推到臺前。

過去一年,作為大模型“六小龍”之一的月之暗面,幾乎將全部精力投入到如何用更少的Token壓低Loss上。在K2模型中,他們嘗試以線性注意力等新架構(gòu),盡可能提升Token efficiency。背后的邏輯并不復雜——在預(yù)訓練階段,Token本身是一個常量,一旦Token被“吃完”,模型的智能上限也隨之被鎖死。

也正因為如此,楊植麟在報告中反復強調(diào),Token efficiency已經(jīng)不只是“訓練效率”的問題,而是直接關(guān)系到模型還能走多遠。尤其是在Agent與長上下文任務(wù)逐漸成為主流之后,用更少的Token完成更復雜的任務(wù),正在成為一條繞不開的技術(shù)路徑。

最后,當模型能力與成本約束同時擺在桌面上,應(yīng)用方向的分化也變得不可避免。

姚順雨判斷,“toC和toB,正在走向兩套完全不同的邏輯。”他指出,在消費端,“模型變得更強,并不一定能被大多數(shù)用戶感知”,很多時候只是搜索體驗的增強;

但在toB場景里,“智能越高,生產(chǎn)力越高,值錢的也越多”,而且這種差距會隨著模型能力提升被不斷放大。正因為如此,強模型和“稍微弱一點的模型”之間,在企業(yè)端的分化會越來越明顯,這也在倒逼模型公司重新選擇自己的主戰(zhàn)場。

這場會議并沒有給出明確答案,但一些共識已經(jīng)逐漸成形。

在多位一線研究者的討論中,三條趨勢開始清晰浮現(xiàn):Scaling之后的新一代范式正在被迫成為新命題;Token效率正在上升為國內(nèi)大模型競爭的決定性因素;中美大模型正走在不同的演進路徑。

這三條趨勢,也是當下中國大模型產(chǎn)業(yè)無法回避的現(xiàn)實問題。

虎嗅注:以下三項趨勢為筆者基于唐杰、楊植麟的發(fā)言及圓桌討論內(nèi)容所作的綜合分析


趨勢一:Scaling 之外,新的范式正在成為新命題

在 AGI-Next 前沿峰會上,關(guān)于 Scaling 的討論,已經(jīng)明顯不再停留在“還要不要繼續(xù)做大模型”這一層面,而是被不斷推向一個更根本的問題:如果繼續(xù)投入,是否還值得?

唐杰并沒有回避 Scaling 仍然有效這一事實。他坦言,只要繼續(xù)擴大算力、數(shù)據(jù)與參數(shù)規(guī)模,模型能力依然會提升。但他隨即給出了一個更現(xiàn)實的判斷:真正的瓶頸,已經(jīng)不在于算力有沒有,而在于效率是否還劃算。

在這種語境下,唐杰將單純依賴 Scaling 形容為“一種相對偷懶的方式”。類似的質(zhì)疑并非只出現(xiàn)在國內(nèi)。OpenAI 聯(lián)合創(chuàng)始人 Ilya Sutskever 近年來也多次指出,當高質(zhì)量數(shù)據(jù)逐漸耗盡、訓練成本持續(xù)抬升,單純通過堆疊規(guī)模所獲得的智能增量正在迅速收窄,下一階段的突破,無法再僅靠“把模型做得更大”來實現(xiàn)。

這并非對過去路徑的否定,而是一種階段性的反思。過去幾年,大模型能力的躍遷,確實高度依賴參數(shù)規(guī)模與數(shù)據(jù)量的線性擴張;但當這一方法逐漸逼近邊界,繼續(xù)沿著同一方向前進,所能換取的,更多是成本的指數(shù)級增長,而非智能的同等躍遷。

正是在這樣的背景下,唐杰開始反復強調(diào)一個關(guān)鍵詞:效率。無論是模型架構(gòu)、訓練策略,還是強化學習與 Agent 環(huán)境的引入,核心目標都在于,用更少的投入,換取更高質(zhì)量的智能增量。在他的表述中,Scaling 不再是目標本身,而只是手段之一;真正需要被重新定義的,是智能是如何增長的。

而這種對“下一代范式”的焦慮,其實在硅谷早就傳來了。

在圓桌討論中,姚順雨將這一變化放進了更大的全球語境中。如果回看過去十年,OpenAI 實際上已經(jīng)先后推動了兩個重要范式:第一個是以預(yù)訓練為核心的通用模型范式,第二個是以對齊、推理和強化學習為代表的能力增強范式。

姚順雨表示,當下,越來越多的研究者開始將目光投向一個尚未被清晰定義的新范式,這個新范式的前提就是自主學習。

“在硅谷的大街小巷、咖啡館里,大家都在談自主學習。”姚順雨形容道。但他隨即指出,這個概念本身并不是一個統(tǒng)一的方法論,而更像是一組尚未被充分展開的問題集合。真正的瓶頸,并不在于有沒有新的算法技巧,而在于:數(shù)據(jù)從哪里來,任務(wù)如何定義。

在他的觀察中,自主學習其實已經(jīng)以非常“溫和”的方式發(fā)生著。ChatGPT 正在不斷擬合人類的聊天風格與表達習慣;Claude Code 已經(jīng)可以為自己寫出相當比例的代碼,在幫助自身系統(tǒng)變得更好。但這些變化之所以尚未顯得“石破天驚”,并不是因為方向錯誤,而是受限于一個現(xiàn)實條件——缺乏足夠強的預(yù)訓練能力與通用底座。

至于信號何時會真正出現(xiàn),姚順雨給出了一個相對克制的判斷:2026 年,可能會看到一些跡象,比如 Cursor 這類工具所展現(xiàn)出的變化。但他認為,更大的問題甚至不在技術(shù)本身,而在于想象力——如果真正意義上的自主學習出現(xiàn),它會長成什么樣?它的效果,應(yīng)該如何被驗證?

當被問及“下一個范式最有可能出現(xiàn)在哪家公司”時,姚順雨給出的答案依然是 OpenAI。盡管他也同時指出,其商業(yè)化進程正在不可避免地影響OpenAI的創(chuàng)新基因。

這樣的制衡關(guān)系,本身就是新范式在全球范圍內(nèi)都還遲遲未能清晰落地的重要原因之一。

林俊旸則從另一個角度補充道:用 AI 訓 AI在技術(shù)上很快就可以實現(xiàn),但真正困難的,是讓系統(tǒng)持續(xù)理解用戶本身。在他看來,如果自主學習只是停留在參數(shù)更新或模型自舉層面,意義有限;真正的挑戰(zhàn),在于讓模型在長期交互中形成穩(wěn)定、可演進的認知結(jié)構(gòu)。

這些討論最終指向一個尚未被回答的問題:當 Scaling 的邊際收益開始下降,自主學習仍然停留在早期信號階段,“新的范式究竟會在哪里率先成形?”

或者說,中國的大模型公司,是否有機會參與、甚至引領(lǐng)這一輪范式轉(zhuǎn)移?


趨勢二:Token效率愈加成為國內(nèi)大模型能力的決定性因素

如果說在 Scaling 逐漸逼近邊界之后,行業(yè)開始重新尋找“下一步往哪走”的答案,那么在這場會議上,一個更現(xiàn)實、也更具約束力的變量,被反復擺到了臺前:Token 效率。

“Token efficiency”幾乎是在楊植麟演講中最常被提及的概念。

他從第一性原理出發(fā),重新拆解了大模型能力增長的路徑。在他看來,從 2019 年至今,大模型始終遵循同一條基本邏輯:通過 Scaling Law,將更多算力、數(shù)據(jù)和參數(shù)轉(zhuǎn)化為更低的 Loss、更高的智能水平。但這一邏輯的隱含前提是,Token 可以被無限消耗。

而現(xiàn)實并非如此。

當預(yù)訓練 Token 被吃完,模型所能達到的智能上限,也就被提前鎖死了。這意味著,問題不再只是“用多少 Token”,而是每一個 Token 能換來多少有效智能。在他的表述中,Token efficiency 已經(jīng)不只是訓練效率的問題,而是直接決定模型還能走多遠的上限變量。

為了說明這一點,他引入了一個常被忽略的視角:在不同 Context 長度下,模型對 Token 的利用效率并不相同。在短上下文場景中,不同架構(gòu)之間的差異并不明顯;但當 Context 拉長到上千、上萬甚至數(shù)十萬 Token 時,Token 的位置損耗(position loss)開始顯著拉開差距。也正是在這里,Token efficiency 開始直接決定模型在復雜推理與 Agent 任務(wù)中的潛力。

正因如此,過去一年,月之暗面幾乎將所有核心工作都壓在token效率上,即用更少的 Token,做到更低的 Loss。在 K2 模型中,他們嘗試引入新的優(yōu)化器(muon優(yōu)化器)與架構(gòu)設(shè)計(linear attention),通過提升 Token efficiency,使模型在“用一半數(shù)據(jù)達到相同效果”的意義上,獲得等價于一次 Scaling 的收益。

楊植麟將這種效果直接類比為:“在Scaling的尺度下,用更少的參數(shù),就能得到更好的Scaling效果”

但他隨即強調(diào),這里的 efficiency,并不僅僅是“快”或“省”,而是智能上限本身。在 Agent 場景中,模型的推理和強化學習,本質(zhì)上是一個搜索過程;如果 Token 利用率不高,搜索空間就會迅速膨脹,模型需要枚舉大量無意義的組合,才能逼近正確答案。相反,更高的 Token efficiency,意味著更強的先驗,可以在有限 Token 內(nèi)完成更復雜的任務(wù)。

這也是為什么,在他的判斷中,Token efficiency 與長上下文能力并不是兩個獨立問題,而是需要被同時優(yōu)化的乘積變量——前者決定單位 Token 的價值,后者決定模型能否承擔真實世界中的長程任務(wù)。兩者疊加,才是 Agent 能力真正放大的基礎(chǔ)。

當 Scaling 不再是“無腦堆資源”的選擇,Token 效率便從工程細節(jié),上升為國內(nèi)大模型競爭中的結(jié)構(gòu)性約束。誰能在有限算力與數(shù)據(jù)條件下,更高效地“消耗 Token”,誰就更有可能在下一階段的模型競爭中占據(jù)主動。

而這一變化,也正在悄然重塑國內(nèi)大模型的技術(shù)路線選擇。


趨勢三:中美大模型正在走向不同的演進路徑

在唐杰、姚順雨、林俊旸等學者的討論中,一個反復被提及的問題是:中美大模型之間的差距,究竟體現(xiàn)在哪里?

姚順雨給出的判斷,并不是單一維度的“能力高低”,而是指向兩條正在逐漸分叉的演進路徑。

在他看來,美國的大模型發(fā)展,正在明顯向生產(chǎn)力與企業(yè)級場景集中,尤其是在 Coding 與 Agent 方向上,模型能力幾乎直接重塑了工作方式本身。比如工程師不再寫代碼,而是通過自然語言與系統(tǒng)協(xié)作。在這種語境下,模型能力與個體生產(chǎn)力被強綁定,模型是否“足夠強”,會直接影響工作結(jié)果本身。

也正是在這種背景下,美國市場對模型能力的價格容忍度明顯更高。姚順雨在討論中提到,許多用戶更愿意為成功率更高、不確定性更低的模型支付溢價。模型能力本身,在美國市場中更容易被直接視為一種“生產(chǎn)資料”。

相比之下,中國的大模型公司所面對的現(xiàn)實環(huán)境則明顯不同。一方面,國內(nèi)企業(yè)級市場對成本高度敏感,模型能力的邊際提升,并不總能順暢轉(zhuǎn)化為價格溢價;另一方面,大量 toB 場景本身仍高度碎片化,對模型的需求更多集中在穩(wěn)定性、可控性與交付效率上,而非單點的“最強智能”。

這使得模型在中國市場中,更像是一種被嵌入既有系統(tǒng)的基礎(chǔ)能力,而非可以獨立定價的生產(chǎn)力主體。

這種差異,并不僅體現(xiàn)在市場層面,也被進一步追溯到更底層的 Lab 文化上。

在姚順雨的觀察中,美國的大模型公司與研究機構(gòu),往往長期圍繞“前沿問題”運轉(zhuǎn)。研究團隊被鼓勵在較長周期內(nèi)投入到高風險、高不確定性的方向中,即便短期內(nèi)看不到明確的產(chǎn)品回報。這種文化,使得“把模型能力推到極限”本身,就具備持續(xù)獲得資源投入的正當性。

而在中國,大模型研發(fā)環(huán)境則更強調(diào)效率與反饋周期。或者用他的原話來說,“中國(的Lab)還是更喜歡做安全的事情?!?/p>

研究團隊往往需要在更短時間內(nèi)回應(yīng)明確的業(yè)務(wù)目標,模型能力的演進也更容易被拉回到“是否能落地、是否能規(guī)?;钡默F(xiàn)實約束之中。這并不意味著技術(shù)投入不足,而是 Lab 與產(chǎn)業(yè)之間的邊界更為緊密,研究方向更容易受到應(yīng)用場景的牽引。

此外,姚順雨還補充道,“中國對于刷榜或者數(shù)字更看重一些;而美國則并沒有那么看重,他們在意的有兩點,第一,什么是正確的事情;第二,什么是你自己能體驗出好或者不好的。”

這種 Lab 文化與市場結(jié)構(gòu)的疊加效應(yīng),最終放大了中美在模型演進路徑上的分化:在美國,更強的模型能力本身,就足以支撐持續(xù)投入與溢價定價;而在中國,模型能力往往需要先證明自身的可用性,才能獲得下一步資源配置。這也在某種程度上解釋了,為何中美大模型的差距,越來越少被簡單理解為“誰領(lǐng)先誰落后”,而更像是兩種現(xiàn)實條件下,被迫走出的不同路線。

本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4825356.html?f=wyxwapp

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
24歲上海工程師到阿聯(lián)酋出差,不小心碰落了一位當?shù)嘏康念^巾

24歲上海工程師到阿聯(lián)酋出差,不小心碰落了一位當?shù)嘏康念^巾

蘭姐說故事
2026-01-12 10:30:09
相聲演員笑林:不抽煙,不喝酒,一天100個俯臥撐,59歲驟然離世

相聲演員笑林:不抽煙,不喝酒,一天100個俯臥撐,59歲驟然離世

林雁飛
2026-01-10 15:24:20
黃進良已任湖南省殘聯(lián)黨組書記

黃進良已任湖南省殘聯(lián)黨組書記

三湘都市報
2026-01-12 10:49:28
鏈式崩塌:俄羅斯深陷烏克蘭泥潭,從加沙到德黑蘭

鏈式崩塌:俄羅斯深陷烏克蘭泥潭,從加沙到德黑蘭

高博新視野
2026-01-11 19:32:04
閆學晶慌了?圈內(nèi)大佬不再沉默下場表態(tài),馮鞏態(tài)度屬實令人意外

閆學晶慌了?圈內(nèi)大佬不再沉默下場表態(tài),馮鞏態(tài)度屬實令人意外

削桐作琴
2026-01-09 17:30:49
1968年,林彪想換北京軍區(qū)司令,毛主席只問了一句話,林彪徹底啞火

1968年,林彪想換北京軍區(qū)司令,毛主席只問了一句話,林彪徹底啞火

老杉說歷史
2026-01-09 22:00:17
關(guān)照縣委書記提拔省交通廳長,專題片披露海南省委原書記羅保銘培植“自己人”細節(jié)

關(guān)照縣委書記提拔省交通廳長,專題片披露海南省委原書記羅保銘培植“自己人”細節(jié)

澎湃新聞
2026-01-12 20:52:27
男孩打開冰箱,發(fā)生爆炸臉上縫了38針!這幾樣東西放冰箱要小心

男孩打開冰箱,發(fā)生爆炸臉上縫了38針!這幾樣東西放冰箱要小心

大果小果媽媽
2026-01-10 21:57:26
醫(yī)療機構(gòu)張貼告示稱“放棄低端患者”?負責人:屬實,為了保護自己!當?shù)匦l(wèi)健局已介入

醫(yī)療機構(gòu)張貼告示稱“放棄低端患者”?負責人:屬實,為了保護自己!當?shù)匦l(wèi)健局已介入

梅斯醫(yī)學
2026-01-12 19:21:14
1月13日起,“i茅臺”開搶陳年茅臺酒(15)

1月13日起,“i茅臺”開搶陳年茅臺酒(15)

每日經(jīng)濟新聞
2026-01-12 20:17:05
比“缺芯”還嚴重?90%市場被美日壟斷,中國連山寨版都造不出?

比“缺芯”還嚴重?90%市場被美日壟斷,中國連山寨版都造不出?

比利
2025-12-25 20:31:38
江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

江蘇12歲小學生家中自殺,遺書稱“寫不會英語單詞”,吞下姥姥100顆心臟病藥,媽媽起訴學校案件將二審

觀威海
2026-01-12 09:42:12
美烏擬簽8000億美元重建協(xié)議

美烏擬簽8000億美元重建協(xié)議

參考消息
2026-01-11 20:55:04
善惡終有報!鄭爽曬半臉照疤痕明顯被認出,試水失敗賬號被封禁

善惡終有報!鄭爽曬半臉照疤痕明顯被認出,試水失敗賬號被封禁

娛圈小愚
2026-01-11 10:28:58
女子上班不化妝,領(lǐng)導讓化一次妝上班覺得不是本人,評論區(qū)炸鍋!

女子上班不化妝,領(lǐng)導讓化一次妝上班覺得不是本人,評論區(qū)炸鍋!

觀察鑒娛
2026-01-12 09:06:07
13歲女孩冰窟救男童 中央政法委通報表揚

13歲女孩冰窟救男童 中央政法委通報表揚

環(huán)球網(wǎng)資訊
2026-01-12 17:27:23
中南建設(shè)集團裁員4萬人

中南建設(shè)集團裁員4萬人

地產(chǎn)微資訊
2026-01-12 17:03:09
巴薩29歲巨星上演征服:MVP+5連殺皇馬+進7球!佛爺欣賞

巴薩29歲巨星上演征服:MVP+5連殺皇馬+進7球!佛爺欣賞

葉青足球世界
2026-01-12 20:17:23
一位老人感嘆:人沒必要活得太長壽。60歲走,太年輕;70歲走,有點早;80歲去世,剛好合適。

一位老人感嘆:人沒必要活得太長壽。60歲走,太年輕;70歲走,有點早;80歲去世,剛好合適。

二胡的歲月如歌
2026-01-12 18:27:06
A股:今天,放量并未大漲,跡象表明了,不出所料,很可能這樣走

A股:今天,放量并未大漲,跡象表明了,不出所料,很可能這樣走

丁丁鯉史紀
2026-01-12 12:12:02
2026-01-12 22:12:49
虎嗅APP incentive-icons
虎嗅APP
個性化商業(yè)資訊與觀點交流平臺
25586文章數(shù) 687295關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達2026款上市

態(tài)度原創(chuàng)

健康
旅游
游戲
房產(chǎn)
軍事航空

血常規(guī)3項異常,是身體警報!

旅游要聞

冰上漁歌起 年味踏雪來 哈素海冬捕節(jié)解鎖青城跨年新玩法

任天堂正開發(fā)粉絲期待已久的熱門系列以及全新IP

房產(chǎn)要聞

重磅調(diào)規(guī)!417畝商改住+教育地塊!??谖骱0队忠l(fā)!

軍事要聞

官方確認:殲10CE在空戰(zhàn)中擊落多架戰(zhàn)機

無障礙瀏覽 進入關(guān)懷版