国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中國“AI四巨頭”罕見同臺,阿里、騰訊、Kimi與智譜“論劍”:大模型的下一步與中國反超的可能性

0
分享至

要點提煉:

  • 競爭坐標(biāo)遷移:Chat 時代的工程問題已基本解決,未來的勝負(fù)手不再是更聰明的“搜索框”,而是能否完成復(fù)雜、長鏈路的真實任務(wù)。AI 的核心價值正從“提供信息”轉(zhuǎn)向“交付生產(chǎn)力”。
  • 核心門檻更迭:Agent 的瓶頸不在于思維深度,而在于環(huán)境反饋。未來的訓(xùn)練范式將從人工標(biāo)注轉(zhuǎn)向 RLVR(可驗證強化學(xué)習(xí)),只有讓模型在具備明確對錯判定(如代碼、數(shù)學(xué)、真實業(yè)務(wù)流)的“關(guān)卡系統(tǒng)”中自我迭代,才能實現(xiàn)落地。
  • 效率成為新杠桿:高質(zhì)量數(shù)據(jù)即將枯竭,未來的競爭是“能源轉(zhuǎn)化效率”的競賽。通過二階優(yōu)化器和線性架構(gòu)實現(xiàn)更高的 Token Efficiency(單位數(shù)據(jù)學(xué)習(xí)效果),是在算力受限背景下突破智能天花板的關(guān)鍵。
  • 概率的清醒認(rèn)知:行業(yè)共識認(rèn)為中國在舊范式(工程復(fù)現(xiàn)、局部優(yōu)化、toC 落地)上的反超勝率很高,但在引領(lǐng)新范式(底層架構(gòu)革新、長期記憶等)上的勝率可能不超過 20%,因為美國在基礎(chǔ)研究上的算力投入高出數(shù)個量級。
  • 彎道超車的機會窗口:反超的機會藏在兩個變量里:一是當(dāng) Scaling Law 遭遇邊際效應(yīng)遞減,全球被迫進入“智能效率”競賽時,中國的節(jié)儉式創(chuàng)新可能突圍;二是隨著學(xué)術(shù)界算力條件的改善,2026 年前后可能出現(xiàn)由學(xué)術(shù)驅(qū)動的范式轉(zhuǎn)向。
  • 成功的終極變量:中國最缺的不是榜單分?jǐn)?shù),而是對不確定性的容忍度。真正的反超取決于我們是否敢于從“確定性的交付壓力”中抽身,將資源投向那些可能失敗但能定義未來的新范式,而非僅僅在舊賽道刷榜。

近日,由清華大學(xué)基礎(chǔ)模型北京市重點實驗室發(fā)起AGI-Next前沿峰會,把AI圈大半邊天聚到了一塊。基模四杰全員到場:智譜唐杰、Kimi楊植麟、阿里林俊旸,還有“突然貼臉跳屏”的姚順雨。


他們認(rèn)為,大模型競爭已從單純的“聊天(Chat)”能力和榜單分?jǐn)?shù),轉(zhuǎn)向能夠進入真實環(huán)境、可驗證并完成復(fù)雜任務(wù)的智能體(Agent)階段。行業(yè)普遍預(yù)計,2026年將不再是“更強模型之年”,而是模型真正跑通業(yè)務(wù)流程、創(chuàng)造商業(yè)價值的關(guān)鍵年份。

針對投資者最為關(guān)心的“中國能否反超”這一議題,峰會傳遞出的情緒冷靜而現(xiàn)實。盡管中國具備極強的工程復(fù)現(xiàn)與制造邏輯下的追趕能力,但多位核心人物將中國在下一代范式中領(lǐng)先的概率評估為不超過20%。這種謹(jǐn)慎源于中美在算力投入結(jié)構(gòu)上的本質(zhì)差異——美國傾向于投資“下一代研究”的高風(fēng)險探索,而中國目前的算力更多被交付與產(chǎn)品化占據(jù)。

從“更會聊”到“能做事”:評估坐標(biāo)發(fā)生質(zhì)變

大模型行業(yè)的評估坐標(biāo)系已發(fā)生根本性位移。唐杰表示,Chat這一代的問題已“差不多解決”,行業(yè)重心正從“更會聊天”轉(zhuǎn)向“能完成任務(wù)”。過去市場追逐的是模型在考卷上的“分?jǐn)?shù)”,而現(xiàn)在的核心指標(biāo)變成了在真實環(huán)境中的“跑通率”。

對于企業(yè)而言,AI如果僅是更聰明的搜索框,其價值有限;但如果AI能將任務(wù)執(zhí)行的成功率從偶然變?yōu)楸厝唬瑒t意味著生產(chǎn)力的質(zhì)變。因此,唐杰、楊植麟等四位行業(yè)領(lǐng)袖達(dá)成共識:AI正在從Chat走向Thinking、Coding與Agent。

在這一階段,RLVR(可驗證強化學(xué)習(xí))成為關(guān)鍵技術(shù)路徑。唐杰強調(diào),在數(shù)學(xué)、編程等結(jié)果可判定的領(lǐng)域,模型可以通過閉環(huán)自我探索;但在網(wǎng)頁交互等復(fù)雜任務(wù)中,“可驗證空間”稀缺。未來的競爭門檻,不是讓模型多想幾步,而是建立足夠復(fù)雜、真實且可判分的“關(guān)卡系統(tǒng)”,讓模型在其中通過“刷經(jīng)驗”實現(xiàn)迭代。

商業(yè)化分歧:ToB的高溢價與垂直分層

隨著技術(shù)重點轉(zhuǎn)向Agent,商業(yè)化路徑也出現(xiàn)了明顯的分化。姚順雨指出,toC與toB的邏輯將漸行漸遠(yuǎn)。在toC市場,用戶體驗的提升并不必然帶來留存提升;但在toB市場,企業(yè)最恐懼的不是慢,而是“錯且不可控”。

此外,行業(yè)對“垂直整合”的看法也在修正。姚順雨觀察到,在toB領(lǐng)域,模型層偏向“硬核工業(yè)化”,拼的是預(yù)訓(xùn)練與算力;而應(yīng)用層偏向“業(yè)務(wù)工程化”,拼的是流程與交付。這導(dǎo)致未來toB市場可能走向分層結(jié)構(gòu):最強的模型配合最懂場景的應(yīng)用團隊,而非單純的“模型即產(chǎn)品”。這對中國公司是一個警示:不能只盯著榜單,而需關(guān)注在具體業(yè)務(wù)鏈路中的落地與迭代能力。

中國反超的概率:樂觀預(yù)期下的結(jié)構(gòu)性瓶頸

關(guān)于“中國領(lǐng)先概率”的討論,峰會呈現(xiàn)出一種“結(jié)構(gòu)性冷靜”。盡管市場熱衷于討論“崛起”與“占榜”,但林俊旸等業(yè)內(nèi)人士將中國領(lǐng)先新范式的概率上限壓至20%。

這種謹(jǐn)慎評估基于中美在算力使用上的結(jié)構(gòu)性差異:

  • 投入方向差異: 美國將大量算力投向“下一代Research”,具備高容錯率,旨在賭未來;中國則將大量算力用于交付與產(chǎn)品化,旨在“先活下來”。
  • 范式話語權(quán): 姚順雨指出,中國在復(fù)現(xiàn)與工程化上極強,一旦路徑被證明可行,能迅速做得更好(如制造業(yè)、電動車邏輯)。但真正的難點在于能否引領(lǐng)如長期記憶、自主學(xué)習(xí)框架等“新范式”,而不是在舊范式里“刷榜”。

算力瓶頸、軟硬生態(tài)的完善度,以及toB市場的付費意愿,構(gòu)成了制約中國模型發(fā)展的“三道門檻”。如果生態(tài)系統(tǒng)只獎勵確定性的榜單數(shù)字,而將冒險精神擠出組織結(jié)構(gòu),那么反超將難以實現(xiàn)。

以下為演講全文,由量子位整理:

唐杰
我的題目是「讓機器像人一樣思考」。
2019年,我們在清華的支持下完成成果轉(zhuǎn)化,成立了智譜。
同一時期,我們也持續(xù)推動開源,既有模型和工具層面的項目,也有面向開發(fā)者的大模型 API 體系。
我在清華待了將近二十年。
回頭看,我做的事情其實很簡單,主要就兩件:
一是早年做AMiner;二是大模型。
有一個對我影響很深的觀念,我稱之為「像喝咖啡一樣做研究」。這件事和今天在座的一位嘉賓密切相關(guān)——楊強教授。
剛畢業(yè)那會兒我去港科大,學(xué)校幾乎所有空間都在一棟樓里:教室、實驗室、會議室、咖啡廳都在一起。
有一次在咖啡廳遇到楊老師,我說最近咖啡喝得有點多,可能該戒一戒。
他先說「對,應(yīng)該戒一戒」,接著又說,如果我們做研究也能像喝咖啡一樣上癮,那研究大概就真的能做好了。
這句話對我觸動很大,從2008年一直影響到現(xiàn)在。
做研究,本質(zhì)上需要長期專注和持續(xù)投入。AGI正是這樣一件事,它并不追求短期見效,而是一項多年投入的工程。
2019 年,我們實驗室在圖神經(jīng)網(wǎng)絡(luò)和知識圖譜方向已經(jīng)有一定國際影響力,但當(dāng)時還是下定決心階段性按下暫停鍵,幾乎所有人都轉(zhuǎn)向大模型相關(guān)研究。到今天,算是做出了一點點成果。
如果從大模型的發(fā)展軌跡來看,用「智能水平」來描述會比較直觀。
2020年前后,模型主要解決的是MMU、QA等相對簡單的問題;到2021、2022 年,開始進入數(shù)學(xué)計算和基礎(chǔ)推理階段;通過后訓(xùn)練,這些能力逐步被補齊。
到2023、2024年,模型從知識記憶走向復(fù)雜推理,甚至可以處理研究生層級的問題,并開始在SWE-bench這類真實世界編程任務(wù)中表現(xiàn)出可用性。
這個過程很像人的成長:從閱讀、算術(shù),到更復(fù)雜的推理,再到走向真實工作場景。
今年開始,大家也看到 HLE,也就是「人類終極測試」,其中不少問題連搜索引擎都無法直接給出答案,要求模型具備更強的泛化能力。
如何解決,目前仍然沒有確定答案,但可以確認(rèn)的是,到2025年,模型的整體能力仍在快速提升。
從另一個角度看,一個核心問題是:模型如何從Scaling走向真正的泛化能力。
人類一直期待機器具備泛化能力。教它少量例子,就能舉一反三,解決更多甚至未見過的問題。
這和我們教孩子的期望一致:學(xué)會三個問題,就能解出第四個、第十個,甚至超出原本教學(xué)范圍。
當(dāng)前的路徑,是希望通過Scaling提升這種泛化能力。但客觀來說,模型的泛化水平仍有很大提升空間,我們只能在不同層面持續(xù)推進。
最早期的階段,是用Transformer訓(xùn)練模型,通過大規(guī)模數(shù)據(jù)和算力,把大量知識「記住」。
第二個階段,是對模型進行對齊和推理能力強化,讓它更好地理解人類意圖,并完成更復(fù)雜的推理任務(wù)。
這需要持續(xù)ScalingSFT,甚至引入強化學(xué)習(xí)。通過大量人類反饋數(shù)據(jù),不斷擴大反饋規(guī)模,使模型更準(zhǔn)確、更可靠。
今年一個重要變化是RLVR。
過去強化學(xué)習(xí)難以大規(guī)模推進,核心原因在于依賴人類反饋,而人類反饋存在噪音大、覆蓋場景有限的問題。如果引入可驗證環(huán)境,模型就可以自主探索、自動獲得反饋,在閉環(huán)中持續(xù)成長。
但這里的難點也非常明顯。所謂「可驗證」,在數(shù)學(xué)、編程等領(lǐng)域相對容易定義;可一旦擴展到更廣泛的任務(wù),比如網(wǎng)頁是否美觀、交互是否合理,仍需人工判斷。
因此,當(dāng)前RLVR面臨的挑戰(zhàn)在于:可驗證場景正在逐漸耗盡。接下來是否能進入半自動驗證,甚至不可驗證的任務(wù)空間,讓模型能力繼續(xù)泛化,這是一個關(guān)鍵問題。
再往前看,當(dāng)機器開始進入物理世界、執(zhí)行真實任務(wù)時,如何構(gòu)建智能體的環(huán)境、如何設(shè)計反饋機制,會帶來更多挑戰(zhàn)??梢钥吹?,AI的發(fā)展已經(jīng)不再局限于單一模型或Transformer結(jié)構(gòu),而是在演變?yōu)橐粋€復(fù)雜的、系統(tǒng)化的智能體系。
從能力結(jié)構(gòu)上看,模型最初集中在數(shù)理化等推理任務(wù),從小學(xué)、初中、高中層級,逐步提升到GPQA等高難度理化生問題,再到接近奧賽金牌水平。今年HLE這一極高難度的智能評測基準(zhǔn),也開始出現(xiàn)明顯進展。
在真實環(huán)境中,代碼能力是另一個典型例子。2021年已經(jīng)存在代碼模型,當(dāng)時也和俊旸、Kimi植麟等有過合作,那一階段模型具備基礎(chǔ)編程能力,但成功率和穩(wěn)定性有限,往往寫十個程序才能跑通一個。
如今情況發(fā)生了明顯變化,模型在復(fù)雜任務(wù)中往往可以一次性跑通,已經(jīng)開始實質(zhì)性地輔助高級工程師完成更復(fù)雜的工程工作。
很多人會問,智能不斷增強,是否只要持續(xù)把模型訓(xùn)練下去就可以了?
DeepSeek橫空出世,當(dāng)時我們在內(nèi)部反復(fù)討論一個問題:
Chat這一代問題基本已經(jīng)被解決得差不多。繼續(xù)優(yōu)化,大概率也只是做到性能接近,或在個性化、情感化上做一些改進。從整體范式看,空間正在迅速收斂,剩下更多是工程和實現(xiàn)層面的挑戰(zhàn)。
這迫使我們思考下一步方向。我們的判斷是,新的范式不再只是「對話」,而是讓每個人真正用AI完成一件具體的事情。
從Chat走向做事,這是一個明顯的轉(zhuǎn)折點。
當(dāng)時擺在我們面前的,主要有兩條思路:一條是圍繞Thinking能力,結(jié)合Coding與Agent;
另一條是讓模型更深度地與環(huán)境交互,用AI直接輔助研究,例如DeepResearch,生成復(fù)雜研究報告。這是一次取舍。
我們最終優(yōu)先選擇了前一條路徑,強化Thinking能力并引入Coding場景,同時并未完全放棄與環(huán)境交互的方向。
7月28日,我們做了一次嘗試,將Coding、Agentic和Reasoning能力整合在同一個模型中。
在7月28日發(fā)布的4.5版本中,我們用12個Benchmark做了系統(tǒng)評測,在智能體、推理和代碼任務(wù)上取得了當(dāng)時相對領(lǐng)先的結(jié)果。
隨后我們很快將4.5開放給用戶使用,讓大家在真實場景中編程。
問題很快暴露出來。比如有用戶希望一句話生成一個可玩的植物大戰(zhàn)僵尸游戲,包含完整界面、交互邏輯、得分機制和后臺系統(tǒng)。4.5在這類真實復(fù)雜環(huán)境中頻繁出Bug,難以完成任務(wù)。
這正好指向RLVR可驗證強化學(xué)習(xí)的價值。我們構(gòu)建了大量真實編程環(huán)境,將其作為強化學(xué)習(xí)的可驗證反饋源,同時結(jié)合SFT數(shù)據(jù)進行雙向優(yōu)化,使模型在真實交互中逐步提升穩(wěn)定性。
類似的方法也被引入到Web場景中,通過Web環(huán)境反饋增強可驗證性。
在這一策略下,我們在SWE-bench等真實世界評測中取得了較好的成績,近期也持續(xù)保持不錯表現(xiàn)。
但Benchmark成績并不等同于主模型能力。如何將這些能力可靠地回灌到主模型,仍是一個巨大挑戰(zhàn)。很多模型在單項Benchmark上表現(xiàn)突出,但用戶真實體感未必提升。
另一個挑戰(zhàn)在于訓(xùn)練體系本身。RL任務(wù)種類多樣,序列長度和時間尺度差異極大,難以統(tǒng)一調(diào)度。為此,我們開發(fā)了一個全異步強化學(xué)習(xí)訓(xùn)練框架,使不同任務(wù)能夠并行運行、動態(tài)收斂。這一框架也在今年完成了開源。
在此基礎(chǔ)上,Agent和Coding能力獲得了明顯提升。近期發(fā)布的4.7版本,相比4.6和4.5,在這兩個維度上都有顯著進步。
體感評估同樣關(guān)鍵。真實用戶并不關(guān)心模型分?jǐn)?shù),而關(guān)心自己的程序能否跑通、結(jié)果是否可靠。為此,我們組織了大量人工評測,邀請經(jīng)驗豐富的工程師對真實編程任務(wù)進行主觀評估。目前仍有不少問題有待解決,但方向已經(jīng)逐漸清晰。
在整合這些能力之后,到2025年底,我們在ArtificialAnalysis榜單上取得了一個相對不錯的綜合成績,算是階段性的結(jié)果。
再往前一步,當(dāng)模型真正進入Agent環(huán)境并嘗試大規(guī)模落地時,問題會變得更加復(fù)雜。
可以把Agent的最基礎(chǔ)能力理解為編程。程序?qū)懞煤蠹纯蓤?zhí)行,對應(yīng)到Agent中就是一個或幾個action。但當(dāng)任務(wù)復(fù)雜度繼續(xù)提升,就會出現(xiàn)完全不同的形態(tài)。
左邊是Claude提出的computer use,中間是豆包的手機Agent,右邊是Manus所做的異步、超長鏈路任務(wù)。
如果你希望AI完成幾十步、上百步的任務(wù),比如全天候監(jiān)控小紅書上關(guān)于清華大學(xué)的討論,自動整理主題并生成文檔,這類任務(wù)本質(zhì)上是完全異步的,也極其復(fù)雜。它不可能依賴人工盯著設(shè)備執(zhí)行,更接近于一種Device use層面的能力。
這類問題帶來的更大挑戰(zhàn),并不完全在于數(shù)據(jù)規(guī)模。很多應(yīng)用場景本身幾乎沒有現(xiàn)成數(shù)據(jù),更多是代碼邏輯,典型的冷啟動問題。
早期我們確實采集并整合了大量數(shù)據(jù),通過SFT和特定領(lǐng)域的強化學(xué)習(xí),在部分場景中取得了較好效果,但很快會發(fā)現(xiàn)一個現(xiàn)實問題:傳統(tǒng)的iphone use或手機交互,本質(zhì)是點按鈕,而AI的交互對象并非人。
如果從系統(tǒng)角度看,AI并不需要操作手機界面,最理想的方式是直接調(diào)用API。但現(xiàn)實是,設(shè)備不可能完全API化,GUI依然存在。
這就需要一種混合方案。在對AI友好的場景下,優(yōu)先采用API;在對人友好的場景下,讓AI模擬人完成GUI操作。通過將API與GUI結(jié)合,我們在大量真實環(huán)境中采集交互數(shù)據(jù),并進行全異步強化學(xué)習(xí),使模型逐步獲得一定程度的泛化能力。
需要強調(diào)的是,這種泛化能力仍然非常有限,與理想狀態(tài)存在明顯差距,但已經(jīng)具備初步遷移和適應(yīng)能力。
冷啟動帶來的另一個問題,是強化學(xué)習(xí)本身的風(fēng)險。如果數(shù)據(jù)不足,模型容易在強化過程中陷入局部最優(yōu),表現(xiàn)為策略固化、路徑收窄,最終整體效果偏移。
為應(yīng)對這一問題,我們在訓(xùn)練過程中引入交替機制,在強化學(xué)習(xí)過程中周期性插入SFT,用以校正方向、恢復(fù)多樣性,使模型具備一定的容錯能力和回拉能力,從而形成可擴展的訓(xùn)練范式。
在移動端環(huán)境中,這一策略已經(jīng)在安卓場景下取得了相對明顯的效果提升。
另外在多任務(wù)的大模型強調(diào)學(xué)習(xí)上,我們也做了一定的工作,在算法上主要采用多輪的強化學(xué)習(xí),工程上本質(zhì)上就是Scaling,讓它更大規(guī)模的往下。
今年我們大概在12月份的時候開源了AutoGLM,把里面所有的東西都開源。這個模型是9B模型,可以在人機交互里面動作特別快。
我們在9B規(guī)模的模型上引入了大量Agent相關(guān)數(shù)據(jù),模型在Agent任務(wù)上的能力顯著增強,但原有的一部分通用語言能力和推理能力會出現(xiàn)下降。它不再是一個完全通用的模型,而是更偏向Agent取向。
在未來更大規(guī)模的Agent模型中,如何在強化Agent能力的同時,避免損害通用能力,這是一個需要解決的問題。
2025年也是GLM的開源年。從1月到12月,我們陸續(xù)開源了多條模型線,涵蓋語言模型、智能體模型以及多模態(tài)模型,包括GLM-4.6、4.6V、4.5V等一系列版本。
在Artificial Analysis榜單上,前五名中的藍(lán)色模型幾乎全部來自中國,說明中國在開源大模型領(lǐng)域已經(jīng)形成了非常顯著的影響力。
下面一個問題,我們還能否繼續(xù)Scaling?下一個AGI范式可能是什么?同時也面臨更多現(xiàn)實挑戰(zhàn)。
在開源取得進展之后,容易產(chǎn)生一種樂觀情緒,覺得中國大模型已經(jīng)在某些維度上超過了美國。但差距未必在縮小,甚至可能在擴大。
下一步我們應(yīng)該怎么做?
從大模型的發(fā)展路徑看,它本質(zhì)上一直在借鑒人腦認(rèn)知的學(xué)習(xí)過程。最早階段,是把世界的長期知識盡可能「背下來」,就像孩子先大量閱讀;隨后逐步學(xué)會推理、數(shù)學(xué)、抽象與演繹。
這條主線仍然成立,有幾類能力,人類顯著領(lǐng)先于當(dāng)前模型,可能是新的突破方向。
第一,多模態(tài)。
人通過視覺、聽覺、觸覺等多種輸入形成整體認(rèn)知,感統(tǒng)能力不足會直接影響判斷和行動。
模型如何建立類似的多模態(tài)「感統(tǒng)」機制,也就是原生多模態(tài),是一個關(guān)鍵方向。
第二,記憶與持續(xù)學(xué)習(xí)。
人類具備多層級記憶結(jié)構(gòu),包括短期記憶、工作記憶和長期記憶。
進一步看,個體的長期記憶本身也并不等同于「知識」。只有當(dāng)知識被記錄,才會真正進入人類文明的長期記憶體系。
未來如何從個體記憶擴展到群體級、文明級的記憶結(jié)構(gòu),并將其納入模型可持續(xù)學(xué)習(xí)框架,是一個重要問題。
第三,反思與自我認(rèn)知能力。
當(dāng)前模型已經(jīng)具備初步的反思能力,但更深層次的自我認(rèn)知仍然存在巨大爭議。學(xué)界對此分歧明顯,有人支持,有人反對。我個人傾向于認(rèn)為,這是有可能的,值得探索。
人類認(rèn)知是雙系統(tǒng),系統(tǒng)一和系統(tǒng)二。
系統(tǒng)一完成了95%的任務(wù),比如「你今晚吃飯嗎」,隨口回答「吃」,這些是系統(tǒng)一背下來的。
系統(tǒng)二只在更復(fù)雜的情境中啟動,占比大約5%。
對于大模型來講同樣的道理,我們在2020年畫過一張參考人類認(rèn)知的AI系統(tǒng)結(jié)構(gòu)圖:系統(tǒng)一、系統(tǒng)二,再加一個自學(xué)習(xí)模塊。
引入「自學(xué)習(xí)」的想法,主要基于三點。
第一,系統(tǒng)一可以對應(yīng)一個大規(guī)模模型,讓它通過模式匹配與知識提取,覆蓋大量常見問答與常規(guī)任務(wù)。
第二,系統(tǒng)二可以對應(yīng)更強的知識融合與推理機制,例如指令微調(diào)、思維鏈等,使模型能處理更復(fù)雜的推理與決策。
第三,人腦在睡眠中會發(fā)生無意識的整合與鞏固,如果缺少睡眠,人并不會變得更聰明。
對應(yīng)到今天的路徑,可以把其三類Scaling。
第一,Scaling數(shù)據(jù)與模型規(guī)模,提升智能上限。
第二,Scaling推理,讓思考時間更長,用更多計算與搜索找到更優(yōu)解。
第三,Scaling自學(xué)習(xí)環(huán)境,讓模型有更多與外界交互的機會,從環(huán)境中獲得反饋。
通過這三個Scaling,可以讓機器來參考人的學(xué)習(xí)范式,學(xué)到更多。
對于系統(tǒng)一來說,既然已經(jīng)有了Transformer,是否意味著只要不斷加數(shù)據(jù)、加參數(shù)就夠了?
但我們現(xiàn)在面臨一個問題,Transformer的計算復(fù)雜度接近O(N2),context越長,顯存開銷越大,推理效率下降越明顯。
最近有一些新型模型,例如用線性復(fù)雜度處理長序列的模型,嘗試像人腦一樣,用更小的「容量」承載更大的知識量。
但最近我也在反思,我們能不能找到更好的壓縮方法,把知識壓縮到更小的空間里面。這會帶來兩類問題。
第一,工程上能否做到?
第二,方法論上能否做到?
最近很多人在探討,大模型要回歸到研究上,不能單純的Scaling。Scaling是一個很好的辦法,但也是一個偷懶的辦法,
關(guān)鍵在于找到一個新范式,讓這個機器可以獨立Scaling。自己來定義獎勵函數(shù)、交互方法、甚至訓(xùn)練任務(wù)來做Scaling。
在具備上述兩點之后,還要面對真實世界的超長任務(wù)。要讓這個機器有像人一樣規(guī)劃,做一下,檢查一下,再反饋一下。
網(wǎng)上已經(jīng)有一些嘗試,這個idea是模型生成,實驗也是模型做的,報告也是模型做的,最后可以做一個Wordshop,但事實上還沒有做出來。
給出我們的一些思考:
大模型之前,大部分機器學(xué)習(xí)都是F-X到Y(jié)的映射,我學(xué)習(xí)一個函數(shù),使得X樣本可以映射到Y(jié)。
大模型來了之后,把這個問題變成F-X到X的映射,可也不是嚴(yán)格的X,但要讓它完全用自監(jiān)督來做多任務(wù)的自學(xué)習(xí)。
在第二層,我們通過引入更多數(shù)據(jù),讓模型學(xué)會推理,學(xué)會如何激活更底層的智能能力。
再往后,是讓模型具備自反思與自學(xué)習(xí)能力。通過持續(xù)的自我評估與自我批判,模型能夠逐步分辨哪些行為是有效的,哪些路徑還有優(yōu)化空間。
到未來,還希望模型進一步發(fā)展出更高層次的能力,例如自我認(rèn)知。
還要教這個機器能學(xué)習(xí)到更多,比如說能學(xué)習(xí)到自我認(rèn)知,讓這個機器能對自己的行為,比如說AI生成了大量的內(nèi)容可以自我解釋,我為什么要生成這個內(nèi)容,我是什么,我的目標(biāo)是什么,在終極上也許有一天,AI也有意識。
我們大概有這么定義五層的思考
計算機有三個能力:計算、編程、搜索。這三個能力疊加在一起,可能能帶來所謂的「超級智能」。
我常常會想起2019年的一件事。當(dāng)時和阿里巴巴合作,對方希望我用一頁PPT描述未來的方向,我給出的那一頁叫作「AGI-Next30」,討論的是未來30年我們應(yīng)該做什么。
回到今天看,推理能力已經(jīng)取得了一定共識和進展;記憶能力開始顯現(xiàn)雛形,但仍然有限;意識仍然處在探索階段。這也是我們持續(xù)投入的方向。
再往前看,如果繼續(xù)參考人類認(rèn)知,未來AI可能需要回答更根本的問題:什么是「我」,為什么是「我」;如何為模型構(gòu)建意義系統(tǒng);單個智能體的目標(biāo)是什么;多個智能體作為群體時目標(biāo)如何協(xié)調(diào)。通過這些問題,AI才有可能走向?qū)ξ粗某掷m(xù)探索。
有人會認(rèn)為這些問題過于遙遠(yuǎn),甚至不可能。但從人類自身來看,文明的終極動力正是不斷探索未知。那些看似不可能的方向,往往正是通往AGI道路上值得被認(rèn)真對待的探索目標(biāo)。
對我個人而言,2026年更重要的是專注,以及去做一些真正新的事情。
第一,Scaling仍然會繼續(xù),但需要區(qū)分兩種不同方向。一種是Scaling已知路徑,通過不斷增加數(shù)據(jù)和算力,持續(xù)探索能力上限;另一種是Scaling未知路徑,也就是尋找尚未明確的新范式。
第二,技術(shù)創(chuàng)新將變得更加關(guān)鍵。我們會推進全新的模型架構(gòu)探索,重點解決超長上下文、高效知識壓縮等問題,并進一步實現(xiàn)知識記憶與持續(xù)學(xué)習(xí)能力。
第三,多模態(tài)感統(tǒng)會成為今年的重點方向。具備這種能力之后,AI才能在真實工作環(huán)境中執(zhí)行長鏈路、長時效任務(wù),例如在手機、電腦等設(shè)備上持續(xù)協(xié)作。
同時,我也判斷今年很可能會成為AI for Science的重要突破年份。隨著多項基礎(chǔ)能力的提升,AI能夠參與的科研任務(wù)范圍將顯著擴大,也將打開更多新的可能性。
楊植麟
從2019年到現(xiàn)在所有的大模型基本上基于同一個第一性原理,Scaling Law,也是把能源轉(zhuǎn)化成智能的一個視角。
如果有更好的方法,或者更好的芯片,其實可以把能源更好和更多轉(zhuǎn)化成更高級的智能。
有更多的算力、數(shù)據(jù)、模型參數(shù)之后,你的模型的loss可以線性下降,這是整個技術(shù)發(fā)展的基礎(chǔ)。
最早提出來的Scaling Law的這篇文章,里面對比了Transformer和Lstm在Scaling Law意義下的的區(qū)別,很有意思。
不管是在什么樣的參數(shù)量下,Transformer的Loss都會比LSTM更低,也就是在Scaling Law的尺度下,可以用更少的FLoss或者更少的參數(shù),就能得到更好的Scaling效果。
后面Transformer成為主流架構(gòu)的一個核心原因,是因為它在Scaling Law上有更好的表現(xiàn)。
今天所有的模型架構(gòu)的迭代,其實都是為了尋找一條線能夠更接近左下角。如果你的網(wǎng)絡(luò)架構(gòu)越接近左下角,其實你就是更好的網(wǎng)絡(luò)架構(gòu)。
在當(dāng)前的情況下,它會變的更有意義?;ヂ?lián)網(wǎng)上的存量數(shù)據(jù)是有限,它是一個有限集合,高質(zhì)量的數(shù)據(jù)增長速度其實是趕不上這個模型迭代的速度,所以當(dāng)你有一個越靠左下角的象限的時候,你的智能上限就會更高。
但是,很多人可能會忽略,為什么Transformer會更好。關(guān)鍵在于Token efficiency。
什么是Token efficiency呢?比如說當(dāng)你給一個一百K的上下文,你會去數(shù)里面第一、第二、第三、第四一到第一百個Token的log是什么,比如說還是loss,但是它是一個position loss,因為你的橫坐標(biāo)是你的Token efficienc,表示你在這個序列里面到底是第幾個Token。
你可以看到在最前面的一百個Token里面,Transformer和LSTM完全一樣的,基本上這兩條線是交錯在一起。就是說當(dāng)你在很短的Context的時候,你去預(yù)測接下來的Context會變成什么樣,基本上是相等的效果。
所以在一百很短的Context下面,其實Transformer并不是一個更好的架構(gòu)。但是更好的架構(gòu)體現(xiàn)在當(dāng)你的Context非常長的時候,Transformer顯著的比LSTM更好。
這也是另外一個視角拆解它是一個很重要的指標(biāo)。
在不同的Context長度下,你的優(yōu)勢有多大。這個問題在Agentic時代會變的非常重要,因為很多agent的任務(wù)要求非常長的長上下文,你要問題很復(fù)雜的任務(wù),所以當(dāng)你一個架構(gòu)有更低的position loss,說明它在做Agent任務(wù)的時候,會有好的多的技術(shù)上的潛力。
我們預(yù)訓(xùn)練策略或者模型設(shè)計策略,圍繞剛剛兩個維度做。
第一個是Token efficiency,我們希望做的事情是盡可能把這條線往左邊平移,當(dāng)你越往左邊移動的時候,你的Token efficienc就越高,意味著你可以用盡可能少的Token得到一樣的效果。
當(dāng)你的整個預(yù)訓(xùn)練Token不夠用的時候,Token是常量,吃完所有Token的時候你的智能上限更高,因為你的Loss更低,這是我們做預(yù)訓(xùn)練很重要的指標(biāo)和優(yōu)化方向。
第二個方向是Long context。
今天非常復(fù)雜的任務(wù),必須在超長的Context下才能夠完成。是因為延長了Context之后,Loss必然是下降,而且只有一個好的Agentic才能下降的更多,如果你是LSTM、CNN、RNN這種架構(gòu),到一百Token就停了。
可以做簡單的做翻譯的任務(wù),但是你永遠(yuǎn)做不了一個編程任務(wù),沒有辦法從零到一實現(xiàn)一個代碼庫的編寫。這是我們整體的優(yōu)化,Token efficienc再乘以Long Context兩個東西,最終就可以做到非常好的agent智能。
所以在這里面有兩個主要的工作,第一個是米用MUON優(yōu)化器,是工業(yè)界二階優(yōu)化器,傳統(tǒng)的是十幾年前,2014年Adam優(yōu)化器提出之后,它做標(biāo)志性的一階優(yōu)化器?;旧嫌昧耸甑臅r間,可能主流大模型都是基于Adam訓(xùn)練。
但是我們發(fā)現(xiàn)可能基于MUON二階優(yōu)化器,它的效果會非常好,好的體現(xiàn)在它有兩倍的Token efficienc的提升,當(dāng)你看這兩條線的時候,只用50%的數(shù)據(jù)就可以達(dá)到一樣的Test Loss,等價的話是如果用一樣的數(shù)據(jù),你的Loss小或多,就會有一倍的Scaling的效果。
右邊是我們最新研究的kimi Linear的架構(gòu),當(dāng)你的這條線拉長的時候,降低的幅度是非常大的,也就是你在Long Context等各種任務(wù)上的效果會顯著的變好。最后是這兩個東西乘起來,我們認(rèn)為在模型的訓(xùn)練策略上,可以達(dá)到最好的agent的效果。
這些都是為了做出來更好的agent,為什么要Token efficiency,本質(zhì)上Agent的推理或者AgentRL的訓(xùn)練是搜索過程,比如說你想從頭開發(fā)一個Lineaxr,你想從零做這個事情,本質(zhì)上是搜索問題。
如果你有無限的數(shù)據(jù),可以把所有可能的情況枚舉遍,看一看里面哪個東西是好的操作系統(tǒng),你讓AI開發(fā)出來Linearx,提升它的效率,之前的agent是你用模型做很好的先驗,過程中不需要枚舉每一種可能的Token組合的情況,因為很多組合是沒有意義或者錯的,更好的預(yù)訓(xùn)練和基礎(chǔ)模型是減少了搜索空間,提升了更好的先驗。
今天有很多人研究怎么去減少先驗,最終有可能是在先驗非常少,或者幾乎沒有的情況下有可能實現(xiàn)AGI。但是我認(rèn)為基于先驗實現(xiàn)AGI,還是會更早發(fā)生,整個領(lǐng)域先基于先驗實現(xiàn)AGI,你再去探索先驗非常低的情況下,越來越低的情況下實現(xiàn)SCI的方式。
這里等價對應(yīng)的是更強的先驗,你是在有限數(shù)據(jù)的情況下,同樣是一樣多的數(shù)據(jù),但是腦容量更大,學(xué)習(xí)效率更高,智能更高,有更好的先驗就可以得到更強的agent。context是另外一個維度,你的Agent行為,需要它的工作記憶,所以你有更強的環(huán)境感知,做更長程的任務(wù),最后是這兩個東西的結(jié)合。
我們在這個基礎(chǔ)上,整個2025年kimi的迭代是沿著剛說的兩個方向做了新的探索和實踐。首先是Muon優(yōu)化器,我們曾經(jīng)做了非常多的實驗,發(fā)現(xiàn)有很多比較重要的技巧。
比如說需要加入VDK,你在搜索的過程中,原來是Adam的優(yōu)化器,可能是接近1.0,如果用Muon的話,對照它的尺度其實效果會更好。通過這些比較重要的改進,我們得到了一個真正意義上比較好,而且在各種方面經(jīng)得起時間考驗的優(yōu)化器,有2倍的Token efficienc提升。
所以,大家注意的是這里的efficienc不僅僅是efficienc,其實是智能上限,因為你的Token數(shù)量有限。我們也做了很多公平的比較,基本上所有的任務(wù)都會有提升,本質(zhì)上是等價相當(dāng)于訓(xùn)練了別人的兩倍Token。
在提升這個優(yōu)化器的過程中,能看到一些問題,在一個中等規(guī)模的實驗上,發(fā)現(xiàn)Muon的優(yōu)化過程里會出現(xiàn)一些挑戰(zhàn),左邊這張圖橫坐標(biāo)是訓(xùn)練的步數(shù),縱坐標(biāo)是最大的Logit取值,它是一個爆炸式的增長,其實是不健康的。
反映在右邊的非常高的時候,你的Logit訓(xùn)練就有可能不收斂,Loss會爆炸,出現(xiàn)一些不穩(wěn)定現(xiàn)象,其實這個模型最后的效果也不會好。
這里面很重要的一個點是通過一個新的方法解決Muon爆炸的問題,我們也試了很多方法,QK-clip效果非?;?,但是這里有一些細(xì)節(jié),你做QK映射的話,會乘上一個數(shù)值,這個數(shù)值是由當(dāng)前QK最大的Logit決定的,可以動態(tài)的讓它clip特定的取值里面。
效果就是這樣的,一個加Clip,一個沒有。
左邊這兩條線,但是這兩條線是完全重疊在一起的,你可能看不出來,其實是完全重疊在一起。說明你加了Clip之后,對效果是沒有任何影響,可以復(fù)現(xiàn)任何效果,但是logit會健康很多。
右邊開始漲了,Logits漲到一百Q(mào)K就發(fā)揮作用了,發(fā)現(xiàn)可能我不需要這個東西,這個時候會自動降下來,所以其實是很好穩(wěn)定訓(xùn)練的作用,使得全新的優(yōu)化器可以在一萬億參數(shù)的kimiK2的級別做穩(wěn)定訓(xùn)練,不然就像之前那樣炸了。
這張圖是2025年見過最漂亮的東西,這個是世界上最美的東西。
它是一個完全平穩(wěn)下降的Loss曲線,在整個15T的Token訓(xùn)練中沒有任何的問題,可以全部把logits壓下來,平穩(wěn)的收斂到一個非常好的點上。當(dāng)你有一個優(yōu)雅的方法,就可以得到一個優(yōu)雅的結(jié)果。
在kimiK2很好的模型上面,我們又做了很多強化學(xué)習(xí),后訓(xùn)練等等,但是這不是今天重點,重要的是有幾個點,我們在各種agent的能力上全面提升,而且可以對標(biāo)美國前沿的公司。
同時,很重要的一個點是在最核心的點上,比如說HLE,里面99%的題我都不知道怎么做,但是模型現(xiàn)在可以做到45%的準(zhǔn)確率,而且比OpenAI更高,你在最核心的數(shù)據(jù)上比美國公司更好,這是很重要的亮點。
同時,它是一個完全agent的模型,kimiK2是中國第一個agent模型,K2 Thinking升級以后,可以完成兩百百步的工具調(diào)用,解決一個很難的題的時候用它寫一寫程序。兩三百步之后,可以完成我完全看不懂的題,但是它的答案是對的。
得益于這些發(fā)展,我覺得很多中國的開源模型逐漸成為新的標(biāo)準(zhǔn),包括前段時間eda發(fā)布新的產(chǎn)品,現(xiàn)在也有中國很多開源模型做標(biāo)準(zhǔn)的測試,這也是開源很大的一個好處,我們希望有更多的中國的開源力量,中國的模型能夠逐漸去成為標(biāo)準(zhǔn)的制定者。
在K2之后我們在持續(xù)探索下一代模型有可能長什么樣,我剛剛講到開源的kimiLinear的工作,這個工作也是我們前期的嘗試,接下來還會在這個基礎(chǔ)上做更多的優(yōu)化和改進來訓(xùn)練K3模型。
最重要的一個改進是kimi Delta Attention,它是一個新的線性注意力機制,這個技術(shù)有一段時間,但是一直沒有成為主流模型,或者說最前沿的模型都還沒有用上這個技術(shù)。
最主要的原因是在長距離任務(wù)上會掉點,當(dāng)你的Context變長之后,你用線性注意力效果是打不過全注意力的,打不過原始的Transformer。
這是很重要的問題,因為現(xiàn)在很多任務(wù)需要長程的能力,Context變長之后,效果變差了,可能不太能去換。
kimi Linear最重要的一點是讓這種線性注意力的機制能夠在很長程的任務(wù)上,甚至比全注意力做的更好,但是同時又更快,因為它是線性的,所以它的效率會高非常多,一百萬個Context的話,可能高6到10倍的端到端的速度上的優(yōu)勢。
同時又可以改進很多現(xiàn)有的線性注意力缺點,可能就是表達(dá)能力不夠,導(dǎo)致了效果不夠好,所以kimi Linear是第一個能夠在線性注意力上不管是在短程任務(wù),還是在長輸入、長輸出任務(wù)效果都比全注意力機制更好的一個線性注意力的架構(gòu)。所以,它在實踐里面會有非常重要的作用。
我們稍微看一下具體長什么樣子,S表示當(dāng)前線性的數(shù)據(jù),可以看到它全部是線性的,ST相對ST減一來說的操作,稱之為線性注意力。
這里面很重要的一個點是中間的對角化矩陣,F(xiàn)T每一個維度都會乘上一個值,等于說對于這個狀態(tài)里面的每一個維度都可以精準(zhǔn)的控制到底有多少記憶是從ST減1留到ST。
這個是很重要的點,它的表達(dá)能力會有很大增強,增強的同時如果你是一個非常粗糙或者沒有優(yōu)化過的數(shù)據(jù),你的效率會大幅度降低,在這里面我們做了非常多的優(yōu)化,你可以把剛才的那個數(shù)值做很多變化之后得到下面的形式。
它在工程實現(xiàn)上就可以得到很多好處,你去對比DPLR,我們在數(shù)據(jù)上有優(yōu)勢,減少矩陣操作,所以整體的效率是非常高的,你要得到一個好的架構(gòu),需要把很多底層的優(yōu)化和模型的架構(gòu)聯(lián)合在一起,你不能只改動一些架構(gòu),如果沒有高效的實現(xiàn),很難得到一個很好的效果。
但是同時相比之前的線性注意力架構(gòu)又有一個顯著的優(yōu)勢,表達(dá)能力更強。
這張圖里面的效果看一下,左邊是性能對比,我們會考察兩種任務(wù),一種是短程的任務(wù),MMLU,這些都是公平的比較,用完全一樣的數(shù)據(jù),一樣大小的模型去跑。在短程上會顯著做的更好,在長程任務(wù)上是更好的效果,相比于之前的很多線性注意力和全注意力的架構(gòu)。
同時,右邊的這張圖的速度也是顯著的變快,基本上跟之前的線性的注意力一樣快,但是比全注意力要快非常多。
接下來在K2的基礎(chǔ)上做更多的Scaling,當(dāng)然這個Scaling并不只是加算力。而是說很多是技術(shù)改進,這些技術(shù)改進也會等效的變成Scaling的優(yōu)勢。當(dāng)然這里面很重要的一個點是除了架構(gòu)、優(yōu)化器這樣的挑戰(zhàn),更好的數(shù)據(jù)。
很重要的點是接下來的模型有更多的Taste,更多的品位和審美。
做模型的過程本質(zhì)上是在創(chuàng)造一種世界觀,你覺得什么樣的東西是好的,一個好的AI應(yīng)該是有什么樣的表現(xiàn),應(yīng)該追求什么樣的價值觀,有點像喬布斯講的Taste這是我們很相信的一個東西,因為智能和很多別的東西不一樣,每個模型產(chǎn)生的Token,本身不是一個可交換的東西。
如果你今天看很多事情是相同的,你在深圳產(chǎn)生的一度電和北京一樣,銀行帳戶里面最后一分錢是完全一樣,它是等價交換。但是智能并不是這樣,一個CEO產(chǎn)生的智能和一個設(shè)計師產(chǎn)生的智能和一個音樂家產(chǎn)生的智能是不同的。
在智能的維度,你有非常多的Taste的空間,空間是指數(shù)增加,你會有更多新的Taste出來,不是說這個模型會趨同,這是接下來我們很重要的一個目標(biāo)。
我也經(jīng)常和kimi對話,分享之前很有趣的一次對話,現(xiàn)在我們都在做AGI/ASI,可能會有更美好的未來,可以一起去探索宇宙,但是有可能會威脅到人類。
如果你的效果做的非常好,它現(xiàn)在也可以完成很多自動化的任務(wù),甚至后面還會有大幅度的提升, 這個答案很有啟發(fā)性。
它可能不是一個普通工具,而是可以提升人類文明上限的東西。
人類認(rèn)知的延伸,今天我們有很多問題解決不了,很多癌癥無法被攻克,有很多能源的問題需要被解決,甚至有很多社會的解決需要更好的設(shè)計。我覺得站在kimi講,它是我們探索未知世界的一個很重要的鑰匙。
所以,雖然它有風(fēng)險,但是它的回答是我仍然會選擇繼續(xù)開發(fā),因為放棄這個開發(fā)就意味著放棄人類文明上限。所以,我們不應(yīng)該害怕技術(shù)的風(fēng)險,而是應(yīng)該進一步去突破。同時,在這個過程中我們可能把風(fēng)險控制好,因為所有的技術(shù)突破都伴隨著風(fēng)險,不能因為恐懼而停滯不前。
我們希望在接下來的十年、二十年的時間,繼續(xù)把K4、K5到K100做的更好。
林俊旸
唐老師和植麟都是清華,我代表北大來一下。我很久沒有回海淀區(qū)了,我是朝陽區(qū)的。
今天整體介紹一下千問2025年的進展,有些東西相對舊一些,最近幾個月我們在憋著下一代的東西,我盡量講一些我能講的東西。
Towards a Generalist Agent這個標(biāo)題我其實換了很多輪,原來叫Towards a Generalist model,后來覺得model是比什么都大的東西。
后來想想agent也許是更大的概念,像人一樣你可以自主的使用工具,人和動物很大的差別是可以自主使用工具。所以就變成了Towards a Generalist Agent。
而且今天訓(xùn)練的范式發(fā)生了很大變化,過往我們不管做什么事情,都會有輸入和輸出把它標(biāo)注出來,你可以認(rèn)為是我們傳統(tǒng)的標(biāo)注,今天有了這個新的技術(shù)以后,我只要解決了這個推理,解決了這個評估,這個東西就可以炫,干什么都可以,我就可以發(fā)揮想象力。
比如說今天數(shù)據(jù)智能、模型智能都可能,這也是我一個干語言模型的人最近敢斗膽揚言我要做VLA和機器人的一個小小的原因。
大家如果想用上我們的模型的話,最容易體驗到我們開源模型和閉源模型,我覺得很有意思,之前我們一直做開源,大家比較清楚,不贅述和吹牛了。
但是網(wǎng)友們一直在罵我們,你們那個東西很難用,每次都得去你們的模型上面找,我們就把OpenWEB AI拖下來之后就把它變成了一個聚合器,看起來就像是ChatGPT一樣,本來算法的同學(xué)產(chǎn)品意識并沒有那么強,做著做著就有這種感覺了,模型即產(chǎn)品,就有很好玩的東西出來,所以我們都會放到這上面。
一般我們會在qwen.ai里面就可以很好的搜到,發(fā)博客對于我們來說比較簡單,最近我們火的新的模型架構(gòu)Qwen Next,很多同學(xué)沒有辦法引用,原諒一下我們。
們做開源做的比較久,2023年8月3日開始做開源,很多人問我們?yōu)槭裁醋鲩_源這一件事情?
很多事情都有機緣巧合的成分在這里,反正開源一路做下來之后做了很多,至少還是比較工業(yè)的事情。
東西不多,基本是一些腳本大家在上面看就可以。我們的模型是比較多的,為什么相對比較多?以前有很多人不理解我們?yōu)槭裁醋鲂∧P?,但是今天大家都明白小模型還是挺有價值。
小模型最終起源于我們內(nèi)部用來做實驗的1.8B模型,我們做預(yù)訓(xùn)練,資源畢竟有限,你做實驗的話不能通通用7B的實驗來驗,就拿1.8B的來驗。當(dāng)時我的師弟跟我說我們要把這個模型開源出去,我非常不理解。
我說這個模型在2023年幾乎是一個不可用的狀態(tài),為什么要開源出去?
他跟我說:7B很消耗機器資源,很多碩士生和博士生沒有機器資源做實驗,如果1.8B開源出去的話,很多同學(xué)就有機會畢業(yè)了,這是很好的初心。
干著干著手機廠商跑來跟我們說7B太大,1.8B太小,能不能給我們干一個3到4B的,這個容易,沒有什么很難的事情。
一路干下來型號類型越來越多,跟服務(wù)大家多多少少有一點關(guān)系。
但是我們自己的內(nèi)心追求的不僅僅是服務(wù)開發(fā)者或者服務(wù)科研人員,我們看一看能不能做一個Multimoda Foundatine Agent,我特別相信這件事情。
如果追溯到更遠(yuǎn)的話,剛才唐老師說我們當(dāng)年還在合作的時候,當(dāng)時就在大干多模態(tài),現(xiàn)在想想這是一個激情歲月。
2023年的時候大模型是一個大家都不要東西,多少少有那么幾分大煉鋼鐵的成分,多模態(tài)是我們延續(xù)下來一直想做的事情。
如果你想做一個智能的東西,天然的應(yīng)該是Multimoda,當(dāng)然帶有不同看法,各個學(xué)者都有一些看法,多模態(tài)能不能驅(qū)動智力的問題。
人有眼睛和耳朵可以做更多的事情,我更多的考慮是Foundatien有更多的生產(chǎn)力,能不能更好的幫助人類,毫無疑問我們應(yīng)該做視覺,我們應(yīng)該做語音。
理想的情況下,當(dāng)年我記得我們2022年的時候,當(dāng)時設(shè)計的一個系統(tǒng)是中間有一個大腦,我們不知道那個大腦是什么東西,但是我們知道不同的模態(tài)和任務(wù)都應(yīng)該進入到這個大腦,從這個大腦輸出去,這個才是真正的想象當(dāng)中的AGI。
今天看起來很有可能,因為我不知道大家做的研究方向有沒有做統(tǒng)一理解生成這件事情,這件事情還挺復(fù)雜的。
目前谷歌也沒有做到統(tǒng)一理解互相生成,但是我還挺相信這些事情。如果看GPT的話,今天把很多東西統(tǒng)一了之后,看起來更加完美一些,當(dāng)年還在爭論他們到底是哪個好。
今年最大的進展是Qwen3,這個是吉祥物,有點像熊,但它是一只卡皮巴拉。做的時候我覺得我們同學(xué)太辛苦了,不想他們太辛苦,今天這么卷的時代佛系一點不是說不行。我們做的方向相對比較多一些。
但是你可以看到每一個方向都有它自洽的邏輯在這里面。
比如說我們做Text和VL、Omni,做的時間比較長,做視覺、文本、語音生成,我們做的過程當(dāng)中,可能因為我們比較特殊的地方是我們背后是阿里云支持,我們有很多業(yè)務(wù)和阿里云的客戶比較相關(guān)。云的業(yè)務(wù)很多客戶是非常多樣的,包括Embed Guard都會給大家提供服務(wù)。
今天圍繞相對比較主線的Text、VL,包括Omni會給大家做介紹,Coder會放在Text和大家做相應(yīng)的介紹。Text今年主要是Qwen3系列,現(xiàn)在已經(jīng)做到3.5,3做的時間比較長一些。
一個最大的特點是總體能力提升
今年比較有意思的是reasoning的能力要提升,我補充介紹一下我個人的理解,reasoning和現(xiàn)在的單純的tasks模型有一點不太一樣。
第二個是我們支持的語言及方言,語言沒有那么多,加上方言一共有119種。
為什么會做多語言這件事情呢?其實也有些機緣巧合的事情,2023年的時候,當(dāng)時我們覺得只要把中文和英文做好就可以服務(wù)好我們需要的人群,但是有一回我遇到韓國朋友,他們在做模型的時候,為什么不用我們的模型做呢?
他說你們的模型根本就不懂任何的含義,我感到非常的受傷,我就去看了一下,后來發(fā)現(xiàn)這個事情很簡單,順手就把它做了。
后來發(fā)現(xiàn)我們?nèi)虻挠脩粼絹碓蕉?,我記得一些巴基斯坦的朋友不斷的跟我說你快點支持烏爾都語,我們真的沒有大模型可以用了,這個事情我覺得確實挺好,于是我們支持了更多的語言。我們現(xiàn)在還沒有做完,非洲的數(shù)據(jù)確實有點難以收集,非洲的語言沒有覆蓋。
今天我跟一些手機廠商聊了一下,非洲還有很多人使用功能機,我們今天已經(jīng)到進入智能機的時代,他們還在做這個事情,所以要幫助全人類的話,確實是任重道遠(yuǎn),如果你的想法不是幫助全人類的話,我覺得不如不做,所以就繼續(xù)干。
第三個是今天的長文本、長視頻可能都是其中一個例子。
但是我覺得這件事情很有意思,如果你真的想形成一個具有自我認(rèn)知的模型,首先上下文得足夠長,之前還有人討論一個問題,你沒有必要把很多垃圾放到長上下文里面,但是有了這個以后才能做到下面的理解。
所以我們現(xiàn)在一路做到1M以上,實際上我們內(nèi)部已經(jīng)做到好幾個M,可能還不夠。今天為什么還想說這是非常非常長的這種事情。回到剛才的問題,我們這一代模型可能和2024年相比,很大的一個區(qū)別是reasoning的能力要提升,廣義的reasoning是做問題推理,讓問題得到更好的解決。
雖然不得不做相關(guān)的研究,怎么讓reasoning更加nativel一些,Qwen3的時候,我們4月份發(fā)的版本,當(dāng)時有些做的不太好,數(shù)據(jù)方面沒有做的太好,合并起來有一些問題。
有超過90%的客戶不再使用Thinking模型,大量使用我們QWQ系列的很重要的原因是他們的用戶喜歡看機器和自己進行聊天。但是很快大家就回到Instruct,這里主要看一下黃色和藍(lán)色的部分,藍(lán)色是4月份版本,紅色是7月份版本。
除了把數(shù)據(jù)做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是這個能力加進去之后,客戶很明顯的反饋是模型比以前聰明了很多,只有20多分,基本上什么題可能都做不了,比如說在教育領(lǐng)域做一點數(shù)學(xué)題可能都干不明白,這是我們挺驕傲的模型,這個模型也不是很大,很多人在用我們系列的模型。
但是還有一個遺憾,這個模型還有很多東西沒有做完,這里是一個取舍的問題。
比如說Coding和Agent能力怎么把它集成進去,做起來很難??紤]到自己的技術(shù)實力和狀況,包括自己一直做Cod系列,我們推出了這個模型。
今天的Cod和過往的不太一樣。比如說去年和前年都在解單純的競賽題,給一道題看一看能不能把答案做出來。
今天我們做什么事情呢?Software Engineer,2024年的時候大家非常驚訝,第一個AI能不能像一個程序員,今天我就維護一個這件事情挺難的,你把它做了就好了。實際做的過程中,這個事情人做起來步驟挺復(fù)雜,最簡單的是至少我可以打開這些文件夾,看了這些文件夾的名字知道我可以點開哪一個,其實是多輪交互的過程。
今天做Agent一個很重要的但,為什么大家提多輪環(huán)境交互,說白了打開文件夾看一言,這個其實也是一個跟環(huán)境交付的方式,這件事情很重要,并且非常有意思,讓我們非常激動,真的能產(chǎn)生產(chǎn)力。我們想做今天的Coding的模型可以有生產(chǎn)力,很多代碼可以寫出來,這是很驚訝的。
當(dāng)然這個中美是不一樣的,剛剛從灣區(qū)回來,我感受到兩邊不太一樣。這個是非??鋸埖?,但是今天是不是模型做的不夠好,還是說WEBCoding還沒有做的更好,我覺得是大家認(rèn)知上面有差異,我們想做的事情是殊途同歸,都是想讓它產(chǎn)生生產(chǎn)力。
當(dāng)時我們就特別關(guān)注兩個生辰里,一個是SWE-bench,你能不能提一個PR把它解掉,70算是比較高的門檻,當(dāng)然現(xiàn)在可以感到75以上,這是7月份的時候,當(dāng)時我們做到67和69分覺得可以。
Terminal-Bench也挺難,今天大家都在用這系列的產(chǎn)品,大家會發(fā)現(xiàn)這個東西確實會和你的生產(chǎn)力接在一起以前不一樣,今天我們做的是貼近實際的任務(wù)。也許今天我們只是一兩個Bench而,有沒有可能讓它更加服真實的環(huán)境和真實的生產(chǎn)任務(wù)是我們想做的事情。
當(dāng)時剛出的時候挺火的,但是現(xiàn)在競爭太過激烈,Token coder量一直干到第二名,小小吹噓一下。
最有意思的是這一套東西,以前從來沒有做過,今天模型訓(xùn)練我有一個Scaling,就是今天AgentScaffods的東西,所謂的腳手架你再簡單理解一點就是這個東西。它就能夠在機器里面跟阿里云的ECS的這些機器在這里面一個個起一個不僅是算法的挑戰(zhàn),在里面干完活就把它消除掉。
真真實實的存在,Instruct挑戰(zhàn)也很多,右上角的東西我自己可以感,左上角就得需要拉其他的伙伴一起,算法Instruct今天聯(lián)合的事情是真真實實的存在的,今天我們要做這么難的任務(wù),需要很多Instruct的支持。
這個是當(dāng)時做Coding的事情,我們更想做的是把Coding的能力是否可以集成在我們很大的模型上,比較抱歉的一件事情是最大的這個模型,大于1T的模型,我確實沒有推動將其開源出來,雖然我也很想開源。
但是就是這么回事,我們終于把這些能力集成進來,大家可以看到我們的SWE-bench可以做到70分,之前你沒有很好的把它集成進來,其實很難做到一個比較高的分?jǐn)?shù)。這也說明一個問題,做到很強的時候,你也可以集結(jié)一個很強的模型,需要進行相應(yīng)的積累。
Qwen3-Max也是排在前五,Overall。當(dāng)然,它體現(xiàn)的是人類的偏好,未來評測會不會是動態(tài)的?讓它放到人類的生產(chǎn)環(huán)境里面,比如說就讓它炒股票。最后有一個公司做炒股這件事情,雖然有很多隨機性,但是開了一個好頭,讓大家在人類的真實世界中看AI做的好還是不好。
做語言模型其實還要想一個問題,它能不能有眼睛看到這個世界,舉個例子。我們剛才提到想做Coding Agent提升生產(chǎn)力,我總得讓它操控電腦,看電腦屏幕,沒有眼睛就看不到,所以我們毫不猶豫的去做,這是巨大的差異,Visual Understanding就去做可以了。
但是今天很多的模型比人看東西看的更明白,比如說我又近視又散光,基本上不太好使,看不明白。但是上下左右我總歸分的很清楚,但是AI很有意思,很細(xì)節(jié)的東西它看很清楚。比如說問前后左右這個問題,居然分布出來。
我們很長時間評估一個案例,叫活體的方向,當(dāng)時我還問我們的評測人員什么是活體,分不清楚東西在左邊還是右邊,我覺得蠻奇怪的,但是這是我們要解的問題。
但是不僅僅如此,我們還要做一件事情是讓它的intelligence不要降低,我們沒有期待它真的能夠大幅度提高智商,但是至少不要變笨,因為很多時候做VL模型是變笨的,我們這一次終于讓它不再變笨,大概和我們的235B的語言模型達(dá)到一個持平的狀態(tài)。
這里講一下我們這次主要的提升,簡略的說一下。
第一個我們大家都在做一件事情,讓它操作手機、操控電腦的能力進一步提升。
第二個是它的語言的治理,VL模型能不能當(dāng)LRM來用,這樣才可以追上原生多模態(tài)的模型,至少做到技術(shù)上讓語言的智力能夠達(dá)到持平狀態(tài)。
第三個是Coding,這件事情很重要,但是Coding的輸入也可以是圖像或者是視頻。
比如說今天我想做一個APP,想做一個網(wǎng)頁,我可以畫出來。不一定我用文字寫,因為這個很考驗人類的表達(dá)能力。很多時候大家表達(dá)的不一定很清楚,你可以畫一個圖。還有對視頻的理解,也許是VL下一代的機會。
視頻是更廣義的表達(dá),圖片可以理解為是單幀的視頻,理解很長的視頻是很有意思的一個事情。
我一直在想如果我們有了智能眼鏡,每天接收更多東西的時候,能不能構(gòu)建我們的矩陣,這個眼鏡是第一人稱視角的東西,一般來說我們在網(wǎng)上搜羅的視頻是第三人稱視角,對第一人稱視角理解很少,我們一般談?wù)摰氖撬鼘@個物理世界能不能構(gòu)建一些好的理解。
我們做的時候,就發(fā)現(xiàn)真的需要知道他是不是能理解這個空間的東西,這個東西激勵我們做一件事情,我們能不能去做VLA,可能得把這些數(shù)據(jù)都集合進來,有沒有可能接入硬件做VLA的模型,能不能讓它獲得一些泛化。
另外是基礎(chǔ)能力的提升,比如說今天大家在使用OCR的時候,有很多東西的用力,都在檢測一些很褶皺的東西。但是我們的的圖像很多時候檢測不到,紙張非常的褶皺,能不能讓它看的懂都是我們自己要解的問題。
另外是印章,字體非常特別,非常的小,圖片分辨率低,能不能識別出來是很特別的事情。Multimmod模型能不能做Reasoning,能不能對圖片進行理解。比如說今天我們看到一個數(shù)學(xué)問題做分析,不斷的一步一步去推,和圖片結(jié)合起來看能不能看到圖片上更小的點。
舉個更小的例子,一張照片有50個人它能不能數(shù)的出來呢?數(shù)不出來,但是配上Reasoning我就可以一點點的去看,一點點的去打這個點,有可能我能把這個數(shù)字給數(shù)出來。今天結(jié)合具體的應(yīng)用,能做的空間其實非常多。
我們現(xiàn)在基本上可以達(dá)到2.5pro的水平,但是讓我開心的是語言的智力沒有那么降智了,也算是第一次解決了這個問題。
更進一步我們想做什么呢?除了理解圖像和視頻以外,有沒有可能同時生成圖像和視頻?我們甚至有一個更大的想象,如果我們今天在思考有沒有可能把我們的基礎(chǔ)模型實現(xiàn)想象這些事情。
我腦海里有一些畫面,這個想象對我來說是有意義的,這些事情都可以通過圖像生成和視頻生成進行相應(yīng)的實現(xiàn),這個也會和今年的視界模型聯(lián)系在一起。
今年我們剛開始做生成的事情,花了幾個月時間做了Qwen-lmage系列,12月份剛剛更新了一個。
這是我們內(nèi)部人員進行盲測,排名還是可以,基本上比最好的開源模型和閉源模型,比相交還是稍微差一點點。但是我看到一些實際的圖的時候,我其實比較興奮。
比如說和其他模型比較沒有什么感覺,但是可以看一下8月份和12月份的版本,8月份生成的圖AI感還是非常重的,但是12月份生成了已經(jīng)接近離譜了,雖然沒有那么美和好看,但是已經(jīng)接近真人了。
其實還有一張我們博客里面宿舍女生拍照,真的很像宿舍女生剛睡醒拍照,放在這里不是很好,我放了更好看一點的。還有更自然的東西,比如說燈塔,水花特別夸張,但是右面的水可以達(dá)到非常自然的狀態(tài)。
另外一個是生成圖像文字要很準(zhǔn)確,能夠把文字生成到圖片上面來。分鏡不是拼出來的,其實是12張圖合起來的一張圖,包括文字都是一次性生成出來,今天模型有一些威力超出了我們的現(xiàn)象,有時候我們自己訓(xùn)練模型都沒有想到會變的這么強。
但是除了生成以外的話,我們還要做更重要的事情。我們做了生成之后,用戶告訴我們才知道編輯是更大的需求,因為大家都需要P圖,讓自己變的更好看。
Image-edit版本也有,接下來會把edit生成合在一起,我自己每天用這個東西,最近出去旅游的時候,我想拍出美國往事的感覺,下面有很多人,我就把很多人P掉,調(diào)整一下風(fēng)格,就可以把這個東西做出來,這是每天干的事情。
我想給大家分享一個更有意思的案例,也是今天大家會問我,開源社區(qū)究竟怎么幫助我們研發(fā)這個模型,如果不是開源社區(qū)告訴我們,這輩子都想不到有這個問題。
有一張圖片我們想對它進行編輯,讓它放下圖像中右邊的人,你會發(fā)現(xiàn)它放下來之后,兩張圖重疊在一起的時候你會發(fā)現(xiàn)糊了,它有點移動了,不在原位,偏移了。
對于很多搞PS的同學(xué)來說,這個東西要非常精確,你不能隨便移動,所以2511這個版本很重點的是在解這個問題。在2511這個版本,我把兩張合在一起的時候,基本上人在原來的位置上,我覺得是開發(fā)者給我們很好的用力,原來可以做出真的可以幫助到他們東西。
編輯可以做很多事情,比如說我調(diào)整光線讓它變成更柔和的光鮮。我們的用戶和產(chǎn)品跟我們說這個光射合理不合理是很重要的,我們做算法的同學(xué)很多時候感受,但是有些時候大家對圖的要求比想象的更高。
所以,大家談世界模型的時候,是不是真的能構(gòu)建出符合物理規(guī)律或者真實世界的東西其實還是很重要的東西。
還有一些例子,比如若平移一些鏡頭,旋轉(zhuǎn)30度這些都是很常見東西,今天這個模型甚至可以和推理結(jié)合在一起,我們一直有一件事情非常想做,教小朋友家長們很痛苦,很多時候AI去教有一些題教不了,畫輔助線的東西是教不了的,真的需要生成模型才能做,我真的能夠把一道數(shù)學(xué)題做好,比如說畫輔助線這件事情我可能要通過生成推動更好的理解。
接下來是更進一步的,如果今天看的圖像的問題解的差不多了,甚至自己可以把東西生成出來,有沒有讓它像人一樣聽和說呢?因為語音交互也是很重要的事情。今天大家在使用各類的APP的時候,大家發(fā)現(xiàn)有語音交互真的是很方便的一件事情。
Omni也是很大的智能,并且我愿意相信一些事情,今天對事件的環(huán)境音理解,人講的話不是單純的使用ASR就可以解決的。
所以我們就做一個Talker的東西,這個模型做了很久,讓它既能聽又能說,能夠保證它的效果是穩(wěn)定的。Omni是沿著這個方向持續(xù)做的,大概的進展稍微有一點降智,但是降智的已經(jīng)不多。
我們這個模型可以達(dá)到2.5文本的水平,對于語音基本可以對標(biāo)2.5por的水平,這里面有挺多好玩的東西,時間關(guān)系沒有辦法和大家分享。
今天TDS可以換各種聲音,包括自己定制你自己的聲音,只要描述這個聲音長的什么樣子,就可以讓AI以這個形式把東西講出來,我覺得還有很好玩的事情,基礎(chǔ)模型和基礎(chǔ)Agent是不是真的可以跟人類的真實世界,也包括虛擬世界進行更好的交互。
下一步要做什么樣的事情呢?我們做了這么多,當(dāng)然希望集合在一起,全模態(tài)模型是要做的。
有一個很重要的,我覺得也是殊途同歸的事情,跟kimi文化做類似的事情。我們同時做各種各樣的實驗的時候,最后選擇了用Linear Context,當(dāng)然也是以三層Linear配合它的。
下一代的模型也會沿著新的架構(gòu)進行相應(yīng)的實現(xiàn),其實我們這里想做的事情是新一代的架構(gòu)能不能解決我們剛才到的問題,能夠省下很多步驟。也許還會有更多的威力在里面。下一代的模型,其實也會沿著新的架構(gòu)進行相應(yīng)的實現(xiàn)。
更進一步我們要做什么東西呢?Omni的模型不僅僅是我能夠理解文本、視覺、音頻,我們可能還讓它生成文本、音頻,今天我們已經(jīng)做到了,但是我們還沒有做到把視覺生成結(jié)合在一起。如果做到三進三出,我覺得會是至少我個人喜歡的東西。
第二個是今天的范式發(fā)生了一個很大的變化,今天不是像以前那樣訓(xùn)模型,有標(biāo)注的數(shù)據(jù),有一條輸入和輸出訓(xùn)練就可以,我們今天要把更多的數(shù)據(jù)放到實驗中去訓(xùn)練
如果大家關(guān)注XAI的宣傳,RL的數(shù)據(jù)我雖然覺得他們有點浪費,但是另一方面也意味著RL有很多的想象空間。當(dāng)然并不是說自己跟自己對話,我其實沒有那么關(guān)心我們的模型能不能做成為最強的數(shù)學(xué)大腦,我更關(guān)心的是像日常真實的人,為這個社會做貢獻。如果它能夠做到這一點,我覺得還挺好。
所以Multi-turn RL with environment feedback towards long-horizon reasoning,因為很多時候做很多事情需要很長的時間,你得一步步去做。
但是AI可以加速很多,比如說人類花兩個月的時間做的東西,AI可以花兩天的時間。雖然有很多Token在里面,但是兩天確實能夠節(jié)省我們很多的時間在這里面。
Agent其實可以走向虛擬世界和物理世界,所以有了Embodied Reasoning的這種方式。我們內(nèi)部討論了一個方式,就算你是做VLA,做Coding的模型,說白了也是把語言轉(zhuǎn)化成Embodied的模型,從這個角度上來看就非常的振奮人心。
于是我們就覺得大干一長,看一看能不能走向Digital Agent,GUI操作,同時能夠使用API,這個就是非常完美的Digital Agent。如果走向物理世界,是不是能夠把話筒拿起來,能夠斟茶倒水。
圓桌對談
本次峰會最精彩的,當(dāng)屬圓桌環(huán)節(jié)。
開場就很drama,本應(yīng)有四位嘉賓,臺上卻只有三位。
正在疑惑,姚順雨突然大臉跳屏
我現(xiàn)在是不是一張大臉在屏幕上?
全場都愣了一下,隨后便是哄堂大笑。
主持人也正好趁這個機會,直接從姚順雨開始,切入了正題。
Q1:路線分化
主持人:我是接下來Panel的主持人廣密。
可以從分化這個主題先聊起來,硅谷的競爭那么激烈,它沒有完全Follow,全都做,而且是專注到了企業(yè),專注到了Coding,專注到了Agent。
我也在想接下來中國的模型會分化成自己想要的哪些方向?我覺得分化這個主題蠻有意思的。
順雨開場給大家講一講,順便說說你最近在干什么。
姚順雨:大家好,我現(xiàn)在是不是一個巨大的臉在會場?不好意思,今天沒法親自來北京,但是很高興參加這個活動。最近忙著做模型、做產(chǎn)品、做AI,是一個很正常的狀態(tài)?;貒母杏X還是挺好的,吃的好很多。
我覺得有兩個大的感受,一個感受是toC和toB發(fā)生了明顯的分化,另外一個感受是垂直整合這條路,以及模型和應(yīng)用分層這條路,也開始出現(xiàn)了分化。
我先說第一點,我覺得很明顯的是當(dāng)大家想到AI就是兩個,ChatGPT,另外一個Claude code,是做toC和toB的。
非常有意思的一點是我們今天用ChatGPT和去年相比的話,感受差別不是太大。
但是,Coding夸張一點來講,已經(jīng)在重塑整個計算機行業(yè)做事的方式,人已經(jīng)不再寫代碼,而是用英語和電腦去交流。
我覺得很核心的一點,對于toC來說,大部分人大部分時候不需要用到這么強的智能,可能今天用ChatGPT和去年相比,寫成交代數(shù)和伽羅瓦理論的能力變強的,但是大部分人大部分時候感受不到。
大部分人尤其是在中國更多像是搜索引擎的加強版,很多時候也不知道該怎么去用,把它的智能給激發(fā)出來。
但對于toB來說,很明顯的一點是智能越高,代表生產(chǎn)力越高,值錢的也越來越多,這些東西都是相關(guān)的。
對于toB來講,還有一個很明顯的點,大部分時候很多人就愿意用最強的模型,一個模型是200美元/月,第二強或者差一些的模型是50美元/月、20美元/月。
很多美國的人愿意花溢價用最好的模型,可能他的年薪是20萬美元,每天要做10個任務(wù),像一個非常強的模型可能10個任務(wù)中,八九個做對了,差的是做對五六個,問題是你不知道這五六個是哪五六個的情況下,需要花額外精力去監(jiān)控這個事情。
我覺得無論是人還是模型,在toB這個市場上發(fā)現(xiàn)了一個很有意思的現(xiàn)象,強的模型和稍微差點,或者弱的模型它的分化會越來越明顯。
第二點觀察,垂直整合這條路和模型應(yīng)用分層這條路的區(qū)別,我覺得一個比較好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus這樣的應(yīng)用層產(chǎn)品,過去大家會認(rèn)為當(dāng)你有垂直整合能力肯定會做的更好,但起碼今天來看并不一定。
首先模型層和應(yīng)用層需要的能力還是挺不一樣的,尤其是對于toB或者生產(chǎn)力這樣的場景來說,可能更大的預(yù)訓(xùn)練還是一個非常關(guān)鍵的事情,這個事情對于產(chǎn)品公司確實很難做,但是想要把這么一個特別好的模型用好,或者這樣的模型有它的溢出能力,也需要在應(yīng)用側(cè)或者環(huán)境這一側(cè)做很多相應(yīng)的事情。
我們會發(fā)現(xiàn)其實在toC的應(yīng)用上垂直整合還是成立的,無論是ChatGPT還是豆包,模型和產(chǎn)品是非常強耦合去緊密迭代的,但是對于toB來說這個趨勢似乎是相反的,模型在變的越來越強、越來越好,但同樣會有很多應(yīng)用層的東西應(yīng)用好的模型在不同的生產(chǎn)力環(huán)節(jié)。
騰訊肯定還是toC基因更強的公司,我覺得我們會思考怎么樣能夠讓今天的大模型或者說AI的發(fā)展能夠給用戶提供更多價值,很核心的思考是我們發(fā)現(xiàn)很多時候我們的環(huán)境來講或者更強的模型,或者很強的模型,很多時候是額外的Context。
我最近經(jīng)常舉一個例子,比如我想問我今天該去吃什么?其實你今天問ChatGPT和你去年問或者明天問都會差很多。
這個事情想要變好,不是說你需要更大的模型、更強的預(yù)訓(xùn)練、更強的強化學(xué)習(xí)、更強的Agent環(huán)境或者更強的搜索引擎,這個問題可能需要更多額外的輸入,或者我們叫Context。
toB確實是很難的事情,生產(chǎn)力的革命,包括我們今天很多中國的公司做Coding Agent需要打很多海外市場。
我們會思考怎么把自己先服務(wù)好,像創(chuàng)業(yè)公司做Coding這個事情和大公司做Coding這個事情,一個區(qū)別是作為大公司本身就已經(jīng)有各種各樣的應(yīng)用場景、各種各樣需要生產(chǎn)力變的更好的地方。
如果我們的模型能夠在這個地方做的更好,不僅這個模型會有自己獨特的優(yōu)勢,不僅我們公司本身能得到很好的發(fā)展,很重要的一點是對于真實世界場景的數(shù)據(jù)捕捉會是一個很有意思的事情。
比如說Cloud,這些創(chuàng)業(yè)公司,他們想要去做更多的Coding Agent的數(shù)據(jù)廠商去標(biāo)注這個數(shù)據(jù),他們需要利用各種各樣的軟件工程師去想我要去標(biāo)什么樣的數(shù)據(jù)。
這個事情是數(shù)據(jù)公司一共就這么幾家,一共有招了這么多人,最終你會受限,但如果你是一個10萬人的公司可能會有一些有意思的嘗試,怎么把真實世界的數(shù)據(jù)利用好,而不是僅僅依賴于標(biāo)注商或者協(xié)議。
林俊旸:今天toB也好,toC也好,我們在服務(wù)真實的問題,我們想的問題是怎么把人類世界變的更好。你就算做toC的產(chǎn)品也會分化,今天OpenAI更像一個平臺了,但是toC最終要服務(wù)真實的這批用戶究竟是誰。
今天可能有很多AI會更偏向medical和log,今天我覺得Coding真的很厲害,我就拜訪它,因為我知道他們跟客戶交流非常多,這個是我們還不夠好的一個點,雖然我們擁有巨大的優(yōu)勢,也可能中國SaaS市場跟美國確實不太一樣,他們確實非常頻繁地跟客戶進行交流,很容易發(fā)現(xiàn)很大的機會。
今天我跟美國的很多API廠商聊起來,他們沒有想Coding消耗量那么大,在中國真的沒有那么大,至少從我這邊來看,但是在美國,基本上全都是Coding,我覺得這個事情不是所有人都能Get到的。
今天做的一些相關(guān)的一些東西,我覺得也是他們自己在跟客戶看到這個機會,我覺得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI該做的事情,順其自然,這是我們該做的事情。
楊強:分化的問題其實我更想聊一下工業(yè)界和學(xué)術(shù)界的分化,這個可能是橫跨美國和中國的。
一直以來,學(xué)術(shù)界是一個觀望者,工業(yè)界在領(lǐng)頭往前瘋跑,搞得很多學(xué)術(shù)界的人也在做工業(yè)界的事情,像唐杰老師,這是一個好事,就好像天體物理學(xué)剛剛開始的時候是以觀測為主,伽利略的望遠(yuǎn)鏡,然后才出現(xiàn)牛頓。
所以我覺得后面一個階段,當(dāng)我們有了眾多的穩(wěn)定大模型,進入一個穩(wěn)態(tài)的時候,我們學(xué)術(shù)界應(yīng)該跟上來。
學(xué)術(shù)界跟上來要解決什么問題呢?工業(yè)界可能還沒來得及解決的一些問題,這也是我一直在考慮的問題,就是說智能上界在哪里,比如說給你一定的資源,計算資源或者能源資源,你能做到多好?
可以更細(xì)一點,比方說我們把這個資源怎么分配,哪些分配在訓(xùn)練上、哪些分配在推理上?其
實我很早就在做AI,90年代初就做過一個小實驗,如果我們有一定的投入在記憶上,那么這個記憶能夠幫助推理多少,這個幫助會不會變成一個反向的,就是說你記的太多了,反而記的噪音會干擾你的推理,有沒有一個平衡點,我覺得這些問題今天還是適用的。
我最近也在想另外一個問題,大家學(xué)計算機的都必定上計算機理論課,里面有一個重要的定理叫哥德爾不完備定理,大概意思是說一個大模型不能自證清白,必定有一些幻覺不可能消滅掉,可能你給更多的資源,它會消滅的更多。
所以科學(xué)問題就來了,你多少資源能夠換取多少幻覺的降低或者錯誤率的降低,這是有一個平衡點的,這個平衡點特別像經(jīng)濟學(xué),經(jīng)濟學(xué)的風(fēng)險和收益的一種平衡,所以我們叫這叫無免費午餐定理。像這些東西,我覺得今天就特別適合數(shù)學(xué)界、算法界和學(xué)術(shù)界和工業(yè)界一起做研究,這孕育著一個巨大的突破。
剛才唐杰老師也提到持續(xù)學(xué)習(xí),我覺得持續(xù)學(xué)習(xí)是一個特別好的問題,它里面有個時間的概念,你在持續(xù)地不斷地學(xué)的過程當(dāng)中。
但是你會發(fā)現(xiàn),比方說你把不同的Agent給串聯(lián)起來,每一個Agent都不能做到百分之百的話,你在N個以后它的能力是按指數(shù)下降的,你怎么樣能夠保證它不下降,人類是用一個方法做這個事,第一天是學(xué)習(xí),第二天會在第一天噪音的基礎(chǔ)上學(xué)習(xí),這樣你的能力就類似大模型會下降。
但是人類有一個方法就是睡覺、睡眠,我建議大家看一本書叫《我們?yōu)槭裁此X》,是MIT的兩個教授寫的,非常好玩,它說每天晚上睡覺是在清理噪音,使得第二天你可以把準(zhǔn)確率持續(xù)地提升,不至于是兩個策略率的疊加。
像這些理論的研究孕育著一種新的計算模式。我們今天可能比較關(guān)注Transformer computer,但是我覺得有必要做一些新的探索,這是工業(yè)界和學(xué)術(shù)界要拉齊。
唐杰:早期的時候還是基座模型,2023年那個時候我們第一個做出Chat的,當(dāng)時第一個想法是趕緊把Chat扔在網(wǎng)上上線,當(dāng)時國家有規(guī)定,八九月份一起上。
當(dāng)時我的第一感受是十來個大模型都上來了,而且每一家用戶都沒有那么多,當(dāng)然今天分化的非常嚴(yán)重。
后來我經(jīng)過一年的思考,我覺得其實這個已經(jīng)不是真的解決問題,我的第一個預(yù)判是說它會替代搜索。
我相信今天很多人在用這個模型替代搜索,到今天我相信大家很多人在開始用這個模型替代索索,但是并沒有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改進。
從這個角度上,我覺得這一仗從DeepSeek出來之后,已經(jīng)沒有了,已經(jīng)結(jié)束了。
DeepSeek之后我們應(yīng)該想的是下一仗是什么東西?
我們團隊爭論了很久,下一仗肯定要讓AI做一件事情,做這件事情是什么可以討論一下,那個時候廣密還到我們那跟我們交流,廣密的知識特別淵博,他思考問題很深邃。和他的交流對我的啟發(fā)非常大,原來我沒有想到,那一次讓我啟發(fā)非常大。
后來我們團隊爭論了很多晚上,爭論到最后,可以叫我們的運氣,另一方面我們也是把所有的精力放在了Coding上。
Q2:自主學(xué)習(xí)
主持人:接下來第二個比較有意思的問題,今天這個時間點特別特殊,一個是預(yù)訓(xùn)練過去走了3年,大家都說可能今天走到了七八成的收益,強化學(xué)習(xí)也都成為共識,做到了四五十的空間,后面的數(shù)據(jù)、環(huán)境空間很大。
接下來一個新的范式,唐老師也談到了自主學(xué)習(xí)、自我學(xué)習(xí),因為今天這個會的主題是接下來的展望Next,我覺得這是一個特別值得去聊的話題。
姚順雨:現(xiàn)在自主學(xué)習(xí)是一個非常熱門的詞,在硅谷大街小巷咖啡館里面,大家都在談?wù)摚纬闪艘粋€共識。根據(jù)我的觀察,每個人對這個東西的定義和看法都不一樣,我講兩點:
第一,這個事情不是方法論,而是數(shù)據(jù)或者任務(wù)。
當(dāng)我們在談?wù)撟灾鲗W(xué)習(xí)的時候,它到底在什么樣的場景下基于什么樣的獎勵函數(shù)去做。
你在聊天的時候變的越來越個性化是一種自主學(xué)習(xí),在寫代碼的時候越來越熟悉每個公司獨特的環(huán)境或者文檔是一種自主學(xué)習(xí),你去探索新的科學(xué),在這個過程中像一個博士一樣,從原來不了解有機化學(xué)是什么,到完成這個領(lǐng)域的專家,這也是一種自主學(xué)習(xí)。每一種自主學(xué)習(xí)的挑戰(zhàn)或者說方法論都不太一樣。
第二,ChatGPT在利用用戶的數(shù)據(jù)不斷彌合人聊天的風(fēng)格是什么,這是不是一種自我學(xué)習(xí)?
今天Claude已經(jīng)寫了Claude這個項目95%的代碼,它在幫助它自己變的更好,這是不是一種自我學(xué)習(xí)?
我們當(dāng)時2022年、2023年的時候,我去硅谷宣傳這個工作,我當(dāng)時寫了第一頁是說ASI最重要的點是自主學(xué)習(xí)。今天的AI系統(tǒng)本質(zhì)上都有兩部分,首先它是一個模型,其次它有個代碼庫,你怎么去用這個模型,是用來做推理,還是做Agent,有相應(yīng)的代碼庫,我們今天看Claude這個系統(tǒng)本質(zhì)上有兩部分。
一部分是是部署環(huán)境的一大堆相應(yīng)的代碼,KeonGPU的環(huán)境是怎樣的。
另一部分是怎么樣去使用它,有一大堆相應(yīng)的代碼,無論是GPU的,或者說它的前端還是環(huán)境是什么樣的。
我們做Switch方面大家意識不到,這些自主學(xué)習(xí)的例子可能還局限在每一個特定的場景下,沒有讓人感覺到非常大的威力。
這個事情已經(jīng)在發(fā)生了,可能效率或者受限制的限制,有各種各樣的問題,可能這個事情我個人的看法它更像是一個漸變。
很多人說2026年看到信號,我覺得2025年就看到信號了。
Cursor每幾個小時都會用最新的用戶數(shù)據(jù)去進行學(xué)習(xí),包括新的模型,也在使用這些真實環(huán)境下的數(shù)據(jù)去訓(xùn)練,大家覺得這個東西可能還沒有特別石破天驚,是因為受限于他們沒有預(yù)訓(xùn)練能力,他們模型效果確實還不如Opens,顯然這是一個信號。
最大的問題是想象力,我們很容易想象強化學(xué)習(xí)或者推理這個范式,如果實現(xiàn)大概是什么樣,我們可以想象O1,在數(shù)學(xué)題上本來是10分,現(xiàn)在變成了80分,通過這個強化學(xué)習(xí)有非常強的思維鏈做這個事情。
如果2026年或者2027年我們有一個范式的發(fā)生,我宣布了一個新的模型或者新的系統(tǒng)實現(xiàn)了自我學(xué)習(xí),我們應(yīng)該用什么樣的任務(wù),它應(yīng)該是什么樣的效果,你會相信它實現(xiàn)了。
它是一個賺錢的交易系統(tǒng),它可以賺很多錢,它真的解決了人類之前沒法解決的科學(xué)問題還是別的。我覺得可能需要先想象到它長什么樣。
林俊旸:如果從更實際一點來講的話,剛才講的這個范式在比較早期階段,RL這個事情,實際上我們還沒有做的那么充分,很多潛力沒有打出來。
今天我們也看到很多問題在這里面發(fā)生,我覺得全球范圍內(nèi)類似的問題還存在。
如果要說下一代范式的話,一個自主學(xué)習(xí),之前跟一個朋友聊到說人類不能讓AI變的更厲害,比如說你跟AI不斷地交互,只會讓它上下文變的越來越長,AI變的越來越笨,這是很煩人的事情。
這件事情是不是真的能夠發(fā)生?這還是挺值得思考的,你能吐更多Token讓你變的更強,就像我真的干30個小時真的能夠干出很難的任務(wù),今天大家做超越的事情很難,有沒有可能通過Coding去實現(xiàn)。
從這個角度來說,AI肯定需要自主進化,但究竟你是不是要更新參數(shù),我覺得見仁見智,大家都有不同的技術(shù)手段去實現(xiàn)這個事情。
第二點是AI有沒有可能實現(xiàn)更強的主動性,環(huán)境是我的輸入信號,我現(xiàn)在的AI必須得有人類幫助他才能啟動,但是有沒有可能自己能自主思考,去做一些事情。這引發(fā)了一個新的問題,就是安全的問題,我非常擔(dān)心安全的問題,不是擔(dān)心它今天講一些不該說的話,最擔(dān)心的是它做一些不該做的事情
比如說今天主動產(chǎn)生一些想法,往會場里面扔一顆炸彈,我們肯定不希望不安全的事情發(fā)生。就像培養(yǎng)小孩一樣,我們要給它注入一些正確的方向,但主動學(xué)習(xí)是一個挺重要的范式。
可能很快訓(xùn)AI這件事情就可以實現(xiàn),我看我們同學(xué)每天干這個事情,我覺得很快就被替代掉。
可能更持續(xù)的理解用戶這件事情還挺重要的,比如說過往我們在做推薦系統(tǒng)的時候,用戶這個信息是持續(xù)輸入,讓這個系統(tǒng)變的更強,它的算法變的更簡單。在AI這個時代它是不是能不更懂你,這些信息的輸入能不能真正成為幫助我們的工具。
如果說自主學(xué)習(xí)的話,可能會是跟人的交互上就能做到。但是以什么指標(biāo)進行衡量?不太好說。
在推薦的時代下,你做的越好,別人可能點的越多、買的越多,但是在AI時代覆蓋到人類生活的方方面面的時候,真正的衡量指標(biāo)是什么,我們不太知道。我感覺今天更大的從技術(shù)上的挑戰(zhàn),我們今天不知道該怎么做,這可能是我們更值得研究的問題。
大量的技術(shù)所謂的突破性都是一些觀測問題,都是在線性發(fā)展的,只是人類對它的感受非常強烈而已。
包括像ChatGPT的出現(xiàn),對于我們做大模型的人來講都是線性的增長,現(xiàn)在大家都是在做Memory這個事情,這個技術(shù)對還是不對呢?
很多方案也沒有對錯之分,但做出來的效果,至少拿我們自己獻丑,我們自己的Memory看起來知道我過去干了什么,但是只是記起來過去事情,每次叫一遍我的名字,其實并不顯得你很聰明。
你的Memory有沒有可能到某一個臨界點的時候,結(jié)合你的Memory,就像生活當(dāng)中的人一樣,過去大家講電影,它真的很像人,理解你的Memory就是在那一下,人類的感受突然間迸發(fā)。
我覺得多多少少也需要一年時間,很多時候技術(shù)也沒有發(fā)展那么快。
大家比較卷,每天有新的東西,但是技術(shù)在線性的發(fā)展,我們在觀測的角度處于指數(shù)上升的階段,比如說Coding能力的一點點提升,可能就能帶來很多生產(chǎn)價值。
每天看我們自己做的事情覺得真的挺土的,那些Bug真的不好意思拿出來跟大家講。如果這樣做,我們已經(jīng)做到這樣的成績,我覺得可能未來算法infra結(jié)合的更好,可能更大有可為。
楊強:我一直以來是做聯(lián)邦學(xué)習(xí)的,聯(lián)邦學(xué)習(xí)的主要思想是多個中心大家協(xié)作。
我現(xiàn)在越來越多地看到很多有本地資源不足,但是本地的數(shù)據(jù)又有很多隱私和安全的要求,所以這樣我們就可以想象現(xiàn)在大模型的能力越來越強,這種通用型大模型和本地特殊性的小模型或者領(lǐng)域?qū)<业哪P腿绾螀f(xié)作,我覺得這種協(xié)作變的越來越可能。
像美國ZOOM,就是黃學(xué)東他們做的AI系統(tǒng),他做了一個很大的基座,這個基座大家都可以插進來,它可以在Decentralise的狀態(tài)下,能夠既保護隱私,又能夠和通用大模型有效的溝通、協(xié)作。
我覺得這種開源模式特別好,一個是知識的開源,一個是Code方面的開源,模型階段。
尤其是像醫(yī)療、金融這樣的場景下,會越來越多看到這樣的現(xiàn)象發(fā)生。
唐杰:我對今年會有非常大的范式革新有信心,我不說太細(xì),就像我剛才講的持續(xù)學(xué)習(xí),還有Memory,甚至多模態(tài),我覺得都有可能出現(xiàn)新的范式變革。
為什么會產(chǎn)生這么一個范式?
我覺得原來其實工業(yè)界跑的遠(yuǎn)遠(yuǎn)快于學(xué)術(shù)界,我記得去年和前年回到清華跟很多老師聊天的時候能不能做大模型,很多老師第一是沒卡,也不是沒卡,是卡的數(shù)量幾乎為零。
工業(yè)界有1萬片,學(xué)校是0片或者1片,倍數(shù)是1萬次,但是到現(xiàn)在的時候,很多學(xué)校已經(jīng)有很多卡了,而且很多老師已經(jīng)開始做了很多大模型的相關(guān)研究,包括硅谷那邊有很多老師都開始做模型架構(gòu)、持續(xù)學(xué)習(xí)相關(guān)的研究。
原來我們總覺得工業(yè)界在dominating這些,其實我覺得今天在2025年底到2026年初的時候,這一現(xiàn)象不大存在了,可能還有10倍的差,但它已經(jīng)孵化出種子了,我覺得在學(xué)術(shù)界有這個創(chuàng)新的基因,有這個可能性,這是第一個。
第二,我覺得一個創(chuàng)新的出現(xiàn)一定是某個事情有大量的投入,并且它的efficiency變成瓶頸了,現(xiàn)在在整個大模型里面投入已經(jīng)巨大,但是efficiency并不高,也就是我們繼續(xù)Scaling,肯定是有收益。
原來data從2025年初,當(dāng)時可能10個TB的數(shù)據(jù),現(xiàn)在30個T,甚至我們可以Scaling到100個T,但是100個T,你Scaling上去以后,你的收益有多少,計算Cost有多少,變成了這么一個問題,你不創(chuàng)新,這就變成了可能花掉10個億、花掉了20個億,但是你的收益很小,就不值得了。
另外一方面對于新的智能創(chuàng)新,假如說我們每一次都要重訓(xùn)一個基座,再重訓(xùn)很多RL,像2024年出RL的時候,很多人會覺得我接著訓(xùn),收益表里有,但是到今天的時候再接著瘋狂的RL,收益也有,但沒有那么大,還是收益效率的問題,可能我們未來也許可以定義,一方面既然要Scaling up,最笨的辦法就是Scaling,Scaling我們會有收益,Scaling肯定會帶來智能上界的提升。
第二個辦法是應(yīng)該定義Intelligence efficiency,就是說智能的效率,我們獲得智能的效率,我們用多少投入能獲得這個智能的增量,如果我們能用更少的獲得它的增量,而且現(xiàn)在我們已經(jīng)變成了一個瓶頸,假如能用更少的范式獲得同樣智能的提升,它就變成一個瓶頸式的事情。
所以我覺得2026年一定會有這樣一個范式的發(fā)生,我們也在努力,我們希望發(fā)生在我們身上,但也不一定。
Q3:Agent之年
主持人:第三個是聊聊Agent戰(zhàn)略,它不再只是一個Chat,而是說真的在自動化一整天甚至一周的任務(wù)流,2026年Agent可能是創(chuàng)造經(jīng)濟價值的關(guān)鍵一年。
順雨花了很多時間做Agent的研究,你對2026年Agent,比如說Long Agent真的能干人類1-2周的工作,對Agent戰(zhàn)略,包括從模型公司的出發(fā)點,會怎么思考這個問題?
姚順雨:我覺得還是像剛剛說的toB和toC不太一樣,目前看起來,我覺得toB的情況現(xiàn)在已經(jīng)達(dá)到了在不斷上升的曲線,目前看起來好像沒有變慢的趨勢。
很有意思的一點是它基本上不做什么創(chuàng)新,就是覺得模型預(yù)訓(xùn)練變大了,老老實實的把這些東西做好,只要預(yù)訓(xùn)練不斷地變大,后訓(xùn)練不斷地把這些真實世界的任務(wù)給做好,會越來越聰明,它就會帶來越來越大的價值。
從某種程度來說,做toB,所有的目標(biāo)這件事更一致,模型的智能越高,解決的任務(wù)越多,解決的任務(wù)越多,在toB下帶來的收益越大。
做toC的問題是說,我們都知道DAU或者說產(chǎn)品的指標(biāo)和模型的智能,很多時候是不相關(guān)的,甚至是相反的關(guān)系,我覺得這是能夠聚焦的另一個很重要的原因,他只要真的把模型越做越好,他的收益越來越高,所有的事情都是非常好的。
目前看起來,toB或者說生產(chǎn)力的Agent剛剛開始,現(xiàn)在除了模型之外,有兩個Next,環(huán)境問題或者Deployment問題。
在OpenAI之前,我在一個公司實習(xí)過,這是一個toB的公司,我覺得在toB公司工作過有很多收獲,最大的收獲是即使今天的模型不再變好,所有的模型訓(xùn)練全部停止了。
但是我們把這些模型部署到世界上各種各樣的公司,已經(jīng)能帶來今天10倍或者100倍的收益,能應(yīng)對GDP產(chǎn)生5%-10%的影響,但是今天它對GDP的影響還不到1%。
另外我覺得教育非常重要,我觀察現(xiàn)在人和人的差距非常大,更多時候不是說人類替代了人類工作,而是會使用這些工具的人在替代那些不會使用工具的人,就像當(dāng)年電腦出來,如果轉(zhuǎn)身學(xué)習(xí)編程跟你還在持續(xù)計算尺、使用算法,差距是巨大的。
今天中國能做到的最大的有意義的事情是更好的教育,教育大家怎么更好的使用像Claude或者ChatGPT這樣的產(chǎn)品,當(dāng)然Claude可能在中國用不了,但我們可以用Kimi或者智譜這樣的國產(chǎn)模型。
林俊旸:這里可能涉及到產(chǎn)品哲學(xué)的問題,當(dāng)然Manus確實很成功,套殼是不是未來,這本身也是個話題,今天到這個環(huán)節(jié),我比較同意你的觀點,叫模型即產(chǎn)品。
我跟TML的聊,他們叫Research,其實我挺喜歡這個事情的,包括我的視角看OpenAI,我覺得還有挺多這種事情,就是挺多Research,自己可以成為產(chǎn)品經(jīng)理,把這個東西給做起來,包括今天我們自己內(nèi)部的Research都可以做面向真實世界的東西。
我愿意相信接下來的Agent是可以做到剛才所說的這個事情,而且跟剛才所提的主動學(xué)習(xí)都有比較強烈的關(guān)系,它能干這么長的時間,自己就得在這個過程當(dāng)中進化,并且它還要決定去干什么,因為它收到的這個指令是非常通用的任務(wù),我們現(xiàn)在Agent已經(jīng)變的托管式的Agent,而不是我要不斷給你來來回回交互的那種形式。
從這個角度來說,它對模型的要求是很高的,模型就是這是這個Agent本身,Agent就是這個產(chǎn)品本身,如果它們都是一體化的話,今天做基礎(chǔ)模型本身,其實也就是在做產(chǎn)品。
從這個角度來說,如果不斷提升模型能力的上限,包括Scaling能做上去,確實能夠做到這個事情。
我覺得還有一個點是跟環(huán)境交互有關(guān)系,我們現(xiàn)在交互的環(huán)境還不是很復(fù)雜,這些都還是電腦的環(huán)境。我有朋友是做AI for Science比較相關(guān)的,比如說今天你干AlphaFold這個事情,其實你最后干出來,它還沒有到那一步。
比如距離制藥這件事情,就算用今天的AI,不一定能幫到你那么多,因為你要去做試實驗,你要去做這些事情才能得到反饋,有沒有可能我們未來AI環(huán)境復(fù)雜到真實的人類世界的環(huán)境,指揮機器人去做試實驗,去加快效率。
現(xiàn)在人類的效率非常低,我們還要雇傭很多外包在實驗環(huán)境里面去做實驗,如果能達(dá)到這個點,可能才是我想象當(dāng)中Agent能做很長時間的活,而不是在電腦當(dāng)中寫個文件等,這些東西今年很快就可以完成,接下來3-5年的時間,這個事情會更加有意思一些。這個可能又要跟具身智能結(jié)合在一起。
做通用Agent最有意思的事情就是長尾反而是更值得關(guān)注的事情,或者說今天AI更大的魅力是在長尾,如果是馬太效應(yīng),頭部的東西挺容易解決的。
當(dāng)年做推薦的時候我們看到那個推薦非常集中,商品都是在頭部,但我們想把尾部的東西推過去,但是我當(dāng)時做的非常遭殃,我作為一個干多模態(tài)的人碰到推薦系統(tǒng),我去干解馬太效應(yīng),基本上是奔著死路去的。
今天所謂的AGI就在解這個問題,你做通用Agent,能不能把長尾的問題給解決,今天我一個用戶,真的尋遍各處都找不到能夠幫我解這個問題的,但是在那一刻,我感受到了AI的能力,全世界任何一個角落,尋遍各處都找不到,但是你卻能幫我解決,這就是AI最大的魅力。
要不要做通用Agent呢?我覺得見仁見智,如果你是一套殼高手,套的可以比模型公司做的更好,我覺得可以去做;但如果你沒有這個信心,這個事情可能是留給模型公司做模型即產(chǎn)品的,因為他們遇到問題的時候,我只要訓(xùn)一訓(xùn)模型,只要燒一燒卡,這個問題可能就解決了。
今天RL最有意思的地方,修問題比以前容易。
以前修問題很難。我舉個B端客戶的情況,他們說我們自己要做SSD,你能不能告訴我這個通用數(shù)據(jù)怎么配比,每次我們都很頭痛,我們覺得對方不太會做SSD,他那個數(shù)據(jù)非常垃圾,但他們可能覺得非常有用。
但現(xiàn)在有RL以后,今天很小的一個數(shù)據(jù)點,甚至都不需要標(biāo)注,只要有Query,這個東西稍微訓(xùn)一訓(xùn),合并起來也非常容易,這可能是今天技術(shù)的魅力。
楊強:Agent出現(xiàn),應(yīng)該有四個階段,
一個是目標(biāo)的定義,是人為定義的,還是自動定義的,這是目標(biāo)。第二是說規(guī)劃,就是中間的Action,規(guī)劃可以由人定義,也可以AI自動定義。
我們現(xiàn)在在一個非常初級的階段,目標(biāo)也是人定義的,規(guī)劃也是由人來做的,所以現(xiàn)在的這些Agent的軟件系統(tǒng),基本上是更高級的階段,但是我預(yù)料未來會出現(xiàn)一個大模型觀察人的工作,尤其是把data給使用起來。
最后目標(biāo)也可以是大模型來定義,規(guī)劃也可以由大模型定義,所以Agent應(yīng)該是由大模型內(nèi)生的一個native的系統(tǒng)。
唐杰:有幾個方面決定了Agent未來的走勢。
第一,Agent本身有沒有解決人類的事情,而這個事情是不是有價值,價值有多大?比如說原來的Agent像GPT-S出來也做了很多Agent,那時候你會發(fā)現(xiàn)那個Agent非常簡單,最后發(fā)現(xiàn)promoment就解決了,這時候大部分Agent慢慢就死掉了。第一個是解決Agent這個事情多有價值,以及真的能夠幫到人。
第二,做這個事情咱們Cost有多大,如果Cost的特別大,這個時候也是一個問題,就像剛才俊旸說的,也許調(diào)用一個API就能把這個問題解決了,但是反過來,假如調(diào)到API就能解決,這個API本身有可能覺得當(dāng)這件事情價值很大的時候,就會把它做進去,這是個矛盾,非常矛盾,基座的應(yīng)用永遠(yuǎn)是矛盾。
最后,做應(yīng)用的速度。如果說我有個時間窗,能夠拉開半年的時間窗,迅速把這個應(yīng)用滿足了,半年以后,要么迭代,要么怎么接,怎么能往前走也是一個方面。
大模型到現(xiàn)在更多的是在拼速度、拼時間,也許我們代碼正確了,也許我們就會在這方面走的更遠(yuǎn)一點,但也許失敗以后就半年,半年就沒了,今年我們只是在Coding,在Agent這一塊做了一點點,現(xiàn)在我們Coding的調(diào)用量都還不錯,我覺得更多的也是一個方向,做Agent未來也是一個方向。
Q4:中國能否反超
主持人:第四個問題,在三年和五年以后,全球最領(lǐng)先的AI公司是中國團隊的概率有多大?
姚順雨:我覺得概率還挺高的,我還是挺樂觀的。目前看起來,任何一個事情一旦被發(fā)現(xiàn),在中國就能夠很快的復(fù)現(xiàn),在很多局部做的更好,包括之前制造業(yè)、電動車這樣的例子已經(jīng)不斷地發(fā)生。
我覺得可能有幾個比較關(guān)鍵的點,一個可能是中國的光刻機到底能不能突破,如果最終算力變成了Bottleneck,我們能不能解決算力問題。
目前看起來,我們有很好的電力優(yōu)勢,有很好的基礎(chǔ)設(shè)施的優(yōu)勢。主要的瓶頸,一個是產(chǎn)能,包括光刻機,以及軟件生態(tài)。如果這個問題解決,我覺得會是很大的幫助。
另一個問題,除了toC之外,能不能有更成熟或者更好的toB的市場,或者有沒有機會在國際的商業(yè)環(huán)境競爭。
今天我們看到很多做生產(chǎn)力或者做toB的模型或者應(yīng)用,還是會誕生在美國,因為支付意愿更強的,文化更好,今天在國內(nèi)做這個事情很難,所以大家都會選擇出?;蛘邍H化的事情,這兩個是比較大的客觀上的因素。
更重要的是主觀上的概念,最近我在跟很多人聊天,我們的感受是在中國有非常多非常強的人才,任何一個事情只要被證明能做出來,很多人都會非常積極地嘗試,并且想做的更好。
我覺得中國想要突破新的范式或者做非常冒險事情的人可能還不夠多,這里面有經(jīng)濟環(huán)境、商業(yè)環(huán)境包括文化的因素,如果增加一點,主觀上有沒有更多有創(chuàng)業(yè)精神或者冒險精神的人,真的想要去做前沿探索或者新的范式突破的事情。
目前來看,一個范式一旦發(fā)生,我們可以用很少的卡、很高的效率去局部做的更好,我們到底能不能引領(lǐng)新的范式,這可能是今天中國唯一要解決的問題,因為其他所有做的事情,無論是商業(yè),還是產(chǎn)業(yè)設(shè)計,還是做工程,我們某種程度上已經(jīng)比美國做的更好。
每個地方的研究文化都很不一樣,美國實驗室的區(qū)別可能比中美實驗室的差別還要大,在中國也一樣。
在中國大家還是更喜歡做更安全的事情,比如說今天預(yù)訓(xùn)練這個事情已經(jīng)被證明可以做出來了,其實這個事情也非常難做,有很多技術(shù)問題要解決,但只要這件事情一旦被證明能做出來,我們都很有信心幾個月或者一段時間內(nèi)就把這個問題搞清楚。
但如果今天讓一個人說探索一個長期記憶或者持續(xù)學(xué)習(xí),這個事情大家不知道怎么做、不知道能不能做起來,這個事情還是比較困難的。
可能不只是大家更喜歡做確定性的事情、不太愿意做創(chuàng)新性的事情,很重要的一點是文化的積累或者整體的認(rèn)知,其實是需要時間沉淀的事情
OpenAI在2022年就開始做這個事情了,國內(nèi)2023年開始做了,對這個東西的理解會有一些差異,或者說中國沒有這么大。
我覺得可能很多也就是時間問題,當(dāng)你積累了文化或者底蘊更深的時候,潛移默化的程度可能會影響人的做事方式,但是它很微妙,很難通過榜單去體現(xiàn)。
中國對于刷榜或者數(shù)字看的更重一些,包括DeepSeek做的比較好的一點,他們可能沒有那么關(guān)注榜單的數(shù)字,可能會更注重,第一,什么是正確的事情;
第二,什么是你自己能體驗出好或者不好的。我覺得這還是挺有意思的,因為你看Claude模型可能在編程或者軟件工程的榜單上也不是最高的,但大家都知道這個東西是最好用的,我覺得這還是需要大家能夠走出這些榜單的束縛,能夠堅持自己覺得是不是正確的過程。
林俊旸:美國的Computer可能整體比我們大1-2個數(shù)量級,但我看到不管是OpenAI還是什么,他們大量的Computer投入到的是下一代的Research當(dāng)中去,我們今天相對來說捉襟見肘,光交付可能就已經(jīng)占據(jù)了我們絕大部分的Computer,這會是一個比較大的差異在這里。
創(chuàng)新是發(fā)生在有錢的人手里,還是窮人手里,窮人不是沒有機會,我們覺得這些富哥真的很浪費卡,他們訓(xùn)了這么東西,可能訓(xùn)了很多也沒什么用,但今天窮的話,比如今天所謂的算法Infra聯(lián)合優(yōu)化的事情,如果你真的很富,就沒有什么動力去做這個事情。
我覺得可能更進一步的,剛才順雨提到光刻機的問題,未來有可能還有一個點,如果從軟硬結(jié)合的角度,是不是真的有可能做出來,比如說我們下一代這個模型和芯片,有可能是一起把它給做出來的。
我在2021年的時候在做大模型,因為阿里做芯片,在找我說能不能預(yù)測一下三年之后這個模型是不是Transformer,三年之后這個模型是不是多模態(tài),為什么是三年呢?
他說我們需要三年時間才能流片。
我當(dāng)時的回答是三年之后,在不在阿里巴巴,我都不知道!
但我今天還在阿里巴巴,他果然還是Transformer,果然還是多模態(tài),我非常懊悔為什么當(dāng)時沒有催他去做,當(dāng)時我們的交流非常雞同鴨講,他給我講了一大堆東西,我完全聽不懂。
我給他講,他也不知道我們在做什么,就錯過了這個機會。這個機會有沒有可能再來一次?我們雖然是一群窮人,是不是窮則生變,創(chuàng)新的機會會不會發(fā)生在這里?
今天我們教育在變好,我屬于90年代靠前一些的,順雨屬于90年代靠后一點的,我們團隊里面有很多00后,我感覺大家的冒險精神變的越來越強。
美國人天然有非常強烈的冒險精神,一個很典型的例子是當(dāng)時電動車剛出來,甚至天棚漏水的情況下,甚至開車會意外身亡的情況下,依然會有很多富豪們都愿意去做這個事情。
今天大家的冒險精神開始變的更好,中國的營商環(huán)境也在變的更好的情況下,我覺得是有可能帶來一些創(chuàng)新的。
概率沒那么大,但真的有可能。我覺得是20%吧,已經(jīng)非常樂觀了。
今天你干這一行就不能恐懼,必須得有非常強的心態(tài),對于我們的心態(tài)來說,能干這一行就非常不錯了,能做大模型這件事情已經(jīng)非常幸運了。
我覺得還是看你的初心是什么,剛才順雨提到一個點,你的模型不一定那么強在C端里邊是OK的。我可能轉(zhuǎn)換成另外一個角度去思考這個問題,我們的模型為人類社會帶來了什么樣的價值,只要我相信我這個東西能夠為人類社會帶來充分的價值,能夠幫助人類,就算不是最強的,我也愿意接受。
楊強:我們可以回顧一下互聯(lián)網(wǎng)的發(fā)展,一開始也是從美國開始,但中國很快就趕上了,而且應(yīng)用像微信,是世界第一的。
我想AI是一個技術(shù),它并不是一個終端的產(chǎn)品,但我們中國有很多聰明才智會把這個產(chǎn)品發(fā)揮到極致,不管是toB還是toC,但我可能更看好toC,因為百花齊放,中國人集思廣益,但toB可能會有一些限制,像付費意愿、企業(yè)文化等也在改變。
我最近也在觀察商業(yè)方向跟商學(xué)院的一些同學(xué)探討,比方說美國有一個公司叫Palantir,它的一個理念是不管AI現(xiàn)在發(fā)展到什么階段,我總是能在AI里面發(fā)現(xiàn)一些好的東西應(yīng)用在企業(yè)上,中間肯定有g(shù)ap,我們要給它彌合,它有一個辦法叫本體,用的是本體的方法。
我觀察了一下,大概的思想是我們之前做的遷移學(xué)習(xí),就是說把一個通用的Solution能夠應(yīng)用到一個具體的實踐當(dāng)中,用一個本體來做知識的遷移,這個方法非常巧妙。當(dāng)然它是通過一種工程的方法,叫前端工程師FDE來解決的。
不管怎么樣,我覺得像這種就非常值得我們學(xué)習(xí),我覺得中國的企業(yè)像AI Native的公司應(yīng)該發(fā)展出這樣一些toB的Solution來,我相信會的。所以我覺得toC肯定是百花齊放的,toB也會很快的跟上來。
唐杰:首先我覺得確實要承認(rèn)在中美,無論是做研究,尤其是企業(yè)界的AI Lab,我覺得和美國是有差距的,這是第一個。
但我覺得在未來中國,現(xiàn)在慢慢變的越來越好,尤其是90后、00后這一代企業(yè),遠(yuǎn)遠(yuǎn)好過之前。有一次我在一個會上說我們這一代最不幸運,上一代也在繼續(xù)工作,我們也在工作,所以我們還沒有出頭之日,很不幸的是下一代已經(jīng)出來了,世界已經(jīng)交給下一代了,已經(jīng)把我們這一代無縫跳過了。這是開玩笑的。
中國也許的機會:
第一,一群聰明人真的敢做特別冒險的事
00后這一代,包括90后這一代是有的,包括俊旸、Kimi、順雨都非常愿意冒風(fēng)險來做這樣的事情。
第二,咱們的環(huán)境可能更好一些。
無論是國家的環(huán)境,比如說大企業(yè)和小企業(yè)之間的競爭,創(chuàng)業(yè)企業(yè)之間的問題,包括我們的營商環(huán)境,像剛才俊旸說的,我還在做交付,我覺得如果把這個環(huán)境建設(shè)的更好。
讓一群敢于冒險的聰明人有更多的時間去做這樣創(chuàng)新的事情,比如說讓俊旸有更多的時間做創(chuàng)新的事情,這是第二個,也許是我們政府,包括我們國家可以幫忙改善的事情。
第三,回到我們每個人自己身上,就是我們能不能堅持。
我們能不能愿意在一條路上敢做、敢冒險,而且環(huán)境還不錯。
我覺得環(huán)境肯定不會是最好的,永遠(yuǎn)不會想著環(huán)境是最好的,我們恰恰是幸運,我們經(jīng)歷環(huán)境從原來沒那么好,到慢慢變得更好的一個時代。
我們是經(jīng)歷者,也許就是財富,包括經(jīng)歷收獲最多的人,如果我們笨笨的堅持,也許走到最后的就是我們。
張鈸院士:AI時代,企業(yè)家會承擔(dān)更多使命
聽了這個報告之后,我一直在思索,覺得還可以說幾句話,實際上我沒有資格說這些話,首先我跟大家的年齡已經(jīng)差的非常多了,剛才唐杰老師還說下一代如何替代他,我早已經(jīng)被替代了。
對企業(yè)來講我是外行,但是我想起剛才楊強老師提到的哥德爾的一句話,不完全性定理。
也就是說,系統(tǒng)內(nèi)部、圈子內(nèi)部的人很難發(fā)現(xiàn)它里頭的問題和錯誤。我作為圈外的人,因此給我提供的條件,有可能發(fā)現(xiàn)你們還發(fā)現(xiàn)不到的問題。
我在中間休息的時候做了PPT,我不敢太多早,沒聽到大家是怎么做的,不敢先做。
首先先說一個問題,我們現(xiàn)在正在干什么事。
從剛才各位介紹中,大家都在做大語言模型,實際上最初的就是做一個聊天機器人,也就是說希望機器跟人類能夠說話。這個做的結(jié)果怎么樣?做的結(jié)果是這樣,在外部提示下,機器能夠在開放領(lǐng)域生成多樣性的、語義上連貫的類似人類的語言。
做到這一點,這一點算不算掌握了人類的語言呢?應(yīng)該說算,但是還不夠徹底,也就是說我們發(fā)現(xiàn)它里頭有很多地方跟人類語言不一樣。
這個怎么辦?什么原因引起的?我們今后究竟通過這個能做到什么程度?最后能不能像人類那樣理解自己的工作,而且對自己的問題能夠進行反思、能夠有意識,哲學(xué)來講叫做有沒有自反性。
我們現(xiàn)在從這個出發(fā),究竟現(xiàn)在大語言模型用的什么原理,實際上用了分布式語義的原理,也就是把語義翻譯成Firth說的這句話,用它周圍貢獻頻率最高的詞,來作為這個詞的語義,他是這么來定義的。
從這出發(fā),我們就有條件把貢獻的詞變成從貢獻中學(xué)習(xí)語義,我們現(xiàn)在就是這么做的,實際上是把原來離散空間里貢獻的詞,變成高維空間里頭稀疏的空間,幫它變成致密的向量空間的幾何結(jié)構(gòu),這是一個重大的進步,使得我們語言變成可計算的。因為原來稀疏的貢獻的空間是不能計算的,現(xiàn)在變成稠密的向量空間就可以計算。所以把語言處理的問題完全變成數(shù)學(xué)計算問題。
可以證明,只要你用的數(shù)據(jù)量足夠多,用的上下文足夠長,這個空間就會出現(xiàn)語義關(guān)系空間。如果我們有了足夠的數(shù)據(jù),有了足夠長的文本,就會使這個越接近它。
大家現(xiàn)在拼命在這做方面的工作,這個長度越長越好,數(shù)據(jù)越多越好,現(xiàn)在基本上趨近于語義關(guān)系了,從這個角度來看,唐杰老師也說了一定意義下完全可以做到理解、可以做到自反性,也是對自己的思考進行思考。實際上現(xiàn)在大家在大語言模型中,已經(jīng)發(fā)現(xiàn)了這個現(xiàn)象。
這個問題現(xiàn)在出在哪里?出在模型是近似的,不是人類語言的真正模型,為什么?因為我們使用的定義是用貢獻的詞來定義我這個意義。
關(guān)于語義的定義,世界上有七八種不同哲學(xué)學(xué)派的定義,我們對語義并沒有科學(xué)的定義,所以現(xiàn)在所用的定義都是不完備的,都是近似的,這樣就告訴我們,即使你把這個模型做的非常大,你畢竟也是在這個語義定義下的語義關(guān)系。
所以現(xiàn)在很多人提出來,很多人發(fā)現(xiàn)機器人出現(xiàn)很多怪現(xiàn)象,都?xì)w結(jié)于語義有問題,這是有錯誤的。
現(xiàn)在很多東西是由于模型近似引起的,我們這么定義意義本身是很不完備、很不準(zhǔn)確的,因為科學(xué)上現(xiàn)在并找不到準(zhǔn)確的定義,這就會出現(xiàn)五個缺失:
指稱的缺失、真知和因果的缺失、語用的缺失、多義和動態(tài)語境的缺失、閉環(huán)行為的缺失。
這五個缺失必然會影響到你用語言模型去做應(yīng)用。所以現(xiàn)在我們要做的就是在干這件事。
剛才也有很多報告講的非常清楚,我們通過這里頭的體系結(jié)構(gòu)、算法本身,是會幫助我們不斷趨近這個語義關(guān)系,但是這個語義關(guān)系,是我們目前能夠得到最好的,不可能再得到我們真正需要的準(zhǔn)確的定義。所以這五個缺失必然存在。
下面講另外一個問題,我們現(xiàn)在需要干什么?
實際上現(xiàn)在大家所做的事情就是要從LLM要能夠?qū)崿F(xiàn)實際環(huán)境下執(zhí)行復(fù)雜任務(wù)的Agent,大家現(xiàn)在在做這個事,你把語言模型拿去應(yīng)用,現(xiàn)在有很多問題,想從語言模型再跨進一步,把它變成可執(zhí)行復(fù)雜任務(wù)的Agent。
大家把這個目標(biāo)用一個概念來套,叫做通用人工智能。其實用這個概念有很多誤解,實際上我們目標(biāo)是這個,但是為了說的好聽,大家都說AGI,因為AGI很有吸引力。
這里有一個誤導(dǎo),大家以為做AGI都要做通用,其實AGI確實強調(diào)通用,但是跟我們目前想做的事不是一回事,但現(xiàn)在大家都這么用,我們也只好這么用,所以很多用這個目標(biāo)來做定義的肯定都不行,都會引起很大的誤解。
比如馬斯克說,我們?nèi)祟惸軌蚋?0%以上的任務(wù),機器都會干,而且達(dá)到或者超過人類的水平,這樣的定義完全不可執(zhí)行、不可檢驗,所以必然引起很多誤解,有的人說很容易得到,有的人說根本達(dá)不到,為什么?
因為這個定義非常模糊。什么叫做達(dá)到人類水平?時變率超過人類,算不算達(dá)到人類的水平,有的人說算,有的人說根本不算,如果魯棒性從其他方面來看差的遠(yuǎn)。所以我認(rèn)為必須要定義一個可執(zhí)行、可檢驗的定義。
我認(rèn)為可執(zhí)行、可檢驗的定義,AGI就應(yīng)該滿足下面5個要求,達(dá)到下面5個關(guān)鍵的能力。其實現(xiàn)在大家在做的都是這5件事。剛才唐老師講了4個層次,實際上包括我這里的幾個層次,但少了一個,我這里強調(diào)這幾個問題的形容詞非常重要:
時空一致的多模態(tài)理解與落地。
大家都在做這個,關(guān)鍵在哪里?關(guān)鍵在時空一致性,這是非常大的困難,大家知道每個模態(tài)的時間是不同步的,視頻是一個幀一個幀的,文本是幾千年一句話,兩個詞很難對齊,你如果對不齊,根本做不到多模態(tài)理解。
可控的在線學(xué)習(xí)與適應(yīng)。
過去我們做的主要是離線學(xué)習(xí),剛才大家說RL強化學(xué)習(xí),其實強化學(xué)習(xí)最重要的是可控性問題,剛才唐老師說到可檢驗,可檢驗放在推理可控的問題。
其實強化學(xué)習(xí)最大的問題是不可控,你雖然有目標(biāo)在那兒,但這個目標(biāo)能不能收斂到那去,整個學(xué)習(xí)過程是不可控的,如果不解決可控的問題,其實在線學(xué)習(xí)的效果不會特別好。
可驗證的推理與長期執(zhí)行與規(guī)劃。
對于推理來講,必須要可檢驗。對于很多大模型里頭,很多推理不可檢驗,很難判定它對與錯,規(guī)劃主要是集中在長期的規(guī)劃和執(zhí)行,所以這個關(guān)鍵的問題必須抓住一個形容自。
可校準(zhǔn)的反思與元認(rèn)知。
現(xiàn)在所有的反思都是一種感覺,并沒有可回溯、可檢驗、可把它變成一個準(zhǔn)確的信號。
跨任務(wù)強泛化。
大家知道大語言模型在跨領(lǐng)域的泛化上效果很好,但如果我們要讓它去執(zhí)行實際的任務(wù),必須要實現(xiàn)跨任務(wù)的強化問題。這里頭最大的困難就是分布以外的,結(jié)構(gòu)不一樣,長尾的泛化。
所以我認(rèn)為如果我們把這個作為我們的目標(biāo),我們就有一個可執(zhí)行、可檢驗的定義,我認(rèn)為按照這個定義,應(yīng)該是可以指導(dǎo)我們往前做的。
下面一個問題,整個講起來就是組成這么一個東西,就是Agent。
再走一步,怎么辦?
實際上我們現(xiàn)在做的幾件事都是沖著解決這5個問題的,多模態(tài),具身與交互落地,檢索與證據(jù)不落地,結(jié)構(gòu)化知識對齊,工具與執(zhí)行落地,對齊與約束落地。
具體的,我們就做這六件事,這六件事都是沖著剛才講的五個目標(biāo)來完成的。
第四,我們的目標(biāo)是什么?
過去人工智能只是作為工具,現(xiàn)在我們處于一個非常矛盾的狀態(tài),我們一方面又希望人工智能能夠做更多更復(fù)雜的事情、又害怕人工智能超過我們,成為新的主體。
所以大家非常焦慮,過去我們只有一個主體,人類都擺不平,因為人類這個主體是復(fù)數(shù)的,不是單數(shù)的,每個主體的要求都不一樣,之后再出現(xiàn)人類以外的主體,我們該怎么辦?我們?nèi)绾胃斯ぶ悄芟嗵帲课覀內(nèi)绾蝸斫鉀Q這種擔(dān)憂?
實際上未來的主體分成3個層次:
1、功能-行動主體。
目前我們已經(jīng)達(dá)到了,而且很希望它達(dá)到,因為它可以幫助我們。
2、規(guī)范-責(zé)任主體。
這個目前還沒達(dá)到,一個最大的困難,如何使機器也能夠擔(dān)負(fù)起責(zé)任來,這是我們希望做到的,但從目前的情況來講有一定的難度,技術(shù)的難度比較高,但我相信大家會努力地爭取做這個事。
3、體驗-意識主體。
大家最怕的是這個,一旦機器有了意識以后,我們?nèi)祟愒撛趺崔k?
如果我們做實際企業(yè)的人,可能不必考慮太遠(yuǎn),我們考慮第一、第二就可以,但是這兩個問題必須考慮:對齊和治理。
對齊這個問題,大家談的很多,機器一定要和人類對齊嗎?這是值得討論的問題,人類并不是都有優(yōu)點的,人類中間貪婪、欺騙,原來機器都沒有,像人類對齊,人類到了最高嗎?不是,我們也涉及到這個問題。
我們?nèi)绾蝸碇卫??我認(rèn)為最主要的治理不是治理機器,而是治理人類,也就是研究者和使用者。
這里頭,涉及到我們?nèi)斯ぶ悄軙r代的企業(yè)、企業(yè)家應(yīng)該擔(dān)負(fù)什么責(zé)任。
第五,AI時代的企業(yè)家。
在大語言模型出現(xiàn)之前,我非常不贊成我的學(xué)生去創(chuàng)業(yè),有的學(xué)生家長找我,有些學(xué)生家長跟我的觀點也一樣,說別去搞企業(yè),但是大模型之后,我覺得最優(yōu)秀的學(xué)生應(yīng)該去搞企業(yè)。
因為人工智能給企業(yè)家做的重新的定義,剛才說人工智能會定義一切,同時也定義未來的企業(yè)家。這里頭未來的企業(yè)家應(yīng)該具備這六個方面的職責(zé)。
我簡單說一下重新定義價值的創(chuàng)造。人工智能不是給大家簡單的提供產(chǎn)品和服務(wù),而是把知識、倫理和應(yīng)用變成可復(fù)用的工具,去實現(xiàn)對人類的造福,所以這個東西完全改變了,而且要把人工智能作為像水和電那樣通用的技術(shù)交給人類,所以企業(yè)家的要求很高,包括關(guān)于治理問題。
對于企業(yè)家、對企業(yè)也必須把這個社會的責(zé)任擔(dān)當(dāng)起來,所以人工智能時代的企業(yè)家是有很多新的使命。
AI時代,企業(yè)家會變成光榮的、神圣的職業(yè)之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
連續(xù)12個漲停板!股民:妖股讓人癡狂!

連續(xù)12個漲停板!股民:妖股讓人癡狂!

數(shù)據(jù)挖掘分析
2026-01-12 15:01:13
工信部部長李樂成:裝光刻膠的玻璃瓶已在產(chǎn)線上試用,反應(yīng)很好

工信部部長李樂成:裝光刻膠的玻璃瓶已在產(chǎn)線上試用,反應(yīng)很好

IT之家
2026-01-12 17:47:23
恭喜楊瀚森!中國歷史首人!姚明都沒能做到

恭喜楊瀚森!中國歷史首人!姚明都沒能做到

King迪哥侃球
2026-01-11 21:55:00
49歲“李小冉”也太凡爾賽了吧!穿羽絨服配牛仔褲,漫畫腿太搶鏡

49歲“李小冉”也太凡爾賽了吧!穿羽絨服配牛仔褲,漫畫腿太搶鏡

蓓小西
2026-01-12 09:21:07
克林頓披露:當(dāng)年為了能打贏朝鮮戰(zhàn)爭,美國總共投入了200萬軍隊

克林頓披露:當(dāng)年為了能打贏朝鮮戰(zhàn)爭,美國總共投入了200萬軍隊

阿器談史
2026-01-12 20:30:27
76年華國鋒秘密詢問吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

76年華國鋒秘密詢問吳德:你在衛(wèi)戍區(qū)的搭檔是否可靠,吳作何回答

春秋硯
2026-01-10 09:30:19
輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

輸球又輸人!澳主帥吐槽國足用70年代打法,輸不起言論引爭議!

田先生籃球
2026-01-11 22:39:31
上海國企“大換血”,新董事長能否力挽狂瀾?

上海國企“大換血”,新董事長能否力挽狂瀾?

房地產(chǎn)營銷總
2026-01-12 14:20:36
醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

醫(yī)生:堅持走路鍛煉的老人,過不了幾個月,身體會迎來5大變化

岐黃傳人孫大夫
2025-12-24 09:08:19
再見歐文,真徹底不打了?。?!

再見歐文,真徹底不打了?。?!

體育新角度
2026-01-12 16:21:14
南天門計劃有可能是真的,10萬噸級空天母艦以外星戰(zhàn)機為目標(biāo)

南天門計劃有可能是真的,10萬噸級空天母艦以外星戰(zhàn)機為目標(biāo)

三叔的裝備空間
2026-01-12 21:15:58
中方廣發(fā)邀請?zhí)?,多國積極派兵,1國拒絕派兵,金磚內(nèi)部冒出刺頭

中方廣發(fā)邀請?zhí)?,多國積極派兵,1國拒絕派兵,金磚內(nèi)部冒出刺頭

時時有聊
2026-01-11 19:26:09
1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

1986年陳永貴病逝,追悼會規(guī)格成難題,鄧小平只說了一句話,全場安靜

寄史言志
2026-01-04 16:34:31
當(dāng)不成總統(tǒng)了?剛發(fā)起斬首行動,特朗普就迎來噩耗,美國陷入混亂

當(dāng)不成總統(tǒng)了?剛發(fā)起斬首行動,特朗普就迎來噩耗,美國陷入混亂

觸摸史跡
2026-01-12 10:49:55
78年,我和弟弟去大伯家借10斤大米,回家后母親敞開米袋子哭了

78年,我和弟弟去大伯家借10斤大米,回家后母親敞開米袋子哭了

小月文史
2024-08-30 15:32:41
河南隊官方:阿奇姆彭、卡多索等10名球員合同到期離隊

河南隊官方:阿奇姆彭、卡多索等10名球員合同到期離隊

懂球帝
2026-01-12 19:00:31
她一嫁演員祝延平,二嫁杜淳老爸杜志國,如今老了與兒子相依為命

她一嫁演員祝延平,二嫁杜淳老爸杜志國,如今老了與兒子相依為命

豐譚筆錄
2026-01-12 07:50:12
真來了!特斯拉中國即將推出 Model 3 廉價版,售價低于 20 萬

真來了!特斯拉中國即將推出 Model 3 廉價版,售價低于 20 萬

XCiOS俱樂部
2026-01-12 14:26:11
國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

國產(chǎn)香煙加了助燃劑?測試發(fā)現(xiàn)只能燒4分鐘,而日本煙能燒7分鐘

回旋鏢
2026-01-01 21:00:24
曾公開威脅“用核武打中國”的武漢大學(xué)985女碩士王懿餓死在日本

曾公開威脅“用核武打中國”的武漢大學(xué)985女碩士王懿餓死在日本

南權(quán)先生
2026-01-12 16:45:45
2026-01-12 21:48:49
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領(lǐng)先的金融商業(yè)信息提供商
139984文章數(shù) 2652103關(guān)注度
往期回顧 全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

頭條要聞

知曉女子丈夫出差 男子跨城趕來將她約賓館猥褻拍裸照

體育要聞

聰明的球員,不是教練教出來的

娛樂要聞

蔡少芬結(jié)婚18周年,與張晉過二人世界

財經(jīng)要聞

倍輕松信披迷霧 實控人占用資金金額存疑

汽車要聞

增配不加價 北京現(xiàn)代 第五代 勝達(dá)2026款上市

態(tài)度原創(chuàng)

旅游
家居
藝術(shù)
手機
公開課

旅游要聞

冰上漁歌起 年味踏雪來 哈素海冬捕節(jié)解鎖青城跨年新玩法

家居要聞

包絡(luò)石木為生 野性舒適

藝術(shù)要聞

畫完這組畫,他抑郁了,后來自殺了

手機要聞

消息稱三星Galaxy Z Flip 8影像規(guī)格原地踏步,售價或與前代相同

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版