国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

獨(dú)家實(shí)錄|唐杰、楊植麟、林俊旸、姚順雨...All Star 對(duì)話上,大家聊了啥?

0
分享至


中國(guó) AI 全明星

今天下午,AGI-Next 閉門峰會(huì),匯集了中國(guó) AI 行業(yè)全明星陣容

三場(chǎng)報(bào)告,分別來(lái)自智譜唐杰、Kimi 楊植麟、Qwen 林俊旸

開(kāi)源四大天王,三缺一
DeepSeek 由于眾所周知的原因,無(wú)法出席

一場(chǎng)圓桌,參與者包括:楊強(qiáng)唐杰林俊旸、姚順雨(遠(yuǎn)程連入)

最終的收尾,來(lái)自德高望重的張鈸院士


活動(dòng)日程

AGI-Next 活動(dòng),由唐杰老師召集,獨(dú)一檔的號(hào)召力

我在現(xiàn)場(chǎng),給大家?guī)?lái)了這份獨(dú)家實(shí)錄,共計(jì)4萬(wàn)余字


讓機(jī)器像人一樣思考

演講人:唐杰(智譜首席科學(xué)家、清華大學(xué)教授)

今天這個(gè)活動(dòng)更多的是個(gè)學(xué)術(shù)活動(dòng),所以我們沒(méi)有前面太多的環(huán)節(jié),咱們直接進(jìn)入報(bào)告環(huán)節(jié)。

我自己這次要求大家、要求我們的團(tuán)隊(duì)沒(méi)有主持人,不需要主持人。未來(lái)都是AI時(shí)代了,用AI主持,現(xiàn)在AI還沒(méi)有做到,我先自我主持。第二個(gè)報(bào)告Kimi直接上來(lái)就行了,俊旸也直接上來(lái),接下來(lái)是Panel,我開(kāi)始我的報(bào)告。

我的報(bào)告題目,一方面是匯報(bào)我們這個(gè)基礎(chǔ)實(shí)驗(yàn)室現(xiàn)在做的一些工作,另外一方面再給大家探討一些想法和對(duì)未來(lái)的一些看法。我的題目是「讓機(jī)器像人一樣思考」,為什么這么說(shuō)?其實(shí)我這個(gè)題目,當(dāng)年我第一次提出來(lái)的時(shí)候,張鈸院士是反對(duì)我的,說(shuō)你不能老說(shuō)讓機(jī)器像人一樣思考。但是我加了一個(gè)引號(hào),所以現(xiàn)在可能允許我加引號(hào)說(shuō)了。

智譜的起源與精神

我們從2019年開(kāi)始在思考,我們能不能做到讓機(jī)器像人一樣真正在有可能的一點(diǎn)點(diǎn)的思考。所以2019年我們從清華成果轉(zhuǎn)化,當(dāng)時(shí)在學(xué)校的大力支持下,我們成立了智譜這么一家公司,我現(xiàn)在在智譜做首席科學(xué)家。我們也開(kāi)源了很多,大家可以看到這里有開(kāi)源的很多項(xiàng)目,左邊還有很多關(guān)于大模型API調(diào)用的一些東西。

我在清華大概有20年,我2006年畢業(yè),到今年正好20年。其實(shí)我一直在做的事情,我總結(jié)了一下也就兩個(gè)事:第一,當(dāng)年做了AMiner系統(tǒng);第二,現(xiàn)在在做的大模型。

我一直有一個(gè)觀點(diǎn),我自己受影響也比較大,我把它叫做像咖啡一樣的精神來(lái)做事情。其實(shí)那個(gè)事情跟今天在座的一位嘉賓非常相關(guān),就是楊強(qiáng)教授。我記得我剛畢業(yè)的時(shí)候去港科大,去過(guò)的人都知道港科大就是一棟樓,會(huì)議室在里面、教室在里面、實(shí)驗(yàn)室也在里面、咖啡廳也在里面,吃飯的、打籃球的,都在這一棟樓里面。當(dāng)時(shí)我們老能碰到,有一次在咖啡廳碰到以后,我就說(shuō)這兩天咖啡喝的非常多,是不是要戒一戒,要不然對(duì)身體不好。楊老師第一句話是說(shuō)「對(duì),應(yīng)該戒一戒」,然后他說(shuō)也不對(duì),如果我們做研究能像你喝咖啡上癮,是不是我們研究就做的非常好了?

當(dāng)時(shí)喝咖啡上癮這個(gè)事情一下子對(duì)我觸動(dòng)非常大,而且從2008年影響我到現(xiàn)在,也就是做事情可能就是要專注,一直做下去。這一次正好有幸碰到AGI這個(gè)事情,正好是需要長(zhǎng)期投入、長(zhǎng)期做的一件事,它不是短平快,今天我做了,明天就能開(kāi)花結(jié)果,后天就結(jié)束了,它非常長(zhǎng)期,恰恰值得來(lái)投入。

我們實(shí)驗(yàn)室2019年的時(shí)候在圖神經(jīng)網(wǎng)絡(luò)、知識(shí)圖譜方面,其實(shí)我們?cè)趪?guó)際上做的還行,但當(dāng)時(shí)我們堅(jiān)定地把這兩個(gè)方向暫停了,暫時(shí)不做了,所有的人都轉(zhuǎn)向做大模型,所有的人開(kāi)始啟動(dòng)了大模型相關(guān)的研究。到今天做了一點(diǎn)點(diǎn)事情。

大模型智能水平的演進(jìn)

大家也知道全球化,其實(shí)這張圖是在2025年2月份,在整個(gè)大模型發(fā)展史上,我們把它叫智能水平,這個(gè)智能水平已經(jīng)大大提高了。

從早期的2020年,其實(shí)我們看到一些很簡(jiǎn)單的像MMU和QA的一些問(wèn)題,當(dāng)時(shí)已經(jīng)很不錯(cuò)了,到今天基本可以做到非常滿分的程度。慢慢地,從最早期一些簡(jiǎn)單的問(wèn)題,到了2021、2022年開(kāi)始做一些數(shù)學(xué)題、一些需要推理——也就是加減乘除才能做對(duì)的問(wèn)題,這時(shí)候我們可以看到模型通過(guò)后訓(xùn)練,慢慢地,現(xiàn)在也把這些問(wèn)題補(bǔ)齊了,而且能力也大大提高。

再到2023、2024年,大家看到模型的發(fā)展從原來(lái)的只是一些知識(shí)記憶,到簡(jiǎn)單的數(shù)學(xué)推理,到更復(fù)雜的,甚至可以做一些研究生的問(wèn)題,甚至開(kāi)始回答一些我們真實(shí)世界的問(wèn)題。比如說(shuō)SWE Bench里面,其實(shí)已經(jīng)做了很多真實(shí)世界的編程問(wèn)題。這時(shí)候我們可以看到模型的能力,智能水平越來(lái)越復(fù)雜,就像人成長(zhǎng)一樣——一開(kāi)始我們?cè)谛W(xué)里面多看書,慢慢地做數(shù)學(xué)題,慢慢到了初高中,我們回答一些研究生的復(fù)雜推理問(wèn)題。再到畢業(yè)之后,我們開(kāi)始完成工作上的一些問(wèn)題,更難的一些問(wèn)題。

到今年大家可以看到,HLE(人類終極測(cè)試)這個(gè)任務(wù)里面特別難,如果大家去看HLE里面,甚至有些問(wèn)題連谷歌也找不到,比如說(shuō)世界上某一個(gè)鳥的某一個(gè)恥骨的某一個(gè)什么,連谷歌也找不到這個(gè)頁(yè)面,所以需要這個(gè)模型泛化出來(lái)。這時(shí)候該怎么做?現(xiàn)在也沒(méi)有答案,但大家可以看到,它的能力在2025年快速得到提升。

從Scaling到泛化

另外一方面,我們可以看到這個(gè)模型,什么叫從Scaling到泛化?我們?nèi)艘恢倍枷M麢C(jī)器有泛化能力,我教它一點(diǎn)點(diǎn),它就能舉一反三,其實(shí)就和人一樣。我們?cè)诮桃粋€(gè)小孩子的時(shí)候,我們總希望教小孩子三個(gè)問(wèn)題,他就會(huì)第四個(gè)、會(huì)第十個(gè),甚至連原來(lái)沒(méi)教過(guò)的也會(huì),這時(shí)候我們?cè)趺磥?lái)做?

直到今天,我們的目標(biāo)是希望通過(guò)Scaling讓它有更強(qiáng)的泛化能力,但是直到今天它的泛化能力還有待大大的提高,我們?cè)诓煌膶用嬖谔岣咚?/p>

最早期的時(shí)候我們用Transformer訓(xùn)一個(gè)模型,把所有的知識(shí)記憶下來(lái)。我們訓(xùn)的數(shù)據(jù)越多,我們訓(xùn)的算力越多,它的長(zhǎng)時(shí)知識(shí)的記憶能力越強(qiáng),也就是說(shuō)它把世界上所有的知識(shí)都背下來(lái)了,并且有一定的泛化能力,可以抽象,可以做簡(jiǎn)單的推理。于是你要問(wèn)一個(gè)問(wèn)題,中國(guó)的首都是什么?這時(shí)候模型不需要推理,它只是從知識(shí)庫(kù)里拿出來(lái)。

第二層是把這個(gè)模型進(jìn)行對(duì)齊和推理,讓這個(gè)模型有更復(fù)雜的推理能力以及理解我們的意圖。我們需要持續(xù)的Scaling SFT,甚至強(qiáng)化學(xué)習(xí)。通過(guò)人類大量的數(shù)據(jù)反饋,我們?cè)赟caling反饋數(shù)據(jù),讓這個(gè)模型可以變的更聰明、變的更準(zhǔn)確。

今年是RLVR(可驗(yàn)證獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí))爆發(fā)年。今年我們通過(guò)可驗(yàn)證的強(qiáng)化學(xué)習(xí),原來(lái)為什么這個(gè)事情很難做呢?因?yàn)樵瓉?lái)我們通過(guò)人類反饋,我們只能通過(guò)人類反饋數(shù)據(jù)來(lái)做,但人類反饋的數(shù)據(jù)里面噪音也非常多,而且場(chǎng)景也非常單一。但如果我們有一個(gè)可驗(yàn)證的環(huán)境,這時(shí)候我們可以讓機(jī)器自己去探索、自己去發(fā)現(xiàn)這個(gè)反饋數(shù)據(jù),自己來(lái)成長(zhǎng)。

這里面難題的難題,大家一聽(tīng)就知道,說(shuō)可驗(yàn)證是什么意思?比如說(shuō)可驗(yàn)證,數(shù)學(xué)也許可以驗(yàn)證、編程可能可以驗(yàn)證,但更廣泛的,比如我們說(shuō)做了一個(gè)網(wǎng)頁(yè),這個(gè)網(wǎng)頁(yè)好不好看,這時(shí)候可能就不大好驗(yàn)證了,它需要人來(lái)判斷。于是,我們現(xiàn)在可驗(yàn)證的RLVR面臨的問(wèn)題是什么?原來(lái)可驗(yàn)證的場(chǎng)景也許逐漸地不夠用了,我們能不能到一些半自動(dòng)可以驗(yàn)證,甚至不可驗(yàn)證的一些場(chǎng)景里面,讓這個(gè)模型變的更加通用,這是我們面臨的一個(gè)挑戰(zhàn)。

未來(lái)機(jī)器慢慢地開(kāi)始在物理世界做一些真實(shí)的任務(wù),這些真實(shí)的任務(wù),我們?cè)趺磥?lái)構(gòu)建智能體的環(huán)境?這是面臨的更多的一些挑戰(zhàn)。大家可以看到這幾年AI在沿著這幾個(gè)方面,不僅僅是簡(jiǎn)單的Transformer,其實(shí)整個(gè)AI已經(jīng)變成了一個(gè)大的系統(tǒng)、一個(gè)智能化的系統(tǒng)。

從Chat到做事:新范式的開(kāi)啟

從原來(lái)更多的是數(shù)理化的一些推理,從簡(jiǎn)單的小學(xué)、初中、高中到更復(fù)雜的GPQA理化生的復(fù)雜問(wèn)題,到更難的甚至是一些奧賽金牌的問(wèn)題,到今年大家可以看到HLE非常高難度的智能評(píng)測(cè)基準(zhǔn),現(xiàn)在在開(kāi)始進(jìn)行快速的提升。

另外一方面在真實(shí)的環(huán)境下,像今天很多人都在說(shuō)代碼能力特別強(qiáng),而且能完成很多真實(shí)的代碼。但事實(shí)上在2021年代碼模型也存在,當(dāng)時(shí)還跟俊旸、Kimi植麟有很多合作,當(dāng)時(shí)也做出了很多這種模型。其實(shí)當(dāng)時(shí)的Coding模型也可以編程,但當(dāng)時(shí)的編程能力遠(yuǎn)遠(yuǎn)不如現(xiàn)在,甚至當(dāng)時(shí)編十個(gè)程序也許對(duì)一個(gè),但現(xiàn)在可能編一個(gè)程序,很多時(shí)候能自然的跑通,而且是一個(gè)非常復(fù)雜的任務(wù),到今天我們現(xiàn)在已經(jīng)開(kāi)始用代碼來(lái)幫助高級(jí)的工程師完成更復(fù)雜的一些任務(wù)。

大家可能會(huì)問(wèn),是不是智能越來(lái)越強(qiáng),我們直接把模型不停地訓(xùn)就行了?其實(shí)也不是。大家知道2025年初發(fā)生了什么,2025年初DeepSeek出來(lái),很多時(shí)候叫橫空出世,我覺(jué)得這個(gè)詞用的挺好的,真是叫橫空出世??赡軐?duì)我們研究界、對(duì)產(chǎn)業(yè)界,甚至對(duì)很多人都是,因?yàn)榇蠹以瓉?lái)在這個(gè)學(xué)術(shù)界、產(chǎn)業(yè)界都沒(méi)有料到DeepSeek會(huì)突然出來(lái),而且確實(shí)性能很強(qiáng),而且一下子讓很多人感到很震撼。

后來(lái)我們?cè)?025年初的時(shí)候當(dāng)時(shí)在想一個(gè)問(wèn)題,也許在DeepSeek這種范式下,把這種Chat時(shí)代基本上差不多算是解決了,也就是說(shuō)我們做的再好,也許在Chat的問(wèn)題上可能做到最后跟DeepSeek差不多,或許我們?cè)谏厦嬖賯€(gè)性化一點(diǎn),變成有情感的Chat,或者再?gòu)?fù)雜一點(diǎn)。但是總的來(lái)講,這個(gè)范式可能基本上到這快到頭了,剩下更多的反而是工程和技術(shù)上的問(wèn)題。

當(dāng)時(shí)我們面臨這么一個(gè)選擇,我們?cè)趺醋屵@個(gè)AI下一步朝向哪個(gè)方向發(fā)展?我們當(dāng)時(shí)的想法也許新的范式是讓每個(gè)人能夠用AI做一件事情,這可能是下一個(gè)范式,原來(lái)是Chat,現(xiàn)在是真的做事了,所以新的范式開(kāi)啟了。

技術(shù)路線的選擇:Thinking + Agentic + Coding

還面臨的選擇,因?yàn)檫@個(gè)范式開(kāi)啟,有很多種開(kāi)啟方法。大家還記得年初的時(shí)候,我記得有兩個(gè)問(wèn)題:一個(gè)是簡(jiǎn)單的編程,做Coding、做Agent;第二是我們可以用AI來(lái)幫我們做研究,類似于DeepResearch,甚至寫一個(gè)復(fù)雜的研究報(bào)告。這兩條思路可能還不大一樣,這也是一個(gè)選擇的結(jié)果。一方面是做Thinking,我們加上一些Coding的場(chǎng)景;另外一方面可能要跟環(huán)境交互,讓這個(gè)模型變的更加交互、更加生動(dòng),怎么來(lái)做?

后來(lái)我們選了左邊這條路,我們讓它有Thinking能力。但是我們也沒(méi)有放棄右邊,我們大概在7月28號(hào)做了一件事情,相對(duì)來(lái)講還比較成功的,把Coding、Agentic、Reasoning能力整合在一起了。整合在一起可能也沒(méi)那么容易,原來(lái)一般來(lái)講大家做模型的時(shí)候,Coding相對(duì)來(lái)講可能單獨(dú)拿出去做,Coding變成Coding,推理變成推理,甚至有時(shí)候會(huì)數(shù)學(xué)變成數(shù)學(xué),但這種做法往往會(huì)損失掉其他的能力。所以我們當(dāng)時(shí)是把這三個(gè)能力基本上合在一起,讓三個(gè)能力都相對(duì)比較平衡,在7月28號(hào)我們發(fā)布了4.5版本,這個(gè)版本在當(dāng)時(shí)用12個(gè)Benchmark,我們?cè)谥悄荏w、推理、代碼上,基本上跑出來(lái)還算比較不錯(cuò)的一個(gè)結(jié)果。所有的模型,我們?cè)趪?guó)內(nèi),包括今天千問(wèn)和Kimi,其實(shí)都是你追我趕,有時(shí)候這個(gè)在前面,有時(shí)候那個(gè)在前面,在當(dāng)時(shí)那一天,我們排在前面。

真實(shí)環(huán)境下的挑戰(zhàn)與突破

但是很快我們就把這個(gè)4.5開(kāi)放出來(lái)讓大家用,大家拿去編程吧,我們現(xiàn)在這個(gè)能力還挺不錯(cuò)的。既然我們選擇了Coding和Agent,它就能做很多編程任務(wù),我們就讓它來(lái)編這種非常復(fù)雜的一些場(chǎng)景。結(jié)果發(fā)現(xiàn)用戶跟我們反饋說(shuō),比如說(shuō)我們要編一個(gè)植物大戰(zhàn)僵尸,這個(gè)模型編不出來(lái)。

因?yàn)檎鎸?shí)的環(huán)境下往往非常復(fù)雜,這個(gè)游戲是用一個(gè)Prompt自動(dòng)生成的,包括整個(gè)游戲就可以玩,用戶可以點(diǎn)擊怎么來(lái)得分,選擇什么樣的植物以及怎么來(lái)打僵尸,僵尸從右邊走過(guò)來(lái),包括界面、包括后臺(tái)的邏輯,全部是用這個(gè)程序自動(dòng)一句話寫出來(lái)的。這時(shí)候4.5在這個(gè)場(chǎng)景下做不出來(lái),出了很多Bug,怎么回事?

后來(lái)我們發(fā)現(xiàn)在真實(shí)的編程環(huán)境下,它里面有很多問(wèn)題,比如說(shuō)在上面這種編輯環(huán)境下有很多問(wèn)題需要解決,這時(shí)候恰恰利用到RLVR可驗(yàn)證的強(qiáng)化學(xué)習(xí)環(huán)境。于是我們?cè)谶@里面搜集到大量的編程環(huán)境,通過(guò)編程環(huán)境作為強(qiáng)化,再加上一些SFT數(shù)據(jù),使得這一塊可以兩方交互,把這個(gè)模型的效果提高。另外一方面,我們?cè)赪eb方面也做了一些工作,把Web的一些能力也利用Web環(huán)境,加上一些反饋,加上環(huán)境可驗(yàn)證??偟膩?lái)講是通過(guò)可驗(yàn)證來(lái)探索,于是我們當(dāng)時(shí)在SWE Bench上得到了很不錯(cuò)的分,包括最近我們也得到了很不錯(cuò)的分。

但這個(gè)模型的跑分是跑分,進(jìn)入主模型又是一個(gè)非常大的挑戰(zhàn)。很多人都有一個(gè)Benchmark,說(shuō)我這個(gè)Benchmark分很高,但是真正這個(gè)能力進(jìn)入主模型的還面臨更多的一些挑戰(zhàn),而且在真實(shí)的體感中,用戶體感還不一定效果好。

另外一個(gè)挑戰(zhàn),既然有這么多大量的RL任務(wù),怎么把它全部統(tǒng)一訓(xùn)練在一起?因?yàn)椴煌娜蝿?wù)的長(zhǎng)度都不一樣,時(shí)間長(zhǎng)度也不一樣。所以我們當(dāng)時(shí)開(kāi)發(fā)了一個(gè)全異步的訓(xùn)練強(qiáng)化學(xué)習(xí)框架,怎樣使得它異步的開(kāi)始跑起來(lái),這是我們?cè)诮衲觊_(kāi)源的另外一個(gè)框架里面的一個(gè)工作。這也使得Agent和Coding能力得到了很多的提升,最終的結(jié)果,我們最近發(fā)布的4.7,相比原來(lái)的4.6和4.5在Agent和Coding方面大大提升。

在體感方面更重要,為什么?因?yàn)槟阏娴陌袰oding模型開(kāi)放出去以后,用戶用的跟你的跑分還不完全一樣。今天可能是他自己的程序,我這個(gè)程序可能在我這個(gè)數(shù)據(jù)上做一個(gè)排序算法,效果好不好,體感好不好,他用的是這個(gè)結(jié)果,用的不是分值有多高。所以在真實(shí)的跑分下,我們也進(jìn)行了詳細(xì)的評(píng)測(cè),這個(gè)評(píng)測(cè)完全是人工來(lái)做的,找了非常多編程高手來(lái)做評(píng)測(cè)。當(dāng)然這里面還沒(méi)有解決,還面臨很多問(wèn)題要解決。

最后我們把這些能力整合到一起,2025年底我們?cè)?strong>Artificial Analysis榜單上跑出了一個(gè)還不錯(cuò)的分,得到了還可以的分。

Device Use:從編程到操控設(shè)備

另一方面,我們又隨著進(jìn)一步發(fā)展,你要把這個(gè)問(wèn)題在Agent環(huán)境下真的讓它大規(guī)模用起來(lái)。大家可以看作Agent最基礎(chǔ)的能力,什么叫最基礎(chǔ)的能力?編程嘛,計(jì)算機(jī)編完程以后,它就可以執(zhí)行,相當(dāng)于Agent里面的一個(gè)action或者兩個(gè)action。但如果你要做的更復(fù)雜,左邊是Claude發(fā)布的computer use,中間是豆包手機(jī),右邊是Manus做的異步超長(zhǎng)的任務(wù)。

假如你要讓這個(gè)機(jī)器幫你做幾十步、上百步的任務(wù),甚至你說(shuō)「請(qǐng)幫我搜集一下今天關(guān)于清華大學(xué)在小紅書上所有的討論,討論完以后,關(guān)于某某的全部整理出來(lái),給我生成相關(guān)的文檔」,這時(shí)候AI得在一天監(jiān)控小紅書。它是自動(dòng)的、完全異步,你不可能把手機(jī)打開(kāi)盯著它,它是異步的,它是個(gè)非常復(fù)雜的任務(wù)。這樣非常復(fù)雜的任務(wù),總而言之,可以把剛才的問(wèn)題變成一個(gè)Device Use,也就是在整個(gè)設(shè)備上我們?cè)趺磥?lái)做。

這里面更大的一個(gè)挑戰(zhàn),有些人說(shuō)是不是更多的是采數(shù)據(jù)?其實(shí)更大的問(wèn)題是很多應(yīng)用根本就沒(méi)有數(shù)據(jù),全部是代碼,全部是冷啟動(dòng),這時(shí)候該怎么辦?當(dāng)然我們更希望我們通過(guò)這些數(shù)據(jù)能夠一下子泛化出去。

所以最早的確實(shí)是我們采了大量的數(shù)據(jù),上千個(gè)數(shù)據(jù),我們來(lái)進(jìn)行整合,包括SFT,包括在特定領(lǐng)域的強(qiáng)化,使得它在某些領(lǐng)域上可以把效果做的不錯(cuò)。但是更多的時(shí)候你會(huì)發(fā)現(xiàn)原來(lái)的iPhone use都是點(diǎn)按鈕,但是更多的時(shí)候AI交互不是人。我們?cè)瓉?lái)都把AI當(dāng)作一個(gè)人,說(shuō)AI能不能幫我們操作手機(jī),但是你要想一下,其實(shí)這個(gè)AI不需要操作手機(jī),更多的是API。但是現(xiàn)在你又不可能把手機(jī)變成純API的系統(tǒng),沒(méi)有這個(gè)按鈕了,所以這時(shí)候該怎么辦?

我們采用混合的方式,把API跟GUI兩個(gè)混在一起,對(duì)AI比較友好的時(shí)候采用API的方式,有時(shí)候?qū)θ擞押玫臅r(shí)候,讓AI模擬人來(lái)做GUI的操作方式。于是把這兩個(gè)整合在一起,我們?cè)诖罅康沫h(huán)境里面抽取到大量的數(shù)據(jù),并進(jìn)行全異步的強(qiáng)化學(xué)習(xí),這樣就把整個(gè)東西給整合在一起,使得這個(gè)AI有一定的泛化能力。我剛剛說(shuō)有一定的泛化能力,原因是說(shuō)直到今天這個(gè)泛化能力都還差的很多、都還差的很遠(yuǎn),但是它有一定的泛化能力了。

更重要的是我們?cè)趺纯朔鋯?dòng)帶來(lái)的一些問(wèn)題,比如如果說(shuō)我們的數(shù)據(jù)不夠,我們通過(guò)強(qiáng)化學(xué)習(xí)有可能把它帶入一個(gè)陷阱。這個(gè)強(qiáng)化學(xué)習(xí)到最后,它整個(gè)學(xué)到以后,這個(gè)模型就像鉆牛角尖一樣,它就認(rèn)死理,說(shuō)我就要這樣,效果一下就跑偏了。這時(shí)候怎么把它拉回來(lái)?于是我們把SFT在中間穿插了一步,也就使得這個(gè)模型強(qiáng)化一段時(shí)間,再做一些SFT,再?gòu)?qiáng)化一點(diǎn),變成一個(gè)交替的,使得它有一定的容錯(cuò)能力和有一定把它拉回來(lái)的能力,變成可擴(kuò)展的訓(xùn)練算法。在移動(dòng)環(huán)境下,我們使得效果在安卓里面取得不錯(cuò)的提升。

另外在多任務(wù)的大模型強(qiáng)化學(xué)習(xí)上,我們也做了一定的工作,在算法上主要采用多輪的強(qiáng)化學(xué)習(xí),工程上本質(zhì)上就是Scaling,讓它更大規(guī)模的往下。

AutoGLM開(kāi)源

今年我們大概在12月份的時(shí)候開(kāi)源了AutoGLM,把里面所有的東西都開(kāi)源。大家注意我們開(kāi)源的這個(gè)模型是9B模型,不是一個(gè)超級(jí)大的模型,原因是9B可以在人機(jī)交互里面動(dòng)作特別快,執(zhí)行速度特別快,如果特別大的話,它的執(zhí)行速度就會(huì)很慢。所以我們開(kāi)源了一個(gè)9B的模型,這個(gè)模型一開(kāi)源,當(dāng)時(shí)一下子就獲得了兩萬(wàn)多個(gè)star,而且三天就拿了一萬(wàn)多個(gè)star,還算不錯(cuò)。

這是一個(gè)例子,比如說(shuō)我們下周要去長(zhǎng)春玩,幫我們總結(jié)一下當(dāng)前頁(yè)面推薦的一些景點(diǎn),然后到高德地圖上收藏這幾個(gè)景點(diǎn),包括查看票價(jià),再去12306訂一張10點(diǎn)鐘從北京去長(zhǎng)春的高鐵票,把相關(guān)信息整理好給我。這個(gè)模型在后臺(tái)會(huì)執(zhí)行40步,它會(huì)調(diào)用不同的APP,把不同的APP打開(kāi),然后輸入相關(guān)的信息,相關(guān)查詢、執(zhí)行,整個(gè)操作40步執(zhí)行完之后,把所有的東西全部給你。相當(dāng)于這個(gè)AI做了一個(gè)類似于你的秘書的事情,整個(gè)全部執(zhí)行下來(lái)。

更重要的是在所有的Device-use里面有幾個(gè)榜單,包括OSWorld、Browser use、Mobile use相關(guān)的一些Bench,我們都取得了很不錯(cuò)的效果。其實(shí)你可以把這個(gè)模型想象成用了很多Agent數(shù)據(jù)在訓(xùn),我們?cè)?B的模型上用了很多Agent數(shù)據(jù)在訓(xùn),其實(shí)它把原來(lái)的很多語(yǔ)言能力、推理能力可能會(huì)降低,也就是說(shuō)它不再是純通用的模型,它可能在Agent方面能力比較強(qiáng),但是在其他方面可能會(huì)減弱。于是給我們帶來(lái)一個(gè)新的問(wèn)題,在未來(lái)這種超大規(guī)模的Agent模型上怎么來(lái)使得它不要降低,這變成一個(gè)新的問(wèn)題。

2025年:GLM開(kāi)源年與中國(guó)開(kāi)源模型的貢獻(xiàn)

我們2025年也是GLM的開(kāi)源年,我們大概從1月份到12月份開(kāi)源了很多模型,包括語(yǔ)言模型、智能體模型,還有我們多模態(tài)的模型,GLM-4.6、4.6V、4.5V等相關(guān)的一些模型。

而且更重要的是我們可以看到中國(guó)開(kāi)源模型在2025年做的貢獻(xiàn),這里藍(lán)色的是開(kāi)源的模型,黑色的是閉源的模型。我們可以看到Artificial Analysis上面,藍(lán)色的前五基本上全部是中國(guó)的模型,也就是我們中國(guó)在開(kāi)源大模型上做出了很多貢獻(xiàn)。我們可以看到相比2025年初,也就是2024年的時(shí)候,美國(guó)這邊開(kāi)源,包括Meta LLaMA還占了絕對(duì)的優(yōu)勢(shì)。隨著一年的發(fā)展,中國(guó)慢慢地在前五,基本上現(xiàn)在變成中國(guó)的模型。右邊的這個(gè)圖是大模型的盲測(cè)榜單,也就是通過(guò)人工評(píng)測(cè)的結(jié)果,我把它截屏了過(guò)來(lái)。

清醒認(rèn)識(shí):差距可能還在拉大

下面一個(gè)問(wèn)題,下一步我們還能繼續(xù)Scaling嗎?我們下一個(gè)AGI范式是什么?我們面臨更多的一些挑戰(zhàn)。

我們剛才做了一些開(kāi)源,可能有些人會(huì)覺(jué)得很興奮,覺(jué)得中國(guó)的大模型好像已經(jīng)超過(guò)美國(guó)了。其實(shí)可能真正的答案是我們差距也許還在拉大,因?yàn)槊绹?guó)那邊的大模型更多的還在閉源,我們是在開(kāi)源上面玩了讓自己感到高興的,我們的差距并沒(méi)有像我們想象的那樣好像在縮小。有些地方我們可能做的還不錯(cuò),我們還要承認(rèn)自己面臨的一些挑戰(zhàn)和差距。

未來(lái)思考:參考人腦認(rèn)知的學(xué)習(xí)過(guò)程

下一步我們應(yīng)該怎么做?我這里有一些簡(jiǎn)單的思考。我覺(jué)得從大模型整個(gè)發(fā)展史來(lái)講,其實(shí)就是參考人腦認(rèn)知的學(xué)習(xí)過(guò)程。從大模型最早的,要把世界長(zhǎng)時(shí)知識(shí)全部背下來(lái),就像小孩子,從小先看書,把所有的知識(shí)先背下來(lái),然后慢慢地學(xué)會(huì)推理,學(xué)會(huì)數(shù)學(xué)題,學(xué)會(huì)更多的演繹、抽象。

對(duì)于未來(lái)來(lái)講,也是同理,對(duì)于人腦的認(rèn)知學(xué)習(xí)來(lái)講,未來(lái)有哪些能力,現(xiàn)在大模型還沒(méi)有,但是人遠(yuǎn)遠(yuǎn)超過(guò)我們:

第一,2025年可能是多模態(tài)的適應(yīng)年。 為什么這么講?可能全球除了少量的幾個(gè)模型,一下子吸引了很多關(guān)注,包括我們?cè)趦?nèi)的很多多模態(tài)的模型都沒(méi)有引起很多人的關(guān)注。更多的大家在做文本的智能提升。對(duì)于大模型來(lái)講,怎么把多模態(tài)的信息收集起來(lái),并且能夠統(tǒng)一感知起來(lái),也就是我們經(jīng)常說(shuō)的原生多模態(tài)模型。后來(lái)我想了想原生多模態(tài)模型和人的「感統(tǒng)」很相似,人的感統(tǒng)是我這邊收集到一些視覺(jué)信息,還收集到一些聲音的信息,還收集到一些觸感的信息,我怎么把這些信息感統(tǒng)到一起,來(lái)感知一個(gè)東西。像我們?nèi)擞行r(shí)候大腦會(huì)有些問(wèn)題,很多時(shí)候是感統(tǒng)不夠,感統(tǒng)失調(diào)會(huì)出現(xiàn)的問(wèn)題。對(duì)于模型來(lái)講,下一個(gè)多模態(tài)的感統(tǒng)能力怎么來(lái)做?

第二,模型現(xiàn)在的記憶能力和可持續(xù)性學(xué)習(xí)能力還不夠。 人有幾級(jí)記憶系統(tǒng),我們有短期記憶、工作記憶、長(zhǎng)期記憶,甚至我之前跟我們的同學(xué)、跟我們實(shí)驗(yàn)室的人聊天,我說(shuō)好像一個(gè)人的長(zhǎng)期記憶也并不代表知識(shí),為什么?因?yàn)槲覀內(nèi)祟愔挥姓娴陌堰@個(gè)知識(shí)記錄下來(lái),比如說(shuō)對(duì)于我來(lái)講,如果我的知識(shí)不能被記錄在維基百科上,可能100年之后我也消亡了,我對(duì)這個(gè)世界也沒(méi)有什么貢獻(xiàn),好像也不叫知識(shí),好像在未來(lái)訓(xùn)人類大模型的時(shí)候,我的知識(shí)也沒(méi)用,都變成噪音了。咱們?cè)趺窗盐覀冋麄€(gè)記憶系統(tǒng)從單個(gè)人的三級(jí)到整個(gè)人類的第四級(jí)記錄下來(lái),整個(gè)記憶系統(tǒng)是我們?nèi)祟愇磥?lái)要給大模型構(gòu)建起來(lái)的。

最后,反思和自我認(rèn)知。 其實(shí)現(xiàn)在模型已經(jīng)有一定的反思能力,但未來(lái)自我認(rèn)知是很難的問(wèn)題,很多人在懷疑大模型有沒(méi)有自我認(rèn)知的能力。在座的也有很多基礎(chǔ)模型實(shí)驗(yàn)室的專家,有些人是支持的,有些人是反對(duì)的,我是有一些支持的,我覺(jué)得這是有可能的,我們值得探索。

系統(tǒng)一與系統(tǒng)二

人類認(rèn)知是雙系統(tǒng),系統(tǒng)一和系統(tǒng)二

系統(tǒng)一完成了95%的任務(wù),比如說(shuō)人類問(wèn)一個(gè)問(wèn)題,中國(guó)的首都是什么?大家的回答是系統(tǒng)一,因?yàn)槟惚诚聛?lái)了?;蛘吣阏f(shuō)你今晚晚上吃飯嗎?你說(shuō)吃,也是系統(tǒng)一,這些全部是系統(tǒng)一背下來(lái)了。只有更復(fù)雜的推理問(wèn)題,比如說(shuō)我今天晚上要請(qǐng)一個(gè)來(lái)自四川的朋友大吃一頓,去哪吃?這時(shí)候就變成系統(tǒng)二了,它就得琢磨這個(gè)四川的朋友是哪里來(lái)的,我們?nèi)ツ拇蟪砸活D,那就是系統(tǒng)二做的事情。系統(tǒng)二在我們?nèi)粘V兄徽?%。

對(duì)于大模型來(lái)講同樣的道理,在2020年我們畫了這么一個(gè)圖,我們當(dāng)時(shí)是說(shuō)參考人類的AI系統(tǒng)應(yīng)該長(zhǎng)什么樣子,有人類的系統(tǒng)一、有人類的系統(tǒng)二,還有一個(gè)自學(xué)習(xí)。

當(dāng)時(shí)為什么想了一個(gè)自學(xué)習(xí)呢?當(dāng)時(shí)我是這么想的:首先系統(tǒng)一可以構(gòu)建一個(gè)大模型,讓它基于匹配就能回答,解決系統(tǒng)一的問(wèn)題;系統(tǒng)二是可以加上一些知識(shí)融合,比如指令微調(diào)和思維鏈;第三是如果有些學(xué)過(guò)認(rèn)知的,人腦在晚上睡覺(jué)的時(shí)候會(huì)無(wú)意識(shí)的自學(xué)習(xí),如果人沒(méi)有晚上睡覺(jué)不會(huì)變的更聰明。當(dāng)時(shí)我們2020年的時(shí)候就說(shuō)未來(lái)一定有AI的自學(xué)習(xí)機(jī)制、自學(xué)習(xí)思維鏈,但我們不知道怎么學(xué)習(xí),就是先把問(wèn)題拋出來(lái)。

對(duì)于系統(tǒng)一來(lái)講,我們?cè)诓粩嗟豐caling。如果我們?cè)诓煌5豐caling數(shù)據(jù),這帶來(lái)了智能上界的提升。同時(shí)我們還在Scaling推理,使得機(jī)器思考的時(shí)間越長(zhǎng),用更多的計(jì)算和更多的搜索來(lái)找到更準(zhǔn)確的解。第三方面是我們?cè)赟caling自學(xué)習(xí)環(huán)境,讓這個(gè)機(jī)器有更多的機(jī)會(huì)跟外界交互,拿到更多的反饋。

所以通過(guò)這三個(gè)Scaling,我們可以讓機(jī)器來(lái)參考人的學(xué)習(xí)范式,得到更多的學(xué)習(xí)機(jī)會(huì)。

Transformer的挑戰(zhàn)與新型架構(gòu)

對(duì)于系統(tǒng)一來(lái)講,如果已經(jīng)有Transformer了,是不是意味著我們只要加數(shù)據(jù)就完了,加更大的參數(shù)就完了?原來(lái)30T不夠,是不是50T?50T不夠就100T,到最后再加上參數(shù)從100B到1T到3T到5T甚至更大。

但我們現(xiàn)在面臨另外一個(gè)問(wèn)題,什么問(wèn)題?Transformer的計(jì)算復(fù)雜度是一個(gè)O(N2),使得我們?cè)谠龃骳ontext的時(shí)候,顯存的增大和推理效率能力會(huì)越來(lái)越低,這里面臨很多問(wèn)題。最近有一些新型模型,包括一些線性模型試圖在用線性的方法,參考人腦是我用更小的腦容量能存更大的知識(shí)。甚至更本質(zhì)的一個(gè)問(wèn)題是有沒(méi)有可能,因?yàn)樵瓉?lái)Transformer越訓(xùn)越大,包括最早的時(shí)候,我們探討的時(shí)候沒(méi)有說(shuō)我們非得把模型弄小,越來(lái)越大比較早。

但最近我也在反思,我們能不能找到更好的知識(shí)壓縮的方法,把知識(shí)壓縮到更小的空間里面,這是一個(gè)新的問(wèn)題。

這里面面臨兩個(gè)問(wèn)題:第一個(gè)問(wèn)題,工程上有沒(méi)有辦法?第二個(gè)問(wèn)題,方法論有沒(méi)有辦法?所以最近包括很多人在探討,我們大模型可能要回歸到研究上來(lái),不能像原來(lái)單純的Scaling。Scaling是一個(gè)很好的辦法,但Scaling可能是最輕松的辦法,是我們?nèi)祟愅祽械囊粋€(gè)辦法,我們直接把Scaling Up上去,它就是一個(gè)偷懶的辦法。但是更本質(zhì)的方法,可能我們要找到新的東西。

第二個(gè)是新的Scaling范式。Scaling可能是一個(gè)非常重要的路徑,但我們?cè)趺凑业揭粋€(gè)新的范式,讓這個(gè)機(jī)器可以Scaling的機(jī)會(huì)。讀書是一個(gè)機(jī)會(huì),跟人交流也是一種機(jī)會(huì),我們要找到一種新的,讓這個(gè)機(jī)器可以獨(dú)立Scaling的方式。有些人會(huì)說(shuō)我們加大數(shù)據(jù),加大數(shù)據(jù)是我們?nèi)藦?qiáng)加給它的,這個(gè)機(jī)器必須找到自己能通過(guò)、自己來(lái)定義一些獎(jiǎng)勵(lì)函數(shù),自己來(lái)定義一些交互方法甚至訓(xùn)練任務(wù)來(lái)做Scaling,這是系統(tǒng)二來(lái)做的事情。

更重要的是我們有了剛才兩個(gè)以后,還要完成更多真實(shí)場(chǎng)景下超長(zhǎng)的任務(wù),這塊怎么來(lái)做?要讓這個(gè)機(jī)器有像人一樣PLAN規(guī)劃,做一下,檢查一下,再反饋一下,人是這樣來(lái)工作的,機(jī)器有沒(méi)有可能這么做?一個(gè)超長(zhǎng)任務(wù)怎么完成?

舉個(gè)例子,我們今年已經(jīng)有一點(diǎn)點(diǎn)文章出來(lái),年初的時(shí)候跟我們團(tuán)隊(duì)的小伙伴說(shuō),年底你必須給我寫一篇文章,但是沒(méi)實(shí)現(xiàn),最后也沒(méi)做出來(lái)。反正到現(xiàn)在,大家知道在網(wǎng)上已經(jīng)有一些文章開(kāi)始嘗試,這個(gè)idea也是模型生成的,實(shí)驗(yàn)也是模型做的,報(bào)告也是模型做的,最后可以做一個(gè)Workshop,但事實(shí)上還沒(méi)有做出來(lái),這里給出一個(gè)真實(shí)的超長(zhǎng)環(huán)境下的任務(wù)例子。我們希望在這個(gè)基礎(chǔ)上來(lái)定義未來(lái)AI會(huì)長(zhǎng)什么樣子,這是我們的一些思考。

智能的五個(gè)層級(jí)

早期在這個(gè)大模型之前,大部分機(jī)器學(xué)習(xí)都是F(X)到Y(jié)的映射,我學(xué)習(xí)一個(gè)函數(shù),使得X樣本可以映射到Y(jié)。大模型來(lái)了之后,我們把這個(gè)問(wèn)題變成F(X)到X的映射,可能映射的也不是嚴(yán)格的X,但我們是讓它完全用自監(jiān)督的學(xué)習(xí)來(lái)做多任務(wù)的自學(xué)習(xí)。

另外第二層,我們加上這些數(shù)據(jù)之后,讓這些模型學(xué)習(xí)如何推理,如何激活底層的智能。

再往后,我們?cè)诮踢@個(gè)機(jī)器有自反思、自學(xué)習(xí)的能力,通過(guò)這個(gè)機(jī)器能夠不斷地自我批評(píng),能夠?qū)W習(xí)到哪些東西我應(yīng)該做,哪些東西可以更優(yōu)的來(lái)做。

到未來(lái),我們還要教這個(gè)機(jī)器能學(xué)習(xí)到更多,比如說(shuō)能學(xué)習(xí)到自我認(rèn)知,讓這個(gè)機(jī)器能對(duì)自己的行為,比如說(shuō)AI生成了大量的內(nèi)容可以自我解釋,我為什么要生成這個(gè)內(nèi)容,我是什么,我的目標(biāo)是什么。在終極上也許有一天,AI也有意識(shí)。

我們大概有這么定義五層的思考。

計(jì)算機(jī)的三個(gè)核心能力

從計(jì)算機(jī)的角度上,計(jì)算機(jī)不會(huì)定義這么復(fù)雜。在我看來(lái)計(jì)算機(jī)有三個(gè)能力:

第一,計(jì)算機(jī)的表示和計(jì)算。 把數(shù)據(jù)表示出來(lái),它可以做計(jì)算。

第二,編程。 計(jì)算機(jī)只有編程是計(jì)算機(jī)跟外界的交互。

第三,本質(zhì)上是搜索。

但是這幾個(gè)能力疊加在一起:第一是有了表示和計(jì)算,可以使存儲(chǔ)能力遠(yuǎn)超于人。第二是編程可以做出人類更復(fù)雜的一些邏輯。第三,搜索可以比人做的更快。這是計(jì)算機(jī)這三個(gè)能力疊加在一起,可能能帶來(lái)所謂的「超級(jí)智能」,也許能超過(guò)人類的一些能力。

AGI-Next 30:未來(lái)30年的愿景

我突然想起2019年,這個(gè)PPT原來(lái)真的是跟阿里巴巴合作的時(shí)候,當(dāng)時(shí)讓我給出一頁(yè)P(yáng)PT,我當(dāng)時(shí)給出了這一頁(yè)P(yáng)PT,就是AGI-Next 30,未來(lái)30年我們應(yīng)該做什么。

這個(gè)圖是我截屏下來(lái)的,Next AI,我們說(shuō)在2019年的時(shí)候,未來(lái)30年,我們應(yīng)該做讓機(jī)器有推理能力、有記憶能力、有意識(shí)。我們現(xiàn)在差不多在這里面做了一定的推理能力,大家應(yīng)該都有一點(diǎn)點(diǎn)共識(shí)。記憶能力有一部分,但意識(shí)還沒(méi)有,這是我們?cè)谂Φ摹?/p>

未來(lái)我們也在反思,如果用參考人腦認(rèn)知,未來(lái)的AI可能會(huì)有什么是我、為什么是我,以及給這個(gè)模型構(gòu)建意義系統(tǒng),還有單個(gè)智能體的目標(biāo),以及整個(gè)智能體群體的目標(biāo),這樣我們實(shí)現(xiàn)對(duì)未知的探索。

有些人可能會(huì)說(shuō)這個(gè)完全不可能,但是大家記住,我們?nèi)祟惖慕K極意義是我們?cè)诓粩嗟靥剿魑粗闹R(shí),我們?cè)绞怯X(jué)得不可能的,恰恰也許就是我們未來(lái)AGI上路上要去探索的。

2026年展望

2026年對(duì)我來(lái)說(shuō)更重要的是要專注和做一些比較新的東西。

第一,我們要Scaling可能還會(huì)繼續(xù)做下去,但Scaling已知的是我們不斷加數(shù)據(jù)、不斷探索上限。還有Scaling未知,就是我們不知道的新的范式是什么。

第二,技術(shù)創(chuàng)新。 我們會(huì)做全新的模型架構(gòu)創(chuàng)新,解決超長(zhǎng)上下文,還有更高效的知識(shí)壓縮問(wèn)題,以及我們會(huì)實(shí)現(xiàn)知識(shí)記憶和持續(xù)學(xué)習(xí),這兩個(gè)方面加在一起,可能是未來(lái)實(shí)現(xiàn)讓機(jī)器比人能力還強(qiáng)一點(diǎn)點(diǎn)的一個(gè)機(jī)會(huì)。

第三,多模態(tài)感統(tǒng),今年是一個(gè)熱點(diǎn)和重點(diǎn)。因?yàn)橛辛诉@個(gè)能力,我們才使得AI可以實(shí)現(xiàn)進(jìn)入像機(jī)器里面的長(zhǎng)任務(wù)、長(zhǎng)時(shí)效任務(wù),在我們?nèi)说墓ぷ鳝h(huán)境里面,比如說(shuō)手機(jī)里面、電腦里面,它可以完成我們的長(zhǎng)任務(wù)。當(dāng)完成我們的長(zhǎng)任務(wù),AI就實(shí)現(xiàn)了一個(gè)工種,AI變成跟我們?nèi)艘粯樱梢詭椭覀儗?shí)現(xiàn)。只有這樣,AI才能實(shí)現(xiàn)具身,才能進(jìn)入物理世界。

我相信今年可能是AI for Science的一個(gè)爆發(fā)年,因?yàn)楹芏嗄芰Υ蟠筇嵘?,我們可以做更多的事情?/p>

以上就是我的匯報(bào),感謝大家!


Scaling Law、模型架構(gòu)與Agent智能

演講人:楊植麟(月之暗面創(chuàng)始人、Kimi)

楊植麟的分享,充滿了技術(shù)與公式,這里簡(jiǎn)單總結(jié)下:
通過(guò)Token EfficiencyLong Context兩個(gè)維度優(yōu)化,最終能實(shí)現(xiàn)更強(qiáng)的Agent智能。

他指出Transformer優(yōu)于LSTM的關(guān)鍵不在短序列,而在長(zhǎng)上下文場(chǎng)景下Loss顯著更低——這正是Agent時(shí)代的核心需求。團(tuán)隊(duì)采用MUON二階優(yōu)化器實(shí)現(xiàn)2倍Token效率提升,并通過(guò)QK-Clip解決訓(xùn)練不穩(wěn)定問(wèn)題,成功在萬(wàn)億參數(shù)的Kimi K2上完成穩(wěn)定訓(xùn)練。

下一代架構(gòu)Kimi Linear采用Delta Attention線性注意力機(jī)制,首次在長(zhǎng)程任務(wù)上超越全注意力,同時(shí)速度提升6-10倍。K2已成為中國(guó)首個(gè)Agent模型,可完成兩三百步工具調(diào)用,在HLE等核心評(píng)測(cè)上超越OpenAI。

楊植麟強(qiáng)調(diào),接下來(lái)的模型需要更多Taste(品位),因?yàn)橹悄懿幌耠娏傻葍r(jià)交換,每個(gè)模型產(chǎn)生的Token本質(zhì)上是不同的。他引用與Kimi的對(duì)話:繼續(xù)開(kāi)發(fā)AGI是因?yàn)榉艞壦馕吨艞壢祟愇拿魃舷?,不能因恐懼而停?/p>


Towards a Generalist Agent

演講人:林俊旸(阿里通義千問(wèn))

大家好,非常感謝唐老師的邀請(qǐng),唐老師跟我說(shuō)這是清華、北大聯(lián)合實(shí)驗(yàn)室第一次辦的活動(dòng)。唐老師和植麟都是清華,我代表北大來(lái)一下。我很久沒(méi)有回海淀區(qū)了,我是朝陽(yáng)區(qū)的。

今天整體介紹一下千問(wèn)2025年的進(jìn)展,有些東西相對(duì)舊一些,最近幾個(gè)月我們?cè)诒镏乱淮臇|西,我盡量講一些我能講的東西。

Towards a Generalist Agent這個(gè)標(biāo)題我其實(shí)換了很多輪,原來(lái)叫Towards a Generalist Model,后來(lái)覺(jué)得model是比什么都大的東西,后來(lái)想想agent也許是更大的概念,像人一樣你可以自主的使用工具,人和動(dòng)物很大的差別是可以自主使用工具。所以就變成了Towards a Generalist Agent。

而且今天訓(xùn)練的范式發(fā)生了很大變化,過(guò)往我們不管做什么事情,都會(huì)有輸入和輸出把它標(biāo)注出來(lái),你可以認(rèn)為是我們傳統(tǒng)的標(biāo)注。今天有了這個(gè)新的技術(shù)以后,我只要解決了這個(gè)推理,解決了這個(gè)評(píng)估,這個(gè)東西就可以訓(xùn),干什么都可以,我就可以發(fā)揮想象力。比如說(shuō)今天數(shù)據(jù)智能、模型智能都可能,這也是我一個(gè)干語(yǔ)言模型的人最近敢斗膽揚(yáng)言我要做VLA和機(jī)器人的一個(gè)小小的原因。

開(kāi)源與產(chǎn)品

大家如果想用上我們的模型的話,最容易體驗(yàn)到我們開(kāi)源模型和閉源模型。我覺(jué)得很有意思,之前我們一直做開(kāi)源,大家比較清楚,不贅述和吹牛了。但是網(wǎng)友們一直在罵我們,你們那個(gè)東西很難用,每次都得去你們的模型上面找。我們就把OpenWebUI拖下來(lái)之后就把它變成了一個(gè)聚合器,看起來(lái)就像是ChatGPT一樣。本來(lái)算法的同學(xué)產(chǎn)品意識(shí)并沒(méi)有那么強(qiáng),做著做著就有這種感覺(jué)了,模型即產(chǎn)品,就有很好玩的東西出來(lái),所以我們都會(huì)放到這上面。一般我們會(huì)在qwen.ai里面就可以很好的搜到,發(fā)博客對(duì)于我們來(lái)說(shuō)比較簡(jiǎn)單,最近我們火的新的模型架構(gòu)Qwen Next,很多同學(xué)沒(méi)有辦法引用,原諒一下我們。

我們做開(kāi)源做的比較久,2023年8月3日開(kāi)始做開(kāi)源,很多人問(wèn)我們?yōu)槭裁醋鲩_(kāi)源這一件事情?很多事情都有機(jī)緣巧合的成分在這里,反正開(kāi)源一路做下來(lái)之后做了很多,至少還是比較工業(yè)的事情。東西不多,基本是一些腳本大家在上面看就可以。我們的模型是比較多的,為什么相對(duì)比較多?以前有很多人不理解我們?yōu)槭裁醋鲂∧P?,但是今天大家都明?strong>小模型還是挺有價(jià)值。

小模型最終起源于我們內(nèi)部用來(lái)做實(shí)驗(yàn)的1.8B模型,我們做預(yù)訓(xùn)練,資源畢竟有限,你做實(shí)驗(yàn)的話不能通通用7B的實(shí)驗(yàn)來(lái)驗(yàn),就拿1.8B的來(lái)驗(yàn)。當(dāng)時(shí)我的師弟跟我說(shuō)我們要把這個(gè)模型開(kāi)源出去,我非常不理解。我說(shuō)這個(gè)模型在2023年幾乎是一個(gè)不可用的狀態(tài),為什么要開(kāi)源出去?他跟我說(shuō)7B很消耗機(jī)器資源,很多碩士生和博士生沒(méi)有機(jī)器資源做實(shí)驗(yàn),如果1.8B開(kāi)源出去的話,很多同學(xué)就有機(jī)會(huì)畢業(yè)了,這是很好的初心。

干著干著手機(jī)廠商跑來(lái)跟我們說(shuō)7B太大,1.8B太小,能不能給我們干一個(gè)3到4B的,這個(gè)容易,沒(méi)有什么很難的事情。一路干下來(lái)型號(hào)類型越來(lái)越多,跟服務(wù)大家多多少少有一點(diǎn)關(guān)系。

Multimodal Foundation Agent:我們的追求

但是我們自己的內(nèi)心追求的不僅僅是服務(wù)開(kāi)發(fā)者或者服務(wù)科研人員,我們看一看能不能做一個(gè)Multimodal Foundation Agent,我特別相信這件事情。如果追溯到更遠(yuǎn)的話,剛才唐老師說(shuō)我們當(dāng)年還在合作的時(shí)候,當(dāng)時(shí)就在大干多模態(tài),現(xiàn)在想想這是一個(gè)激情歲月。2023年的時(shí)候大模型是一個(gè)大家都不要的東西,多多少少有那么幾分大煉鋼鐵的成分,多模態(tài)是我們延續(xù)下來(lái)一直想做的事情。

為什么呢?我們覺(jué)得如果你想做一個(gè)智能的東西,天然的應(yīng)該是Multimodal,當(dāng)然帶有不同看法,各個(gè)學(xué)者都有一些看法,多模態(tài)能不能驅(qū)動(dòng)智力的問(wèn)題。我懶得吵這個(gè)架,人有眼睛和耳朵可以做更多的事情,我更多的考慮是Foundation有更多的生產(chǎn)力,能不能更好的幫助人類,毫無(wú)疑問(wèn)我們應(yīng)該做視覺(jué),我們應(yīng)該做語(yǔ)音。

理想的情況下,當(dāng)年我記得我們2022年的時(shí)候,當(dāng)時(shí)設(shè)計(jì)的一個(gè)系統(tǒng)是中間有一個(gè)大腦,我們不知道那個(gè)大腦是什么東西,但是我們知道不同的模態(tài)和任務(wù)都應(yīng)該進(jìn)入到這個(gè)大腦,從這個(gè)大腦輸出去,這個(gè)才是真正的想象當(dāng)中的AGI。今天看起來(lái)很有可能,因?yàn)槲也恢来蠹易龅难芯糠较蛴袥](méi)有做統(tǒng)一理解生成這件事情,這件事情還挺復(fù)雜的。目前谷歌也沒(méi)有做到統(tǒng)一理解互相生成,但是我還挺相信這些事情。如果看GPT的話,今天把很多東西統(tǒng)一了之后,看起來(lái)更加完美一些,當(dāng)年還在爭(zhēng)論他們到底是哪個(gè)好。

Qwen3:今年最大的進(jìn)展

今年最大的進(jìn)展是Qwen3,這個(gè)是吉祥物,有點(diǎn)像熊,但它是一只卡皮巴拉。做的時(shí)候我覺(jué)得我們同學(xué)太辛苦了,不想他們太辛苦,今天這么卷的時(shí)代佛系一點(diǎn)不是說(shuō)不行。我們做的方向相對(duì)比較多一些,但是你可以看到每一個(gè)方向都有它自洽的邏輯在這里面。比如說(shuō)我們做Text和VL、Omni,做的時(shí)間比較長(zhǎng),做視覺(jué)、文本、語(yǔ)音生成。我們做的過(guò)程當(dāng)中,可能因?yàn)槲覀儽容^特殊的地方是我們背后是阿里云支持,我們有很多業(yè)務(wù)和阿里云的客戶比較相關(guān)。云的業(yè)務(wù)很多客戶是非常多樣的,包括Embedding、Guard都會(huì)給大家提供服務(wù)。

今天圍繞相對(duì)比較主線的Text、VL,包括Omni會(huì)給大家做介紹,Coder會(huì)放在Text里和大家做相應(yīng)的介紹。

Text:Qwen3系列

Text今年主要是Qwen3系列,現(xiàn)在已經(jīng)做到3.5,3做的時(shí)間比較長(zhǎng)一些。因?yàn)樯弦淮?.5用了非常長(zhǎng)的時(shí)間,一個(gè)最大的特點(diǎn)是總體能力提升。今年比較有意思的是reasoning的能力要提升,我補(bǔ)充介紹一下我個(gè)人的理解,reasoning和現(xiàn)在的單純的Instruct模型有一點(diǎn)不太一樣。

第二個(gè)是我們支持的語(yǔ)言及方言,語(yǔ)言沒(méi)有那么多,加上方言一共有119種。為什么會(huì)做多語(yǔ)言這件事情呢?其實(shí)也有些機(jī)緣巧合的事情,2023年的時(shí)候,當(dāng)時(shí)我們覺(jué)得只要把中文和英文做好就可以服務(wù)好我們需要的人群,但是有一回我遇到韓國(guó)朋友,他們?cè)谧鯯olar模型的時(shí)候,為什么不用我們的模型做呢?他說(shuō)你們的模型根本就不懂任何的韓語(yǔ),我感到非常的受傷,我就去看了一下,后來(lái)發(fā)現(xiàn)這個(gè)事情很簡(jiǎn)單,順手就把它做了。后來(lái)發(fā)現(xiàn)我們?nèi)虻挠脩粼絹?lái)越多,我記得一些巴基斯坦的朋友不斷的跟我說(shuō)你快點(diǎn)支持烏爾都語(yǔ),我們真的沒(méi)有大模型可以用了,這個(gè)事情我覺(jué)得確實(shí)挺好,于是我們支持了更多的語(yǔ)言。

我們現(xiàn)在還沒(méi)有做完,非洲的數(shù)據(jù)確實(shí)有點(diǎn)難以收集,非洲的語(yǔ)言沒(méi)有覆蓋。今天我跟一些手機(jī)廠商聊了一下,非洲還有很多人使用功能機(jī),我們今天已經(jīng)進(jìn)入智能機(jī)的時(shí)代,他們還在做這個(gè)事情,所以要幫助全人類的話,確實(shí)是任重道遠(yuǎn)。如果你的想法不是幫助全人類的話,我覺(jué)得不如不做,所以就繼續(xù)干。

第三個(gè)是今天的長(zhǎng)文本、長(zhǎng)視頻可能都是其中一個(gè)例子。但是我覺(jué)得這件事情很有意思,如果你真的想形成一個(gè)具有自我認(rèn)知的模型,首先上下文得足夠長(zhǎng),之前還有人討論一個(gè)問(wèn)題,你沒(méi)有必要把很多垃圾放到長(zhǎng)上下文里面,但是有了這個(gè)以后才能做到下面的理解。所以我們現(xiàn)在一路做到1M以上,實(shí)際上我們內(nèi)部已經(jīng)做到好幾個(gè)M,可能還不夠。今天為什么還想說(shuō)這是非常非常長(zhǎng)的事情。

Reasoning能力的提升

回到剛才的問(wèn)題,我們這一代模型可能和2024年相比,很大的一個(gè)區(qū)別是reasoning的能力要提升,廣義的reasoning是做問(wèn)題推理,讓問(wèn)題得到更好的解決。雖然不得不做相關(guān)的研究,怎么讓reasoning更加native一些。Qwen3的時(shí)候,我們4月份發(fā)的版本,當(dāng)時(shí)有些做的不太好,數(shù)據(jù)方面沒(méi)有做的太好,合并起來(lái)有一些問(wèn)題。

當(dāng)時(shí),我們發(fā)現(xiàn)一個(gè)很有意思的現(xiàn)象,我們自己有超過(guò)90%的客戶不再使用Thinking模型,大量使用我們QwQ系列的很重要的原因是他們的用戶喜歡看機(jī)器和自己進(jìn)行聊天。但是很快大家就回到Instruct,這里主要看一下黃色和藍(lán)色的部分,藍(lán)色是4月份版本,紅色是7月份版本。除了把數(shù)據(jù)做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是這個(gè)能力加進(jìn)去之后,客戶很明顯的反饋是模型比以前聰明了很多。只有20多分,基本上什么題可能都做不了,比如說(shuō)在教育領(lǐng)域做一點(diǎn)數(shù)學(xué)題可能都干不明白,這是我們挺驕傲的模型,這個(gè)模型也不是很大,很多人在用我們系列的模型。

但是還有一個(gè)遺憾,這個(gè)模型還有很多東西沒(méi)有做完,這里是一個(gè)取舍的問(wèn)題。比如說(shuō)Coding和Agent能力怎么把它集成進(jìn)去,做起來(lái)很難??紤]到自己的技術(shù)實(shí)力和狀況,包括自己一直做Coder系列,我們推出了這個(gè)模型。

Coding:從競(jìng)賽題到Software Engineer

今天的Coder和過(guò)往的不太一樣。比如說(shuō)去年和前年都在解單純的競(jìng)賽題,給一道題看一看能不能把答案做出來(lái)。今天我們做什么事情呢?Software Engineer,2024年的時(shí)候大家非常驚訝,第一個(gè)AI能不能像一個(gè)程序員,今天我就維護(hù)一個(gè)項(xiàng)目這件事情挺難的,你把它做了就好了。

實(shí)際做的過(guò)程中,這個(gè)事情人做起來(lái)步驟挺復(fù)雜,最簡(jiǎn)單的是至少我可以打開(kāi)這些文件夾,看了這些文件的名字知道我可以點(diǎn)開(kāi)哪一個(gè),其實(shí)是多輪交互的過(guò)程。今天做Agent一個(gè)很重要的點(diǎn),為什么大家提多輪環(huán)境交互,說(shuō)白了打開(kāi)文件夾看一眼,這個(gè)其實(shí)也是一個(gè)跟環(huán)境交互的方式。這件事情很重要,并且非常有意思,讓我們非常激動(dòng),真的能產(chǎn)生產(chǎn)力。我們想做今天的Coding的模型可以有生產(chǎn)力,很多代碼可以寫出來(lái),這是很驚訝的。

當(dāng)然這個(gè)中美是不一樣的,剛剛從灣區(qū)回來(lái),我感受到兩邊不太一樣。這個(gè)是非??鋸埖?,但是今天是不是模型做的不夠好,還是說(shuō)Web Coding還沒(méi)有做的更好,我覺(jué)得是大家認(rèn)知上面有差異,我們想做的事情是殊途同歸,都是想讓它產(chǎn)生生產(chǎn)力。

當(dāng)時(shí)我們就特別關(guān)注兩個(gè)Benchmark,一個(gè)是SWE-bench,你能不能提一個(gè)PR把它解掉,70算是比較高的門檻,當(dāng)然現(xiàn)在可以感到75以上,這是7月份的時(shí)候,當(dāng)時(shí)我們做到67和69分覺(jué)得可以。Terminal-Bench也挺難,今天大家都在用這系列的產(chǎn)品,大家會(huì)發(fā)現(xiàn)這個(gè)東西確實(shí)會(huì)和你的生產(chǎn)力接在一起,和以前不一樣,今天我們做的是貼近實(shí)際的任務(wù)。也許今天我們只是一兩個(gè)Benchmark而已,有沒(méi)有可能讓它更加符合真實(shí)的環(huán)境和真實(shí)的生產(chǎn)任務(wù)是我們想做的事情。

當(dāng)時(shí)剛出的時(shí)候挺火的,但是現(xiàn)在競(jìng)爭(zhēng)太過(guò)激烈,Token Coder量一直干到第二名,小小吹噓一下。

Agent Scaffolds:算法與工程的聯(lián)合

最有意思的是這一套東西,以前從來(lái)沒(méi)有做過(guò),今天模型訓(xùn)練我有一個(gè)Scaling,就是今天Agent Scaffolds的東西,所謂的腳手架你再簡(jiǎn)單理解一點(diǎn)就是這個(gè)東西。它就能夠在機(jī)器里面跟阿里云的ECS的這些機(jī)器在這里面一個(gè)個(gè)起來(lái),不僅是算法的挑戰(zhàn),在里面干完活就把它消除掉。真真實(shí)實(shí)的存在,Infra挑戰(zhàn)也很多,右上角的東西我自己可以感受,左上角就得需要拉其他的伙伴一起,算法和Infra今天聯(lián)合的事情是真真實(shí)實(shí)存在的,今天我們要做這么難的任務(wù),需要很多Infra的支持。

這個(gè)是當(dāng)時(shí)做Coding的事情,我們更想做的是把Coding的能力是否可以集成在我們很大的模型上。比較抱歉的一件事情是最大的這個(gè)模型,大于1T的模型,我確實(shí)沒(méi)有推動(dòng)將其開(kāi)源出來(lái),雖然我也很想開(kāi)源。但是就是這么回事,我們終于把這些能力集成進(jìn)來(lái),大家可以看到我們的SWE-bench可以做到70分,之前你沒(méi)有很好的把它集成進(jìn)來(lái),其實(shí)很難做到一個(gè)比較高的分?jǐn)?shù)。這也說(shuō)明一個(gè)問(wèn)題,做到很強(qiáng)的時(shí)候,你也可以集成一個(gè)很強(qiáng)的模型,需要進(jìn)行相應(yīng)的積累。

Qwen3-Max也是排在前五,Overall。當(dāng)然,它體現(xiàn)的是人類的偏好,未來(lái)評(píng)測(cè)會(huì)不會(huì)是動(dòng)態(tài)的?讓它放到人類的生產(chǎn)環(huán)境里面,比如說(shuō)就讓它炒股票。最后有一個(gè)公司做炒股這件事情,雖然有很多隨機(jī)性,但是開(kāi)了一個(gè)好頭,讓大家在人類的真實(shí)世界中看AI做的好還是不好。

Visual Understanding:給模型裝上眼睛

做語(yǔ)言模型其實(shí)還要想一個(gè)問(wèn)題,它能不能有眼睛看到這個(gè)世界,舉個(gè)例子。我們剛才提到想做Coding Agent提升生產(chǎn)力,我總得讓它操控電腦,看電腦屏幕,沒(méi)有眼睛就看不到,所以我們毫不猶豫的去做,這是巨大的差異,Visual Understanding就去做可以了。

但是今天很多的模型比人看東西看的更明白,比如說(shuō)我又近視又散光,基本上不太好使,看不明白。但是上下左右我總歸分的很清楚,但是AI很有意思,很細(xì)節(jié)的東西它看很清楚。比如說(shuō)問(wèn)前后左右這個(gè)問(wèn)題,居然分不出來(lái)。我們很長(zhǎng)時(shí)間評(píng)估一個(gè)案例,叫活體的方向,當(dāng)時(shí)我還問(wèn)我們的評(píng)測(cè)人員什么是活體,分不清楚東西在左邊還是右邊,我覺(jué)得蠻奇怪的,但是這是我們要解的問(wèn)題。

但是不僅僅如此,我們還要做一件事情是讓它的intelligence不要降低,我們沒(méi)有期待它真的能夠大幅度提高智商,但是至少不要變笨,因?yàn)楹芏鄷r(shí)候做VL模型是變笨的。我們這一次終于讓它不再變笨,大概和我們的235B的語(yǔ)言模型達(dá)到一個(gè)持平的狀態(tài)。

這里講一下我們這次主要的提升,簡(jiǎn)略的說(shuō)一下:

第一,我們大家都在做一件事情,讓它操作手機(jī)、操控電腦的能力進(jìn)一步提升。

第二,是它的語(yǔ)言的智力,VL模型能不能當(dāng)LLM來(lái)用,這樣才可以追上原生多模態(tài)的模型,至少做到技術(shù)上讓語(yǔ)言的智力能夠達(dá)到持平狀態(tài)。

第三,Coding這件事情很重要,但是Coding的輸入也可以是圖像或者是視頻。比如說(shuō)今天我想做一個(gè)APP,想做一個(gè)網(wǎng)頁(yè),我可以畫出來(lái)。不一定我用文字寫,因?yàn)檫@個(gè)很考驗(yàn)人類的表達(dá)能力。很多時(shí)候大家表達(dá)的不一定很清楚,你可以畫一個(gè)圖。

還有對(duì)視頻的理解,也許是VL下一代的機(jī)會(huì)。視頻是更廣義的表達(dá),圖片可以理解為是單幀的視頻,理解很長(zhǎng)的視頻是很有意思的一個(gè)事情。

我一直在想如果我們有了智能眼鏡,每天接收更多東西的時(shí)候,能不能構(gòu)建我們的記憶。這個(gè)眼鏡是第一人稱視角的東西,一般來(lái)說(shuō)我們?cè)诰W(wǎng)上搜羅的視頻是第三人稱視角,對(duì)第一人稱視角理解很少,我們一般談?wù)摰氖撬鼘?duì)這個(gè)物理世界能不能構(gòu)建一些好的理解。我們做的時(shí)候,就發(fā)現(xiàn)真的需要知道它是不是能理解這個(gè)空間的東西。這個(gè)東西激勵(lì)我們做一件事情,我們能不能去做VLA,可能得把這些數(shù)據(jù)都集合進(jìn)來(lái),有沒(méi)有可能接入硬件做VLA的模型,能不能讓它獲得一些泛化。

另外是基礎(chǔ)能力的提升,比如說(shuō)今天大家在使用OCR的時(shí)候,有很多東西的用例,都在檢測(cè)一些很褶皺的東西。但是我們的圖像很多時(shí)候檢測(cè)不到,紙張非常的褶皺,能不能讓它看的懂都是我們自己要解的問(wèn)題。另外是印章,字體非常特別,非常的小,圖片分辨率低,能不能識(shí)別出來(lái)是很特別的事情。

Multimodal模型能不能做Reasoning,能不能對(duì)圖片進(jìn)行理解。比如說(shuō)今天我們看到一個(gè)數(shù)學(xué)問(wèn)題做分析,不斷的一步一步去推,和圖片結(jié)合起來(lái)看能不能看到圖片上更小的點(diǎn)。舉個(gè)更小的例子,一張照片有50個(gè)人它能不能數(shù)的出來(lái)呢?數(shù)不出來(lái),但是配上Reasoning我就可以一點(diǎn)點(diǎn)的去看,一點(diǎn)點(diǎn)的去打這個(gè)點(diǎn),有可能我能把這個(gè)數(shù)字給數(shù)出來(lái)。今天結(jié)合具體的應(yīng)用,能做的空間其實(shí)非常多。

我們現(xiàn)在基本上可以達(dá)到2.5 Pro的水平,但是讓我開(kāi)心的是語(yǔ)言的智力沒(méi)有那么降智了,也算是第一次解決了這個(gè)問(wèn)題。

圖像生成:理解之外還要會(huì)創(chuàng)造

更進(jìn)一步我們想做什么呢?除了理解圖像和視頻以外,有沒(méi)有可能同時(shí)生成圖像和視頻?我們甚至有一個(gè)更大的想象,如果我們今天在思考有沒(méi)有可能把我們的基礎(chǔ)模型實(shí)現(xiàn)想象這些事情。我腦海里有一些畫面,這個(gè)想象對(duì)我來(lái)說(shuō)是有意義的,這些事情都可以通過(guò)圖像生成和視頻生成進(jìn)行相應(yīng)的實(shí)現(xiàn),這個(gè)也會(huì)和今年的世界模型聯(lián)系在一起。

今年我們剛開(kāi)始做生成的事情,花了幾個(gè)月時(shí)間做了Qwen-Image系列,12月份剛剛更新了一個(gè)。這是我們內(nèi)部人員進(jìn)行盲測(cè),排名還是可以,基本上比最好的開(kāi)源模型和閉源模型,比相較還是稍微差一點(diǎn)點(diǎn)。但是我看到一些實(shí)際的圖的時(shí)候,我其實(shí)比較興奮。比如說(shuō)和其他模型比較沒(méi)有什么感覺(jué),但是可以看一下8月份和12月份的版本,8月份生成的圖AI感還是非常重的,但是12月份生成的已經(jīng)接近離譜了,雖然沒(méi)有那么美和好看,但是已經(jīng)接近真人了。其實(shí)還有一張我們博客里面宿舍女生拍照,真的很像宿舍女生剛睡醒拍照,放在這里不是很好,我放了更好看一點(diǎn)的。還有更自然的東西,比如說(shuō)燈塔,水花特別夸張,但是右面的水可以達(dá)到非常自然的狀態(tài)。

另外一個(gè)是生成圖像文字要很準(zhǔn)確,能夠把文字生成到圖片上面來(lái)。分鏡不是拼出來(lái)的,其實(shí)是12張圖合起來(lái)的一張圖,包括文字都是一次性生成出來(lái)。今天模型有一些威力超出了我們的想象,有時(shí)候我們自己訓(xùn)練模型都沒(méi)有想到會(huì)變的這么強(qiáng)。

圖像編輯:比生成更大的需求

但是除了生成以外的話,我們還要做更重要的事情。我們做了生成之后,用戶告訴我們才知道編輯是更大的需求,因?yàn)榇蠹叶夹枰狿圖,讓自己變的更好看。Image-edit版本也有,接下來(lái)會(huì)把edit和生成合在一起。我自己每天用這個(gè)東西,最近出去旅游的時(shí)候,我想拍出美國(guó)往事的感覺(jué),下面有很多人,我就把很多人P掉,調(diào)整一下風(fēng)格,就可以把這個(gè)東西做出來(lái),這是每天干的事情。

我想給大家分享一個(gè)更有意思的案例,也是今天大家會(huì)問(wèn)我,開(kāi)源社區(qū)究竟怎么幫助我們研發(fā)這個(gè)模型,如果不是開(kāi)源社區(qū)告訴我們,這輩子都想不到有這個(gè)問(wèn)題。有一張圖片我們想對(duì)它進(jìn)行編輯,讓它放下圖像中右邊的人,你會(huì)發(fā)現(xiàn)它放下來(lái)之后,兩張圖重疊在一起的時(shí)候你會(huì)發(fā)現(xiàn)糊了,它有點(diǎn)移動(dòng)了,不在原位,偏移了。對(duì)于很多搞PS的同學(xué)來(lái)說(shuō),這個(gè)東西要非常精確,你不能隨便移動(dòng),所以2511這個(gè)版本很重點(diǎn)的是在解這個(gè)問(wèn)題。在2511這個(gè)版本,我把兩張合在一起的時(shí)候,基本上人在原來(lái)的位置上,我覺(jué)得是開(kāi)發(fā)者給我們很好的用例,原來(lái)可以做出真的可以幫助到他們東西。

編輯可以做很多事情,比如說(shuō)我調(diào)整光線讓它變成更柔和的光線。我們的用戶和產(chǎn)品跟我們說(shuō)這個(gè)光線合理不合理是很重要的,我們做算法的同學(xué)很多時(shí)候沒(méi)有感受,但是有些時(shí)候大家對(duì)圖的要求比想象的更高。所以,大家談世界模型的時(shí)候,是不是真的能構(gòu)建出符合物理規(guī)律或者真實(shí)世界的東西其實(shí)還是很重要的東西。

還有一些例子,比如平移一些鏡頭,旋轉(zhuǎn)30度這些都是很常見(jiàn)東西。今天這個(gè)模型甚至可以和推理結(jié)合在一起,我們一直有一件事情非常想做,教小朋友家長(zhǎng)們很痛苦,很多時(shí)候AI去教有一些題教不了,畫輔助線的東西是教不了的,真的需要生成模型才能做。我真的能夠把一道數(shù)學(xué)題做好,比如說(shuō)畫輔助線這件事情我可能要通過(guò)生成推動(dòng)更好的理解。

Omni:讓模型能聽(tīng)能說(shuō)

接下來(lái)是更進(jìn)一步的,如果今天看圖像的問(wèn)題解的差不多了,甚至自己可以把東西生成出來(lái),有沒(méi)有讓它像人一樣聽(tīng)和說(shuō)呢?因?yàn)檎Z(yǔ)音交互也是很重要的事情。今天大家在使用各類的APP的時(shí)候,大家發(fā)現(xiàn)有語(yǔ)音交互真的是很方便的一件事情。

Omni也是很大的方向,并且我愿意相信一些事情,今天對(duì)事件的環(huán)境音理解,人講的話不是單純的使用ASR就可以解決的。所以我們就做一個(gè)Talker的東西,這個(gè)模型做了很久,讓它既能聽(tīng)又能說(shuō),能夠保證它的效果是穩(wěn)定的。Omni是沿著這個(gè)方向持續(xù)做的,大概的進(jìn)展稍微有一點(diǎn)降智,但是降智的已經(jīng)不多。我們這個(gè)模型可以達(dá)到2.5文本的水平,對(duì)于語(yǔ)音基本可以對(duì)標(biāo)2.5 Pro的水平,這里面有挺多好玩的東西,時(shí)間關(guān)系沒(méi)有辦法和大家分享。

今天TTS可以換各種聲音,包括自己定制你自己的聲音,只要描述這個(gè)聲音長(zhǎng)的什么樣子,就可以讓AI以這個(gè)形式把東西講出來(lái)。我覺(jué)得還有很好玩的事情,基礎(chǔ)模型和基礎(chǔ)Agent是不是真的可以跟人類的真實(shí)世界,也包括虛擬世界進(jìn)行更好的交互。

下一步:全模態(tài)模型與新架構(gòu)

下一步要做什么樣的事情呢?我們做了這么多,當(dāng)然希望集合在一起,全模態(tài)模型是要做的。有一個(gè)很重要的,我覺(jué)得也是殊途同歸的事情,跟Kimi團(tuán)隊(duì)做類似的事情。我們同時(shí)做各種各樣的實(shí)驗(yàn)的時(shí)候,最后選擇了用Linear Context,當(dāng)然也是以三層Linear配合它的。下一代的模型也會(huì)沿著新的架構(gòu)進(jìn)行相應(yīng)的實(shí)現(xiàn),其實(shí)我們這里想做的事情是新一代的架構(gòu)能不能解決我們剛才提到的問(wèn)題,能夠省下很多步驟。也許還會(huì)有更多的威力在里面。下一代的模型,其實(shí)也會(huì)沿著新的架構(gòu)進(jìn)行相應(yīng)的實(shí)現(xiàn)。

更進(jìn)一步我們要做什么東西呢?Omni的模型不僅僅是我能夠理解文本、視覺(jué)、音頻,我們可能還讓它生成文本、音頻,今天我們已經(jīng)做到了,但是我們還沒(méi)有做到把視覺(jué)生成結(jié)合在一起。如果做到三進(jìn)三出,我覺(jué)得會(huì)是至少我個(gè)人喜歡的東西。

訓(xùn)練范式的變化:Multi-turn RL

第二個(gè)是今天的范式發(fā)生了一個(gè)很大的變化,今天不是像以前那樣訓(xùn)模型,有標(biāo)注的數(shù)據(jù),有一條輸入和輸出訓(xùn)練就可以,我們今天要把更多的數(shù)據(jù)放到實(shí)驗(yàn)中去訓(xùn)練。如果大家關(guān)注xAI的宣傳,RL的數(shù)據(jù)我雖然覺(jué)得他們有點(diǎn)浪費(fèi),但是另一方面也意味著RL有很多的想象空間。當(dāng)然并不是說(shuō)自己跟自己對(duì)話,我其實(shí)沒(méi)有那么關(guān)心我們的模型能不能做成為最強(qiáng)的數(shù)學(xué)大腦,我更關(guān)心的是像日常真實(shí)的人,為這個(gè)社會(huì)做貢獻(xiàn)。如果它能夠做到這一點(diǎn),我覺(jué)得還挺好。

所以Multi-turn RL with environment feedback towards long-horizon reasoning,因?yàn)楹芏鄷r(shí)候做很多事情需要很長(zhǎng)的時(shí)間,你得一步步去做。但是AI可以加速很多,比如說(shuō)人類花兩個(gè)月的時(shí)間做的東西,AI可以花兩天的時(shí)間。雖然有很多Token在里面,但是兩天確實(shí)能夠節(jié)省我們很多的時(shí)間在這里面。

Agent:走向虛擬世界和物理世界

Agent其實(shí)可以走向虛擬世界和物理世界,所以有了Embodied Reasoning的這種方式。我們內(nèi)部討論了一個(gè)方式,就算你是做VLA,做Coding的模型,說(shuō)白了也是把語(yǔ)言轉(zhuǎn)化成Embodied的模型,從這個(gè)角度上來(lái)看就非常的振奮人心,于是我們就覺(jué)得大干一場(chǎng),看一看能不能走向Digital Agent,GUI操作,同時(shí)能夠使用API,這個(gè)就是非常完美的Digital Agent。

如果走向物理世界,是不是能夠把話筒拿起來(lái),今天能夠斟茶倒水,這是我們今天很想做的事情。

非常感謝大家!


圓桌對(duì)話:中國(guó)AI的下一步

主持人:李廣密
嘉賓:楊強(qiáng)、唐杰、林俊旸、姚順雨

開(kāi)場(chǎng)

李廣密: 我是接下來(lái)Panel的主持人廣密。我剛才在臺(tái)下聽(tīng)有幾個(gè)感受,第一是唐老師的號(hào)召力很強(qiáng),清華的人才非常好,不僅是國(guó)內(nèi)包括海外,清華人的比例非常高,感覺(jué)這一撥好像跟國(guó)內(nèi)學(xué)校在AI這一撥拉開(kāi)差距了。第二是我剛才聽(tīng)?zhēng)讉€(gè)Talk的感受是不止follow、不止開(kāi)源,不只是Coding,都在探索自己的產(chǎn)品形態(tài)。

2025年是中國(guó)開(kāi)源模型大放異彩的一年,是開(kāi)源四杰在全球大放異彩的一年,而且是Coding過(guò)去一年有10-20倍增長(zhǎng)的一年,包括海外也在提Scaling到底走到哪一步了,有沒(méi)有新范式出來(lái)了,接下來(lái)這個(gè)Panel是到底接下來(lái)怎么走,是特別有意思的。接下來(lái)邀請(qǐng)幾位嘉賓:楊強(qiáng)教授、唐杰老師、俊旸和順雨。

我們先從第一個(gè)比較有意思的話題聊起,硅谷幾家明顯做分化,可以從分化這個(gè)主題先聊起來(lái)。Spec其實(shí)是對(duì)中國(guó)模型有一個(gè)非常大的啟發(fā),硅谷的競(jìng)爭(zhēng)那么激烈,它沒(méi)有完全Follow全都做,而是專注到了企業(yè),專注到了Coding,專注到了Agent。我也在想接下來(lái)中國(guó)的模型會(huì)分化成自己想要的哪些方向?我覺(jué)得分化這個(gè)主題蠻有意思的。順雨上線了,順雨開(kāi)場(chǎng)給大家講一講,包括你最近在干什么。

姚順雨: 大家好,我現(xiàn)在是不是一個(gè)巨大的臉在會(huì)場(chǎng)?不好意思,今天沒(méi)法親自來(lái)北京,但是很高興參加這個(gè)活動(dòng)。最近忙著做模型、做產(chǎn)品、做AI,是一個(gè)很正常的狀態(tài)?;貒?guó)的感覺(jué)還是挺好的,吃得好很多。

話題一:模型分化

李廣密: 順雨,你能展開(kāi)聊聊你對(duì)模型分化這個(gè)主題的想法嗎?硅谷也都在分化,包括說(shuō)Spec做了Coding,中國(guó)很多模型做了開(kāi)源,過(guò)去Coding提的也很快,包括谷歌也沒(méi)有全都做,它現(xiàn)在把全模態(tài)這個(gè)做好,你的老東家重點(diǎn)做To C是橫跨中美的體感,可以講講你的體感,接下來(lái)不管是自己也好,各家也好,分化這個(gè)點(diǎn),你是怎么思考的?

姚順雨: 我覺(jué)得有兩個(gè)大的感受,一個(gè)感受是To C和To B發(fā)生了明顯的分化,另外一個(gè)感受是垂直整合這條路,以及模型和應(yīng)用分層這條路,也開(kāi)始出現(xiàn)了分化

我先說(shuō)第一點(diǎn),我覺(jué)得很明顯的是當(dāng)大家想到AI就是兩個(gè),ChatGPT,另外一個(gè)Claude Code,是做To C和To B的典范。非常有意思的一點(diǎn)是我們今天用ChatGPT和去年相比的話,感受差別不是太大。但是相反,Coding夸張一點(diǎn)來(lái)講,已經(jīng)在重塑整個(gè)計(jì)算機(jī)行業(yè)做事的方式,人已經(jīng)不再寫代碼,而是用英語(yǔ)和電腦去交流。

我覺(jué)得很核心的一點(diǎn),對(duì)于To C來(lái)說(shuō),大部分人大部分時(shí)候不需要用到這么強(qiáng)的智能,可能今天用ChatGPT和去年相比,寫抽象代數(shù)和伽羅瓦理論的能力變強(qiáng)了,但是大部分人大部分時(shí)候感受不到。大部分人尤其是在中國(guó)更多像是搜索引擎的加強(qiáng)版,很多時(shí)候也不知道該怎么去用,把它的智能給激發(fā)出來(lái)。

但對(duì)于To B來(lái)說(shuō),很明顯的一點(diǎn)是智能越高,代表生產(chǎn)力越高,值錢的也越來(lái)越多,這些東西都是相關(guān)的。

對(duì)于To B來(lái)講,還有一個(gè)很明顯的點(diǎn),大部分時(shí)候很多人就愿意用最強(qiáng)的模型。一個(gè)模型是200美元/月,第二強(qiáng)或者差一些的模型是50美元/月、20美元/月,我們今天發(fā)現(xiàn)很多美國(guó)的人愿意花溢價(jià)用最好的模型??赡芩哪晷绞?0萬(wàn)美元,每天要做10個(gè)任務(wù),一個(gè)非常強(qiáng)的模型可能10個(gè)任務(wù)中八九個(gè)做對(duì)了,差的是做對(duì)五六個(gè),問(wèn)題是你不知道這五六個(gè)是哪五六個(gè)的情況下,需要花額外精力去監(jiān)控這個(gè)事情。

我覺(jué)得無(wú)論是人還是模型,在To B這個(gè)市場(chǎng)上發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象,強(qiáng)的模型和稍微差點(diǎn)或者弱的模型它的分化會(huì)越來(lái)越明顯。我覺(jué)得這是第一點(diǎn)觀察。

第二點(diǎn)觀察,垂直整合這條路和模型應(yīng)用分層這條路的區(qū)別。我覺(jué)得一個(gè)比較好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus這樣的應(yīng)用層產(chǎn)品,過(guò)去大家會(huì)認(rèn)為當(dāng)你有垂直整合能力肯定會(huì)做的更好,但起碼今天來(lái)看并不一定。首先模型層和應(yīng)用層需要的能力還是挺不一樣的,尤其是對(duì)于To B或者生產(chǎn)力這樣的場(chǎng)景來(lái)說(shuō),可能更大的預(yù)訓(xùn)練還是一個(gè)非常關(guān)鍵的事情,這個(gè)事情對(duì)于產(chǎn)品公司確實(shí)很難做,但是想要把這么一個(gè)特別好的模型用好,或者這樣的模型有它的溢出能力,也需要在應(yīng)用側(cè)或者環(huán)境這一側(cè)做很多相應(yīng)的事情。

我們會(huì)發(fā)現(xiàn)其實(shí)在To C的應(yīng)用上垂直整合還是成立的,無(wú)論是ChatGPT還是豆包,模型和產(chǎn)品是非常強(qiáng)耦合去緊密迭代的。但是對(duì)于To B來(lái)說(shuō)這個(gè)趨勢(shì)似乎是相反的,模型在變得越來(lái)越強(qiáng)、越來(lái)越好,但同樣會(huì)有很多應(yīng)用層的東西應(yīng)用好的模型在不同的生產(chǎn)力環(huán)節(jié)。

這是我的兩個(gè)觀察。

李廣密: 因?yàn)轫樣暧幸粋€(gè)新的身份,在中國(guó)的市場(chǎng)下順雨接下來(lái)想的是什么,有哪些鮮明的特點(diǎn)或者關(guān)鍵詞嗎?現(xiàn)在能給大家分享嗎?

姚順雨: 我覺(jué)得騰訊肯定還是To C基因更強(qiáng)的公司,我覺(jué)得我們會(huì)思考怎么樣能夠讓今天的大模型或者說(shuō)AI的發(fā)展能夠給用戶提供更多價(jià)值。很核心的思考是我們發(fā)現(xiàn)很多時(shí)候我們的環(huán)境來(lái)講,或者更強(qiáng)的模型,很多時(shí)候需要的是額外的Context

我最近經(jīng)常舉一個(gè)例子,比如我想問(wèn)我今天該去吃什么?其實(shí)你今天問(wèn)ChatGPT和你去年問(wèn)或者明天問(wèn)都會(huì)差很多。這個(gè)事情想要變好,不是說(shuō)你需要更大的模型、更強(qiáng)的預(yù)訓(xùn)練、更強(qiáng)的強(qiáng)化學(xué)習(xí)、更強(qiáng)的Agent環(huán)境或者更強(qiáng)的搜索引擎,這個(gè)問(wèn)題可能需要更多額外的輸入,或者我們叫Context。如果它知道我今天特別冷,我需要吃些暖和的,我在今天這樣的范圍活動(dòng),可能我老婆在另一個(gè)地方吃什么等各種各樣的事情。其實(shí)回答這樣的問(wèn)題,更多的是額外的輸入。比如我和老婆聊了很多天,我們可以把聊天記錄轉(zhuǎn)發(fā)給元寶,或者把額外的輸入用好,反而會(huì)給用戶帶來(lái)很多額外的價(jià)值。這是我們對(duì)To C上的思考。

在To B在中國(guó)確實(shí)是很難的事情,生產(chǎn)力的革命,包括我們今天很多中國(guó)的公司做Coding Agent需要打很多海外市場(chǎng)。我們會(huì)思考怎么把自己先服務(wù)好,像創(chuàng)業(yè)公司做Coding這個(gè)事情和大公司做Coding這個(gè)事情,一個(gè)區(qū)別是作為大公司本身就已經(jīng)有各種各樣的應(yīng)用場(chǎng)景、各種各樣需要生產(chǎn)力變得更好的地方。如果我們的模型能夠在這個(gè)地方做得更好,不僅這個(gè)模型會(huì)有自己獨(dú)特的優(yōu)勢(shì),不僅我們公司本身能得到很好的發(fā)展,很重要的一點(diǎn)是對(duì)于真實(shí)世界場(chǎng)景的數(shù)據(jù)捕捉會(huì)是一個(gè)很有意思的事情。比如說(shuō)Claude這些創(chuàng)業(yè)公司,他們想要去做更多的Coding Agent的數(shù)據(jù),需要找數(shù)據(jù)廠商去標(biāo)注這個(gè)數(shù)據(jù),他們需要利用各種各樣的軟件工程師去想我要去標(biāo)什么樣的數(shù)據(jù)。這個(gè)事情是數(shù)據(jù)公司一共就這么幾家,一共招了這么多人,最終你會(huì)受限。但如果你是一個(gè)10萬(wàn)人的公司,可能會(huì)有一些有意思的嘗試,怎么把真實(shí)世界的數(shù)據(jù)利用好,而不是僅僅依賴于標(biāo)注商或者協(xié)議。

李廣密: 多謝順雨。接下來(lái)Cue一下俊旸,你怎么看接下來(lái)千問(wèn)未來(lái)的生態(tài)位或者分化的考慮?之前你講了多模態(tài),阿里云在To B很強(qiáng),接下來(lái)你也提了全模態(tài)可能更多的是To C的,這方面是怎么思考的?

林俊旸: 理論上我是不能評(píng)論公司的,但我覺(jué)得公司也不一定有那么多基因之分,一代一代的人可能就塑造了這些公司,比如說(shuō)今天順雨到騰訊之后,可能騰訊變成一個(gè)有著順雨基因的公司。

接下來(lái)這一句,我也想注入我們自己對(duì)AGI的理解。我覺(jué)得今天To B也好,To C也好,我們?cè)诜?wù)真實(shí)的問(wèn)題,我們想的問(wèn)題是怎么把人類世界變得更好。你就算做To C的產(chǎn)品也會(huì)分化,今天OpenAI更像一個(gè)平臺(tái)了,但是To C最終要服務(wù)真實(shí)的這批用戶究竟是誰(shuí)。今天可能有很多AI會(huì)更偏向medical和law,今天我覺(jué)得Coding真的很厲害,我就拜訪它,因?yàn)槲抑浪麄兏蛻艚涣鞣浅6?,這個(gè)是我們還不夠好的一個(gè)點(diǎn)。雖然我們擁有巨大的優(yōu)勢(shì),也可能中國(guó)SaaS市場(chǎng)跟美國(guó)確實(shí)不太一樣,他們確實(shí)非常頻繁地跟客戶進(jìn)行交流,很容易發(fā)現(xiàn)很大的機(jī)會(huì)。今天我跟美國(guó)的很多API廠商聊起來(lái),他們沒(méi)有想到Coding消耗量那么大,在中國(guó)真的沒(méi)有那么大,至少?gòu)奈疫@邊來(lái)看,但是在美國(guó),基本上全都是Coding,我覺(jué)得這個(gè)事情不是所有人都能Get到的。

今天做的一些相關(guān)的東西,我覺(jué)得也是他們自己在跟客戶看到這個(gè)機(jī)會(huì)。我覺(jué)得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI該做的事情,順其自然,這是我們?cè)撟龅氖虑椤?/p>

李廣密: 多謝俊旸。有請(qǐng)楊強(qiáng)老師談?wù)劮只膯?wèn)題。

楊強(qiáng): 分化的問(wèn)題其實(shí)我更想聊一下工業(yè)界和學(xué)術(shù)界的分化,這個(gè)可能是橫跨美國(guó)和中國(guó)的。一直以來(lái),學(xué)術(shù)界是一個(gè)觀望者,工業(yè)界在領(lǐng)頭往前瘋跑,搞得很多學(xué)術(shù)界的人也在做工業(yè)界的事情,像唐杰老師。這是一個(gè)好事,就好像天體物理學(xué)剛剛開(kāi)始的時(shí)候是以觀測(cè)為主,伽利略的望遠(yuǎn)鏡,然后才出現(xiàn)牛頓。所以我覺(jué)得后面一個(gè)階段,當(dāng)我們有了眾多的穩(wěn)定大模型,進(jìn)入一個(gè)穩(wěn)態(tài)的時(shí)候,我們學(xué)術(shù)界應(yīng)該跟上來(lái)。

學(xué)術(shù)界跟上來(lái)要解決什么問(wèn)題呢?工業(yè)界可能還沒(méi)來(lái)得及解決的一些問(wèn)題,這也是我一直在考慮的問(wèn)題,就是說(shuō)智能上界在哪里,比如說(shuō)給你一定的資源,計(jì)算資源或者能源資源,你能做到多好?可以更細(xì)一點(diǎn),比方說(shuō)我們把這個(gè)資源怎么分配,哪些分配在訓(xùn)練上、哪些分配在推理上?其實(shí)我很早就在做AI,90年代初就做過(guò)一個(gè)小實(shí)驗(yàn),如果我們有一定的投入在記憶上,那么這個(gè)記憶能夠幫助推理多少,這個(gè)幫助會(huì)不會(huì)變成一個(gè)反向的,就是說(shuō)你記的太多了,反而記的噪音會(huì)干擾你的推理,有沒(méi)有一個(gè)平衡點(diǎn),我覺(jué)得這些問(wèn)題今天還是適用的。

我最近也在想另外一個(gè)問(wèn)題,大家學(xué)計(jì)算機(jī)的都必定上計(jì)算機(jī)理論課,里面有一個(gè)重要的定理叫哥德?tīng)柌煌陚涠ɡ?/strong>,大概意思是說(shuō)一個(gè)大模型不能自證清白,必定有一些幻覺(jué)不可能消滅掉,可能你給更多的資源,它會(huì)消滅得更多。所以科學(xué)問(wèn)題就來(lái)了,你多少資源能夠換取多少幻覺(jué)的降低或者錯(cuò)誤率的降低,這是有一個(gè)平衡點(diǎn)的,這個(gè)平衡點(diǎn)特別像經(jīng)濟(jì)學(xué),經(jīng)濟(jì)學(xué)的風(fēng)險(xiǎn)和收益的一種平衡,所以我們叫這叫無(wú)免費(fèi)午餐定理。像這些東西,我覺(jué)得今天就特別適合數(shù)學(xué)界、算法界和學(xué)術(shù)界和工業(yè)界一起做研究,這孕育著一個(gè)巨大的突破。

剛才唐杰老師也提到持續(xù)學(xué)習(xí),我覺(jué)得持續(xù)學(xué)習(xí)是一個(gè)特別好的問(wèn)題,它里面有個(gè)時(shí)間的概念,你在持續(xù)地不斷地學(xué)的過(guò)程當(dāng)中,但是你會(huì)發(fā)現(xiàn),比方說(shuō)你把不同的Agent給串聯(lián)起來(lái),每一個(gè)Agent都不能做到百分之百的話,你在N個(gè)以后它的能力是按指數(shù)下降的,你怎么樣能夠保證它不下降。人類是用一個(gè)方法做這個(gè)事,第一天是學(xué)習(xí),第二天會(huì)在第一天噪音的基礎(chǔ)上學(xué)習(xí),這樣你的能力就類似大模型會(huì)下降。但是人類有一個(gè)方法就是睡覺(jué)、睡眠,我建議大家看一本書叫《我們?yōu)槭裁此X(jué)》,是MIT的兩個(gè)教授寫的,非常好玩,它說(shuō)每天晚上睡覺(jué)是在清理噪音,使得第二天你可以把準(zhǔn)確率持續(xù)地提升,不至于是兩個(gè)錯(cuò)誤率的疊加。像這些理論的研究孕育著一種新的計(jì)算模式。我們今天可能比較關(guān)注Transformer,但是我覺(jué)得有必要做一些新的探索,這是工業(yè)界和學(xué)術(shù)界要拉齊。

李廣密: 唐老師,我們從Web的感受上,智譜走了Coding非常強(qiáng),榜單上非常靠前,包括長(zhǎng)程的Agent,您對(duì)分化這個(gè)主題怎么看?

唐杰: 我倒覺(jué)得回到了最本質(zhì)的問(wèn)題,早期的時(shí)候還是基座模型。2023年那個(gè)時(shí)候我們第一個(gè)做出Chat的,當(dāng)時(shí)第一個(gè)想法是趕緊把Chat扔在網(wǎng)上上線,當(dāng)時(shí)國(guó)家有規(guī)定,八九月份一起上。當(dāng)時(shí)我的第一感受是十來(lái)個(gè)大模型都上來(lái)了,而且每一家用戶都沒(méi)有那么多,當(dāng)然今天分化得非常嚴(yán)重。

后來(lái)我經(jīng)過(guò)一年的思考,我覺(jué)得其實(shí)這個(gè)已經(jīng)不是真的解決問(wèn)題,我的第一個(gè)預(yù)判是說(shuō)它會(huì)替代搜索,我相信今天很多人在用這個(gè)模型替代搜索,到今天我相信大家很多人在開(kāi)始用這個(gè)模型替代搜索,但是并沒(méi)有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改進(jìn)。從這個(gè)角度上,我覺(jué)得這一仗從DeepSeek出來(lái)之后,已經(jīng)沒(méi)有了,已經(jīng)結(jié)束了。DeepSeek之后我們應(yīng)該想的是下一仗是什么東西?我們團(tuán)隊(duì)爭(zhēng)論了很久,下一仗肯定要讓AI做一件事情,做這件事情是什么可以討論一下。那個(gè)時(shí)候廣密還到我們那跟我們交流,廣密的知識(shí)特別淵博,他思考問(wèn)題很深邃,和他的交流對(duì)我的啟發(fā)非常大,原來(lái)我沒(méi)有想到,那一次讓我啟發(fā)非常大。后來(lái)我們團(tuán)隊(duì)爭(zhēng)論了很多晚上,爭(zhēng)論到最后,可以叫我們的運(yùn)氣,另一方面我們也是把所有的精力放在了Coding上。

李廣密: 我覺(jué)得大家有了自己的best,不僅大家在追求通用能力,大家都有自己的資源稟賦把自己擅長(zhǎng)的點(diǎn)做。

話題二:下一個(gè)范式

李廣密: 接下來(lái)第二個(gè)比較有意思的問(wèn)題,今天這個(gè)時(shí)間點(diǎn)特別特殊,一個(gè)是預(yù)訓(xùn)練過(guò)去走了3年,大家都說(shuō)可能今天走到了七八成的收益,強(qiáng)化學(xué)習(xí)也都成為共識(shí),做到了四五十的空間,后面的數(shù)據(jù)、環(huán)境空間很大,接下來(lái)一個(gè)新的范式,唐老師也談到了自主學(xué)習(xí)、自我學(xué)習(xí),因?yàn)榻裉爝@個(gè)會(huì)的主題是接下來(lái)的展望Next,我覺(jué)得這是一個(gè)特別值得去聊的話題。

我們先從順雨開(kāi)始,你從領(lǐng)先的OpenAI待過(guò),對(duì)于下一個(gè)范式是怎么思考的?因?yàn)镺penAI是為人類推進(jìn)了前兩個(gè)范式的一家公司,對(duì)第三個(gè)范式,從你的觀察來(lái)講,能給大家?guī)?lái)一些分享嗎?

姚順雨: 現(xiàn)在自主學(xué)習(xí)是一個(gè)非常熱門的詞,在硅谷大街小巷咖啡館里面,大家都在談?wù)?,形成了一個(gè)共識(shí)。根據(jù)我的觀察,每個(gè)人對(duì)這個(gè)東西的定義和看法都不一樣,我講兩點(diǎn):

第一,這個(gè)事情不是方法論,而是數(shù)據(jù)或者任務(wù)。 當(dāng)我們?cè)谡務(wù)撟灾鲗W(xué)習(xí)的時(shí)候,它到底在什么樣的場(chǎng)景下基于什么樣的獎(jiǎng)勵(lì)函數(shù)去做,你在聊天的時(shí)候變得越來(lái)越個(gè)性化是一種自主學(xué)習(xí),在寫代碼的時(shí)候越來(lái)越熟悉每個(gè)公司獨(dú)特的環(huán)境或者文檔是一種自主學(xué)習(xí),你去探索新的科學(xué),在這個(gè)過(guò)程中像一個(gè)博士一樣,從原來(lái)不了解有機(jī)化學(xué)是什么,到成為這個(gè)領(lǐng)域的專家,這也是一種自主學(xué)習(xí)。每一種自主學(xué)習(xí)的挑戰(zhàn)或者說(shuō)方法論都不太一樣。

第二,我不知道這是不是非共識(shí)的,這個(gè)事情其實(shí)已經(jīng)在發(fā)生了。 很明顯的,ChatGPT在利用用戶的數(shù)據(jù)不斷彌合人聊天的風(fēng)格是什么,使得能感覺(jué)到它的好,這是不是一種自我學(xué)習(xí)?

今天Claude已經(jīng)寫了Claude這個(gè)項(xiàng)目95%的代碼,它在幫助它自己變得更好,這是不是一種自我學(xué)習(xí)?我們當(dāng)時(shí)2022年、2023年的時(shí)候,我去硅谷宣傳這個(gè)工作,我當(dāng)時(shí)寫了第一頁(yè)是說(shuō)ASI最重要的點(diǎn)是自主學(xué)習(xí)。今天的AI系統(tǒng)本質(zhì)上都有兩部分,首先它是一個(gè)模型,其次它有個(gè)代碼庫(kù),你怎么去用這個(gè)模型,是用來(lái)做推理,還是做Agent,有相應(yīng)的代碼庫(kù)。我們今天看Claude這個(gè)系統(tǒng)本質(zhì)上有兩部分,一部分是部署環(huán)境的一大堆相應(yīng)的代碼,另一部分是怎么樣去使用它,有一大堆相應(yīng)的代碼,無(wú)論是GPU的,或者說(shuō)它的前端還是環(huán)境是什么樣的。我們做Switch方面大家意識(shí)不到,這些自主學(xué)習(xí)的例子可能還局限在每一個(gè)特定的場(chǎng)景下,沒(méi)有讓人感覺(jué)到非常大的威力。

這個(gè)事情已經(jīng)在發(fā)生了,可能效率或者受限制的限制,有各種各樣的問(wèn)題??赡苓@個(gè)事情我個(gè)人的看法它更像是一個(gè)漸變,不是突變,這是我的看法。

李廣密: 我再Follow順雨一個(gè)問(wèn)題,有一些人對(duì)自主學(xué)習(xí)比較樂(lè)觀,2026年可以看到一些信號(hào),你覺(jué)得自主學(xué)習(xí)看到信號(hào),還有哪些實(shí)際的問(wèn)題要突破?比如說(shuō)Long Context也好,模型并行采樣也好,你感覺(jué)接下來(lái)還有哪些關(guān)鍵條件具備了,這些信號(hào)才會(huì)發(fā)生?

姚順雨: 很多人說(shuō)2026年看到信號(hào),我覺(jué)得2025年就看到信號(hào)了。Cursor他們做的每幾個(gè)小時(shí)都會(huì)用最新的用戶數(shù)據(jù)去進(jìn)行學(xué)習(xí),包括新的模型,也在使用這些真實(shí)環(huán)境下的數(shù)據(jù)去訓(xùn)練。大家覺(jué)得這個(gè)東西可能還沒(méi)有特別石破天驚,是因?yàn)槭芟抻谒麄儧](méi)有預(yù)訓(xùn)練能力,他們模型效果確實(shí)還不如OpenAI,但顯然這是一個(gè)信號(hào)。

最大的問(wèn)題是想象力,我們很容易想象強(qiáng)化學(xué)習(xí)或者推理這個(gè)范式,如果實(shí)現(xiàn)大概是什么樣,我們可以想象O1,在數(shù)學(xué)題上本來(lái)是10分,現(xiàn)在變成了80分,通過(guò)這個(gè)強(qiáng)化學(xué)習(xí)有非常強(qiáng)的思維鏈做這個(gè)事情。如果2026年或者2027年我們有一個(gè)范式的發(fā)生,我宣布了一個(gè)新的模型或者新的系統(tǒng)實(shí)現(xiàn)了自我學(xué)習(xí),我們應(yīng)該用什么樣的任務(wù),它應(yīng)該是什么樣的效果,你會(huì)相信它實(shí)現(xiàn)了?它是一個(gè)賺錢的交易系統(tǒng),它可以賺很多錢,它真的解決了人類之前沒(méi)法解決的科學(xué)問(wèn)題還是別的。我覺(jué)得可能需要先想象到它長(zhǎng)什么樣。

李廣密: 順雨,OpenAI已經(jīng)立了兩次范式革新,如果2027年有新的范式出來(lái),全球范圍內(nèi)的哪家公司繼續(xù)立的范式創(chuàng)新的概率最大?如果說(shuō)一家公司。

姚順雨: 可能OpenAI的概率還是更大,因?yàn)樗虡I(yè)化等各種各樣的變化,它創(chuàng)新的基因已經(jīng)被削弱了,但我覺(jué)得它還是最有可能誕生新范式的地方。

李廣密: 多謝順雨。俊旸對(duì)2026年新的范式還有什么要聚焦的?

林俊旸: 如果從更實(shí)際一點(diǎn)來(lái)講的話,剛才講的這個(gè)范式在比較早期階段,RL這個(gè)事情,實(shí)際上我們還沒(méi)有做得那么充分,很多潛力沒(méi)有打出來(lái)。今天我們也看到很多問(wèn)題在這里面發(fā)生,我覺(jué)得全球范圍內(nèi)類似的問(wèn)題還存在。

如果要說(shuō)下一代范式的話,一個(gè)自主學(xué)習(xí),之前跟一個(gè)朋友聊到說(shuō)人類不能讓AI變得更厲害,比如說(shuō)你跟AI不斷地交互,只會(huì)讓它上下文變得越來(lái)越長(zhǎng),AI變得越來(lái)越笨,這是很煩人的事情。

這件事情是不是真的能夠發(fā)生?這還是挺值得思考的,你能吐更多Token讓你變得更強(qiáng),至少O系列一定程度上實(shí)現(xiàn)。有沒(méi)有可能,就像我真的干30個(gè)小時(shí)真的能夠干出很難的任務(wù),今天大家做超長(zhǎng)的事情很難,有沒(méi)有可能通過(guò)Coding去實(shí)現(xiàn)。

從這個(gè)角度來(lái)說(shuō),AI肯定需要自主進(jìn)化,但究竟你是不是要更新參數(shù),我覺(jué)得見(jiàn)仁見(jiàn)智,大家都有不同的技術(shù)手段去實(shí)現(xiàn)這個(gè)事情。

第二點(diǎn)是AI有沒(méi)有可能實(shí)現(xiàn)更強(qiáng)的主動(dòng)性,環(huán)境是我的輸入信號(hào),我現(xiàn)在的AI必須得有人類幫助它才能啟動(dòng),但是有沒(méi)有可能自己能自主思考,去做一些事情。這引發(fā)了一個(gè)新的問(wèn)題,就是安全的問(wèn)題,我非常擔(dān)心安全的問(wèn)題,不是擔(dān)心它今天講一些不該說(shuō)的話,最擔(dān)心的是它做一些不該做的事情。比如說(shuō)今天主動(dòng)產(chǎn)生一些想法,往會(huì)場(chǎng)里面扔一顆炸彈,我們肯定不希望不安全的事情發(fā)生。就像培養(yǎng)小孩一樣,我們要給它注入一些正確的方向,但主動(dòng)學(xué)習(xí)是一個(gè)挺重要的范式。

李廣密: 俊旸提了主動(dòng)性,自主學(xué)習(xí)看到信號(hào),你感覺(jué)可能是在哪些任務(wù)上做什么樣的任務(wù)會(huì)先看到?是訓(xùn)練模型,最強(qiáng)的模型可以提升自己,還是自動(dòng)化的AI研究員?你有期待在哪些地方先看到嗎?

林俊旸: 我覺(jué)得自動(dòng)化的AI研究員甚至都不是那么需要自主學(xué)習(xí),可能很快訓(xùn)AI這件事情就可以實(shí)現(xiàn),我看我們同學(xué)每天干這個(gè)事情,我覺(jué)得很快就被替代掉。我覺(jué)得可能更持續(xù)的理解用戶這件事情還挺重要的,比如說(shuō)過(guò)往我們?cè)谧鐾扑]系統(tǒng)的時(shí)候,用戶這個(gè)信息是持續(xù)輸入,讓這個(gè)系統(tǒng)變得更強(qiáng),它的算法變得更簡(jiǎn)單。在AI這個(gè)時(shí)代它是不是能更懂你,這些信息的輸入能不能真正成為幫助我們的工具。

我覺(jué)得如果說(shuō)自主學(xué)習(xí)的話,可能會(huì)是跟人的交互上就能做到...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

2026鐵飯碗排名出爐!教師竟然跌到第9,第1名讓所有人都沉默了!

金哥說(shuō)新能源車
2026-02-27 05:18:50
“全部拆除”將至?2026住建部官宣:這兩類房屋一律拆除

“全部拆除”將至?2026住建部官宣:這兩類房屋一律拆除

慧眼看世界哈哈
2026-03-02 14:13:14
李兆會(huì)的18年復(fù)仇路

李兆會(huì)的18年復(fù)仇路

詩(shī)意世界
2025-10-10 14:09:20
送走馬蓉又迎來(lái)馮清,倒霉的王寶強(qiáng),終究還是逃不過(guò)“女人坑”

送走馬蓉又迎來(lái)馮清,倒霉的王寶強(qiáng),終究還是逃不過(guò)“女人坑”

卷史
2026-02-15 06:08:47
在中國(guó)待了不到一天,默茨就知道,有些東西特朗普給不了

在中國(guó)待了不到一天,默茨就知道,有些東西特朗普給不了

曹興教授TALK
2026-02-26 19:31:12
開(kāi)往北京的K1304次剛開(kāi)車,列車長(zhǎng)就鎖定13車15號(hào)座位……

開(kāi)往北京的K1304次剛開(kāi)車,列車長(zhǎng)就鎖定13車15號(hào)座位……

娛樂(lè)圈的筆娛君
2026-03-02 20:15:38
NBA周最佳球員:東部杜倫和西部愛(ài)德華茲當(dāng)選

NBA周最佳球員:東部杜倫和西部愛(ài)德華茲當(dāng)選

懂球帝
2026-03-03 08:39:03
官方:CCTV5將轉(zhuǎn)播中國(guó)女足亞洲杯首戰(zhàn)vs孟加拉國(guó)女足

官方:CCTV5將轉(zhuǎn)播中國(guó)女足亞洲杯首戰(zhàn)vs孟加拉國(guó)女足

懂球帝
2026-03-02 14:43:31
俄羅斯是最受中國(guó)人喜歡的國(guó)家?

俄羅斯是最受中國(guó)人喜歡的國(guó)家?

玖奌雜貨鋪
2026-02-28 21:00:06
廣東助力!粵桂對(duì)接的高速,環(huán)評(píng)獲批3年但仍未開(kāi)工,近期重啟?

廣東助力!粵桂對(duì)接的高速,環(huán)評(píng)獲批3年但仍未開(kāi)工,近期重啟?

筆墨V
2026-03-03 01:22:29
美國(guó)半馬荒誕一幕:引導(dǎo)車帶錯(cuò)路 前3名選手多跑800米集體無(wú)緣獎(jiǎng)牌

美國(guó)半馬荒誕一幕:引導(dǎo)車帶錯(cuò)路 前3名選手多跑800米集體無(wú)緣獎(jiǎng)牌

風(fēng)過(guò)鄉(xiāng)
2026-03-02 22:26:34
錢再多也沒(méi)用!身價(jià)千萬(wàn)的撒貝寧,面對(duì)家庭牽掛煩心事還是太多了

錢再多也沒(méi)用!身價(jià)千萬(wàn)的撒貝寧,面對(duì)家庭牽掛煩心事還是太多了

不甜的李子
2026-03-02 16:59:30
哈梅內(nèi)伊,突然“回歸天國(guó)”

哈梅內(nèi)伊,突然“回歸天國(guó)”

中國(guó)新聞周刊
2026-03-01 12:28:08
為什么有些人的預(yù)判能力這么強(qiáng)?網(wǎng)友:見(jiàn)微知著,比很多人都厲害

為什么有些人的預(yù)判能力這么強(qiáng)?網(wǎng)友:見(jiàn)微知著,比很多人都厲害

夜深愛(ài)雜談
2026-02-20 22:02:31
你知道中國(guó)最大的資金外流通道是什么嗎?

你知道中國(guó)最大的資金外流通道是什么嗎?

流蘇晚晴
2026-02-02 18:08:27
利雅得發(fā)生劇烈爆炸,全球球迷為C羅安危祈禱

利雅得發(fā)生劇烈爆炸,全球球迷為C羅安危祈禱

星耀國(guó)際足壇
2026-03-02 11:29:30
黃金、白銀直線閃崩!

黃金、白銀直線閃崩!

新浪財(cái)經(jīng)
2026-03-03 08:50:54
黎真主黨領(lǐng)導(dǎo)人表示繼續(xù)抵抗美以侵略

黎真主黨領(lǐng)導(dǎo)人表示繼續(xù)抵抗美以侵略

財(cái)聯(lián)社
2026-03-01 22:50:06
女子回鄉(xiāng)建廠5年:當(dāng)初捧著邀請(qǐng)我來(lái),如今被強(qiáng)拆4000萬(wàn)說(shuō)沒(méi)就沒(méi)

女子回鄉(xiāng)建廠5年:當(dāng)初捧著邀請(qǐng)我來(lái),如今被強(qiáng)拆4000萬(wàn)說(shuō)沒(méi)就沒(méi)

今朝牛馬
2026-01-16 18:14:40
湖人球迷感謝范德比爾特在打勇士時(shí),化解東契奇和主帥的緊張氣氛

湖人球迷感謝范德比爾特在打勇士時(shí),化解東契奇和主帥的緊張氣氛

好火子
2026-03-02 23:04:57
2026-03-03 09:31:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
309文章數(shù) 45關(guān)注度
往期回顧 全部

科技要聞

蘋果iPhone17e發(fā)布:4499元起 升級(jí)A19芯片

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無(wú)前例"的事

頭條要聞

媒體:遭受慘烈襲擊后 伊朗做了件"史無(wú)前例"的事

體育要聞

伯納烏8萬(wàn)人暴怒!高呼78歲老佛爺下課

娛樂(lè)要聞

李亞鵬與哥哥和解 只有一條真心話短信

財(cái)經(jīng)要聞

霍爾木茲海峽近乎停擺 布油直逼80美元

汽車要聞

國(guó)民SUV再添一員 瑞虎7L靜態(tài)體驗(yàn)

態(tài)度原創(chuàng)

房產(chǎn)
游戲
健康
家居
手機(jī)

房產(chǎn)要聞

方案突然曝光!??诒睅煷蟾叫#钟袝蟊P殺出!

LPL人氣選手被曝戀情?疑似與女主持談戀愛(ài),本人親自下場(chǎng)辟謠!

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

家居要聞

萬(wàn)物互聯(lián) 享科技福祉

手機(jī)要聞

安卓性能榜變天:iQOO強(qiáng)勢(shì)登頂,榮耀大亮

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版