国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

大模型的進(jìn)化方向:Words to Worlds | 對(duì)話商湯林達(dá)華

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

李飛飛團(tuán)隊(duì)最新的空間智能模型Cambrian-S,首次被一個(gè)國(guó)產(chǎn)開(kāi)源AI超越了。



從這張展示空間感知能力的雷達(dá)圖中,一個(gè)名為SenseNova-SI的模型,它在多個(gè)維度上的能力評(píng)分均已將Cambrian-S給包圍。

而且從具體的數(shù)據(jù)來(lái)看,不論是開(kāi)源或閉源,不論是2B或8B大小,SenseNova-SI在各大空間智能基準(zhǔn)測(cè)試中都拿下了SOTA的成績(jī):



而這個(gè)SenseNova-SI背后的操刀者,正是商湯科技。

在量子位與商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家林達(dá)華深入交流過(guò)程中,他并沒(méi)有掩飾對(duì)這一進(jìn)展的肯定:

  • 在空間智能這個(gè)賽道上,基于長(zhǎng)期的視覺(jué)積累,我們已經(jīng)走到了世界前列。

但與此同時(shí),林達(dá)華也是隨即話鋒一轉(zhuǎn),表示他并不愿意把這個(gè)故事簡(jiǎn)單地講成“贏了李飛飛”或者“贏了OpenAI”。

更深層的,林達(dá)華更像是在釋放一種信號(hào),一個(gè)關(guān)于AI技術(shù)范式正在發(fā)生劇烈震蕩的信號(hào)——

單純依賴參數(shù)規(guī)模的AI范式逐漸面臨瓶頸。我們站在了新的十字路口。

因?yàn)樵赟caling Law的邊際效應(yīng)開(kāi)始遞減、很多人還在內(nèi)卷大語(yǔ)言模型時(shí),林達(dá)華和他的團(tuán)隊(duì)選擇的卻是一條很少有人走的路:Back to research(回歸實(shí)驗(yàn)室)。

具體而言,是從最底層開(kāi)始死磕原生多模態(tài)和空間智能,以此來(lái)完成一場(chǎng)從Words(語(yǔ)言)到Worlds(世界)的遷徙

而在林達(dá)華看來(lái),在這場(chǎng)遷徙中,中國(guó)科技公司已經(jīng)搶到了一張船票。

我們?cè)摶貧w實(shí)驗(yàn)室了

回望過(guò)去三年,從2022年11月ChatGPT橫空出世,到GPT-4的震撼登場(chǎng),AI行業(yè)經(jīng)歷了一場(chǎng)狂飆式的野蠻生長(zhǎng)。

那是一個(gè)把Scaling Law奉為圭臬的時(shí)代,只要算力足夠大、GPU足夠多、數(shù)據(jù)堆得足夠高,模型的能力似乎就能無(wú)限增長(zhǎng)。

但到了2024年下半年,風(fēng)向變了。

人們發(fā)現(xiàn),雖然榜單上的分?jǐn)?shù)還在漲,從GPT-4到GPT-5.2,再到Gemini的各種升級(jí)版,分?jǐn)?shù)的躍遷越來(lái)越快,但帶給人們的驚艷感卻在邊際遞減。

林達(dá)華一針見(jiàn)血地指出:

  • 原來(lái)的舊路徑,也就是單純依靠Scale的主流范式,雖然把模型推到了一個(gè)很高的高度,但也逐漸觸碰到了天花板。
  • 分?jǐn)?shù)提升越來(lái)越快,但模型對(duì)物理世界的解釋力、對(duì)復(fù)雜邏輯的泛化能力,并沒(méi)有實(shí)現(xiàn)質(zhì)的飛躍。

與此同時(shí),OpenAI前首席科學(xué)家Ilya Sutskever的一聲疾呼“Back to Research”,在硅谷和全球AI圈里引發(fā)了不小的震動(dòng)。



這與林達(dá)華的思考不謀而合:

  • 我們之前的路是大力出奇跡,現(xiàn)在的路,必須是回歸科研的本質(zhì)。

為何會(huì)如此?簡(jiǎn)單來(lái)說(shuō),因?yàn)榧冋Z(yǔ)言模型的紅利快吃完了。

目前的頂尖大模型,在數(shù)學(xué)、編程上已經(jīng)接近奧賽金牌水平,但在理解物理世界、處理三維空間關(guān)系上,可能連一個(gè)幾歲的小朋友都不如。

未來(lái)的AGI,絕不會(huì)只是一個(gè)陪你聊天的Chatbot,也不應(yīng)僅僅活在文本的邏輯里。它必須是一個(gè)能夠理解物理世界、具有多感官能力的世界模型。

林達(dá)華強(qiáng)調(diào)說(shuō):

  • 人類的智能不只有語(yǔ)言。
  • 人類與世界的交互是多模態(tài)的——我們用眼睛看,用耳朵聽(tīng),用手去觸摸。AI的未來(lái),在于從讀萬(wàn)卷書(shū)(語(yǔ)言模型)進(jìn)化到行萬(wàn)里路(空間與世界交互)

在這個(gè)新舊交替的時(shí)間節(jié)點(diǎn),商湯選擇不再盲目跟隨大語(yǔ)言模型的參數(shù)競(jìng)賽,而是掉轉(zhuǎn)船頭,向著原生多模態(tài)這快更難啃的方向進(jìn)發(fā)。

現(xiàn)在的模型連手指都數(shù)不清

現(xiàn)在的多模態(tài)大模型,大多都是有局限性的。

對(duì)于這個(gè)觀點(diǎn),林達(dá)華給出了一個(gè)非常直觀且略帶幽默的案例。

哪怕是強(qiáng)如Grok或者GPT-4的早期版本,當(dāng)你丟給它一張人手的照片,問(wèn)它有幾根手指時(shí),它經(jīng)常會(huì)自信地回答“5根”。

哪怕圖片里的人手因?yàn)榻嵌然蚧冿@示出6根或4根,AI的答案依舊是如此。



再比如,給模型看一張簡(jiǎn)單的三維積木圖,問(wèn)它“從上往下看是什么樣子”,大多數(shù)模型都會(huì)選錯(cuò)。

它們明明看到了圖片,為什么還會(huì)胡說(shuō)八道呢?

因?yàn)樗](méi)有真正在看。

林達(dá)華打了一個(gè)極其生動(dòng)的比方:

  • 這就好比一個(gè)盲人,在黑暗中閉眼學(xué)習(xí)了十年。他讀了萬(wàn)卷書(shū),大腦極其發(fā)達(dá),邏輯思維嚴(yán)密。突然有一天,你讓他睜開(kāi)眼看世界。
  • 他的第一反應(yīng)是什么?是他會(huì)拼命地試圖用他過(guò)去十年在書(shū)本里學(xué)到的語(yǔ)義概念,去硬套眼前看到的東西。

在傳統(tǒng)的多模態(tài)架構(gòu)(拼接式架構(gòu))中,通常是一個(gè)視覺(jué)編碼器(Vision Encoder)加上一個(gè)大語(yǔ)言模型。

視覺(jué)編碼器把圖片翻譯成語(yǔ)言模型能聽(tīng)懂的Token,然后扔給大語(yǔ)言模型去推理。

在這個(gè)過(guò)程中,大語(yǔ)言模型依然是那個(gè)“閉眼學(xué)習(xí)了十年”的大腦。它看到“手”這個(gè)圖像Token,大腦里立刻調(diào)出的先驗(yàn)知識(shí)是“手有5根手指”,會(huì)直接覆蓋掉眼睛看到的真實(shí)像素細(xì)節(jié)。

林達(dá)華分析道:

  • 它不是真的理解了三維空間關(guān)系,它只是在靠概率猜詞。



這種拼接式的路線,雖然能快速出成果,但缺陷是致命的:

視覺(jué)信號(hào)在進(jìn)入大腦的那一刻,就被降維、被閹割了。大量的空間細(xì)節(jié)、三維結(jié)構(gòu)、物理規(guī)律,在轉(zhuǎn)化為語(yǔ)言Token的過(guò)程中流失殆盡。

這就是為什么現(xiàn)在的模型數(shù)學(xué)能拿金牌,卻連手指都數(shù)不清、連積木都搭不明白的原因了。

要解決這個(gè)問(wèn)題,修修補(bǔ)補(bǔ)似乎已經(jīng)是無(wú)濟(jì)于事。必須從底層架構(gòu)上進(jìn)行一場(chǎng)徹底的革新。

商湯原生多模態(tài)的解法

這場(chǎng)革新的產(chǎn)物,就是商湯剛剛開(kāi)源的NEO架構(gòu),以及基于此架構(gòu)的SenseNova-SI模型。



在深入了解這個(gè)架構(gòu)之前,我們需要先理解什么是原生多模態(tài)。

林達(dá)華的解釋是這樣的:

  • 模式上不再是“視覺(jué)眼睛+語(yǔ)言大腦”的拼接。在NEO架構(gòu)里,從模型最底層的Transformer Block開(kāi)始,每一個(gè)細(xì)胞都能同時(shí)處理視覺(jué)和語(yǔ)言信號(hào)。

這聽(tīng)起來(lái)很抽象,但在技術(shù)實(shí)現(xiàn)上卻極其硬核。

在NEO架構(gòu)中,視覺(jué)Token和文本Token不再是“先后進(jìn)入”或“翻譯關(guān)系”,而是“一塊進(jìn)入模型的每一層。

商湯設(shè)計(jì)了專門的混合注意力機(jī)制(Mixed Attention),讓模型在進(jìn)行每一次推理計(jì)算時(shí),既能參考文本的上下文,又能實(shí)時(shí)“回頭看”圖像的原始特征。



為了讓模型真正理解空間,林達(dá)華團(tuán)隊(duì)還干了一件反直覺(jué)的事——

他們不再只用預(yù)測(cè)下一個(gè)詞(Next Token Prediction)來(lái)訓(xùn)練模型,而是引入了跨視角預(yù)測(cè)

簡(jiǎn)單來(lái)說(shuō),就是給模型看一個(gè)物體的正面,讓它去預(yù)測(cè)這個(gè)物體側(cè)面、背面長(zhǎng)什么樣。

林達(dá)華表示:

  • 這就像教小孩子搭積木、看世界一樣,你在腦海里構(gòu)建三維模型的過(guò)程,就是空間智能誕生的過(guò)程。

這種原生架構(gòu)帶來(lái)的效果是驚人的——

數(shù)據(jù)效率提升了10倍。

例如SenseNova-SI僅用了同類模型10%的訓(xùn)練數(shù)據(jù),就達(dá)到了SOTA水平。而且,它不再是靠死記硬背,而是真正理解了三維空間關(guān)系。

正如我們前文提到的對(duì)比評(píng)測(cè)中,SenseNova-SI不僅超越了李飛飛團(tuán)隊(duì)的Cambrian-S,更是在空間推理、幻覺(jué)抑制等關(guān)鍵指標(biāo)上表現(xiàn)更優(yōu)。

林達(dá)華總結(jié)道:

  • 我們希望把一個(gè)閉眼狂奔的盲人,變成了一個(gè)真正睜眼看世界的觀察者。
落地,落地,還得看落地

技術(shù)再牛,如果不能變成生產(chǎn)力,終究只是實(shí)驗(yàn)室里的玩具。

在量子位與林達(dá)華的交流過(guò)程中,他反復(fù)提到了一個(gè)詞:工業(yè)紅線。

  • 我們內(nèi)部有一個(gè)標(biāo)準(zhǔn):任何技術(shù),如果它的使用成本高于它創(chuàng)造的價(jià)值,那就是沒(méi)過(guò)工業(yè)紅線。

這是因?yàn)榇竽P托袠I(yè)目前最大的痛點(diǎn),除了不夠聰明,就是太貴、太慢。

特別是在視頻生成領(lǐng)域,雖然Sora驚艷了世界,但生成幾秒鐘視頻需要消耗巨大的算力,推理時(shí)間動(dòng)輒幾分鐘甚至幾小時(shí)。

這種成本和延遲,根本無(wú)法支撐大規(guī)模的商業(yè)應(yīng)用。

“只有當(dāng)推理成本以每年1-2個(gè)數(shù)量級(jí)的速度下降時(shí),AI才能從Demo級(jí)的炫技,變成石油級(jí)的工業(yè)生產(chǎn)力。”

為了跨過(guò)這條紅線,商湯在落地應(yīng)用上下足了功夫。林達(dá)華以商湯最新實(shí)時(shí)語(yǔ)音驅(qū)動(dòng)數(shù)字人產(chǎn)品SekoTalk為例,展示了什么叫算法和系統(tǒng)協(xié)同的極致優(yōu)化。

目前的視頻生成主流模型都是基于擴(kuò)散模型,生成一張圖往往需要迭代幾十步甚至上百步。

但這個(gè)過(guò)程的步驟就不能減少嗎?答案是否定的。

林達(dá)華團(tuán)隊(duì)利用一種名為算法蒸餾的技術(shù),硬生生將擴(kuò)散模型的推理步數(shù),從100步壓縮到了4步

這不是簡(jiǎn)單的偷工減料,而是基于對(duì)模型分布的深刻理解。林達(dá)華解釋說(shuō):

  • 模型在從白噪聲變成圖像的過(guò)程中,不同階段處理的數(shù)據(jù)分布是完全不同的。以前是用同一套參數(shù)跑100遍,現(xiàn)在是分階段用不同參數(shù)跑4遍,讓專業(yè)的參數(shù)干專業(yè)的事。

如此打法之下,效果依舊是驚人:64倍的速度提升。

這就意味著在不久的將來(lái),你只需要一張消費(fèi)級(jí)的顯卡(比如RTX 4090甚至更低),就能實(shí)時(shí)生成高質(zhì)量的數(shù)字人視頻。



△SekoTalk生成的視頻

聊至此處,林達(dá)華也表現(xiàn)出了激動(dòng)之情:

  • 以前生成20秒視頻要跑一小時(shí),現(xiàn)在我們能做到實(shí)時(shí)生成。這不僅是效率的提升,更是商業(yè)模式的質(zhì)變。
  • 這直接打通了AI在直播、短視頻制作等領(lǐng)域的規(guī)?;涞芈窂健?/li>

從SenseNova-SI的底層架構(gòu)創(chuàng)新,到SekoTalk的極致落地優(yōu)化,商湯正在踐行林達(dá)華所說(shuō)的雙輪驅(qū)動(dòng):

一手抓Back to Research的原始創(chuàng)新,一手抓擊穿工業(yè)紅線的落地價(jià)值。

One More Thing

在對(duì)話的最后,林達(dá)華也為當(dāng)下想要投身AI大浪潮中的年輕人給予了一些寶貴的建議:

  • 不要只盯著大語(yǔ)言模型來(lái)卷,這個(gè)賽道真的太擁擠了。

林達(dá)華誠(chéng)懇地表示,年輕一代的研究者和創(chuàng)業(yè)者,應(yīng)該把視野打開(kāi)。

  • 具身智能、AI for Science、工業(yè)制造、生命科學(xué)……這些都是非常好的領(lǐng)域。
  • 智能不只有語(yǔ)言,AI的未來(lái)在于從讀萬(wàn)卷書(shū)進(jìn)化到行萬(wàn)里路。

林達(dá)華最后說(shuō)道,在這場(chǎng)從Words to Worlds的宏大遷徙中,中國(guó)擁有全世界最豐富的場(chǎng)景、最完整的工業(yè)體系。這片土壤,天生適合培育那些能與物理世界深度交互的AI。

在這個(gè)賽道上,中國(guó)科技公司已經(jīng)搶到了一張船票;而未來(lái)的頭等艙,屬于那些敢于回歸實(shí)驗(yàn)室、敢于勇闖無(wú)人區(qū)的年輕人。

SenseNova-SI地址:
https://github.com/OpenSenseNova/SenseNova-SI

NEO地址:
https://github.com/EvolvingLMMs-Lab/NEO

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
多國(guó)首腦齊聚東京!高市以為贏了?中國(guó)一紙通告,讓她白忙一場(chǎng)

多國(guó)首腦齊聚東京!高市以為贏了?中國(guó)一紙通告,讓她白忙一場(chǎng)

大國(guó)知識(shí)局
2025-12-20 11:17:58
安徽帥哥洪牛去世,結(jié)婚才10天,婚禮上多輛跑車,葬禮上妹妹戴孝

安徽帥哥洪牛去世,結(jié)婚才10天,婚禮上多輛跑車,葬禮上妹妹戴孝

千言?shī)蕵?lè)記
2025-12-18 19:59:34
海南封關(guān),進(jìn)口車價(jià)格降幅近40%!但普通人別買

海南封關(guān),進(jìn)口車價(jià)格降幅近40%!但普通人別買

51qc我要汽車網(wǎng)
2025-12-19 14:49:00
歷史罕見(jiàn),601088,千億級(jí)重大收購(gòu)!一路狂飆,比黃金還牛,白銀再創(chuàng)新高

歷史罕見(jiàn),601088,千億級(jí)重大收購(gòu)!一路狂飆,比黃金還牛,白銀再創(chuàng)新高

數(shù)據(jù)寶
2025-12-20 18:10:48
許亞軍也沒(méi)想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢(mèng)”

許亞軍也沒(méi)想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢(mèng)”

洲洲影視娛評(píng)
2025-12-17 20:19:07
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
國(guó)臺(tái)辦:堅(jiān)決反對(duì)美方在“2026財(cái)年國(guó)防授權(quán)法案”中塞入涉臺(tái)錯(cuò)誤內(nèi)容

國(guó)臺(tái)辦:堅(jiān)決反對(duì)美方在“2026財(cái)年國(guó)防授權(quán)法案”中塞入涉臺(tái)錯(cuò)誤內(nèi)容

新京報(bào)
2025-12-19 19:52:02
演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

演員向梅:晚年退休后生活凄涼,真相被曝光,才知道背后的傷痛

小熊侃史
2025-12-18 10:59:04
萬(wàn)億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

萬(wàn)億順差背后,為什么“擴(kuò)大內(nèi)需”成了最緊迫的事?

知本設(shè)
2025-12-13 10:32:01
日哈14項(xiàng)協(xié)議簽訂,高市早苗萬(wàn)萬(wàn)沒(méi)想到,托卡耶夫竟然還留了一手

日哈14項(xiàng)協(xié)議簽訂,高市早苗萬(wàn)萬(wàn)沒(méi)想到,托卡耶夫竟然還留了一手

知鑒明史
2025-12-19 19:23:20
陷入絕境的7名志愿軍,意外撿到美軍車載重機(jī)槍,會(huì)發(fā)生什么故事

陷入絕境的7名志愿軍,意外撿到美軍車載重機(jī)槍,會(huì)發(fā)生什么故事

史之銘
2025-12-18 19:56:15
林峯前任怕失自由不肯生B狂開(kāi)工!百億闊太家世神秘不讓父母露面

林峯前任怕失自由不肯生B狂開(kāi)工!百億闊太家世神秘不讓父母露面

一盅情懷
2025-12-19 15:00:07
明宣宗朱瞻基陵墓,下周一開(kāi)放

明宣宗朱瞻基陵墓,下周一開(kāi)放

上觀新聞
2025-12-20 16:31:19
德媒:樊振東是德甲歷史最偉大超巨,引發(fā)乒乓熱+帶動(dòng)德國(guó)提升

德媒:樊振東是德甲歷史最偉大超巨,引發(fā)乒乓熱+帶動(dòng)德國(guó)提升

大昆說(shuō)臺(tái)球
2025-12-20 21:37:33
從高處跌落的硅膠臉?lè)蛉耍罕痪?個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

從高處跌落的硅膠臉?lè)蛉耍罕痪?個(gè)月瘦到80斤,頭發(fā)花白眼神驚恐

照見(jiàn)古今
2025-12-12 18:19:05
賀江川落馬,在北京國(guó)企圈子里,妥妥是金字塔尖的大佬。

賀江川落馬,在北京國(guó)企圈子里,妥妥是金字塔尖的大佬。

百態(tài)人間
2025-12-19 16:54:12
人民日?qǐng)?bào)鐘聲:警惕日本“欺騙式外交”故伎重施

人民日?qǐng)?bào)鐘聲:警惕日本“欺騙式外交”故伎重施

新京報(bào)
2025-12-20 13:04:02
無(wú)妻無(wú)子,身價(jià)過(guò)億,年過(guò)50的老好人何炅,迎來(lái)自己“人生結(jié)局”

無(wú)妻無(wú)子,身價(jià)過(guò)億,年過(guò)50的老好人何炅,迎來(lái)自己“人生結(jié)局”

小莜讀史
2025-12-11 15:08:14
哈爾濱冰雪大世界冰雕出現(xiàn)化水?當(dāng)?shù)?9日溫度3.8℃突破歷史當(dāng)日極值,景區(qū)客服:滴水或因氣溫偏高和雨夾雪,目前景區(qū)正常開(kāi)放

哈爾濱冰雪大世界冰雕出現(xiàn)化水?當(dāng)?shù)?9日溫度3.8℃突破歷史當(dāng)日極值,景區(qū)客服:滴水或因氣溫偏高和雨夾雪,目前景區(qū)正常開(kāi)放

極目新聞
2025-12-20 12:42:02
明早10:00,汽車置換資格券開(kāi)搶!

明早10:00,汽車置換資格券開(kāi)搶!

佛山發(fā)布
2025-12-20 21:14:41
2025-12-20 23:08:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11884文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時(shí)刻"還未到來(lái)

頭條要聞

美方最新表態(tài):不會(huì)強(qiáng)迫烏克蘭接受協(xié)議

頭條要聞

美方最新表態(tài):不會(huì)強(qiáng)迫烏克蘭接受協(xié)議

體育要聞

我開(kāi)了20年大巴,現(xiàn)在是一名西甲主帥

娛樂(lè)要聞

2026央視跨年晚會(huì)陣容曝光,豪華陣仗

財(cái)經(jīng)要聞

求解“地方財(cái)政困難”

汽車要聞

嵐圖推進(jìn)L3量產(chǎn)測(cè)試 已完成11萬(wàn)公里實(shí)際道路驗(yàn)證

態(tài)度原創(chuàng)

房產(chǎn)
時(shí)尚
數(shù)碼
家居
軍事航空

房產(chǎn)要聞

廣州有態(tài)度,一座國(guó)際化社區(qū)給出的城市答案

最顯腿細(xì)的騎士靴,誰(shuí)穿誰(shuí)是腿精

數(shù)碼要聞

50歲了!長(zhǎng)虹第一臺(tái)彩電入駐中國(guó)國(guó)家博物館

家居要聞

高端私宅 理想隱居圣地

軍事要聞

澤連斯基:前線局勢(shì)愈發(fā)艱難

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版