国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大模型的進化方向:Words to Worlds | 對話商湯林達華

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

李飛飛團隊最新的空間智能模型Cambrian-S,首次被一個國產(chǎn)開源AI超越了。



從這張展示空間感知能力的雷達圖中,一個名為SenseNova-SI的模型,它在多個維度上的能力評分均已將Cambrian-S給包圍。

而且從具體的數(shù)據(jù)來看,不論是開源或閉源,不論是2B或8B大小,SenseNova-SI在各大空間智能基準測試中都拿下了SOTA的成績:



而這個SenseNova-SI背后的操刀者,正是商湯科技。

在量子位與商湯科技聯(lián)合創(chuàng)始人、首席科學家林達華深入交流過程中,他并沒有掩飾對這一進展的肯定:

  • 在空間智能這個賽道上,基于長期的視覺積累,我們已經(jīng)走到了世界前列。

但與此同時,林達華也是隨即話鋒一轉(zhuǎn),表示他并不愿意把這個故事簡單地講成“贏了李飛飛”或者“贏了OpenAI”。

更深層的,林達華更像是在釋放一種信號,一個關于AI技術(shù)范式正在發(fā)生劇烈震蕩的信號——

單純依賴參數(shù)規(guī)模的AI范式逐漸面臨瓶頸。我們站在了新的十字路口。

因為在Scaling Law的邊際效應開始遞減、很多人還在內(nèi)卷大語言模型時,林達華和他的團隊選擇的卻是一條很少有人走的路:Back to research(回歸實驗室)。

具體而言,是從最底層開始死磕原生多模態(tài)和空間智能,以此來完成一場從Words(語言)到Worlds(世界)的遷徙。

而在林達華看來,在這場遷徙中,中國科技公司已經(jīng)搶到了一張船票。

我們該回歸實驗室了

回望過去三年,從2022年11月ChatGPT橫空出世,到GPT-4的震撼登場,AI行業(yè)經(jīng)歷了一場狂飆式的野蠻生長。

那是一個把Scaling Law奉為圭臬的時代,只要算力足夠大、GPU足夠多、數(shù)據(jù)堆得足夠高,模型的能力似乎就能無限增長。

但到了2024年下半年,風向變了。

人們發(fā)現(xiàn),雖然榜單上的分數(shù)還在漲,從GPT-4到GPT-5.2,再到Gemini的各種升級版,分數(shù)的躍遷越來越快,但帶給人們的驚艷感卻在邊際遞減。

林達華一針見血地指出:

  • 原來的舊路徑,也就是單純依靠Scale的主流范式,雖然把模型推到了一個很高的高度,但也逐漸觸碰到了天花板。
  • 分數(shù)提升越來越快,但模型對物理世界的解釋力、對復雜邏輯的泛化能力,并沒有實現(xiàn)質(zhì)的飛躍。

與此同時,OpenAI前首席科學家Ilya Sutskever的一聲疾呼“Back to Research”,在硅谷和全球AI圈里引發(fā)了不小的震動。



這與林達華的思考不謀而合:

  • 我們之前的路是大力出奇跡,現(xiàn)在的路,必須是回歸科研的本質(zhì)。

為何會如此?簡單來說,因為純語言模型的紅利快吃完了。

目前的頂尖大模型,在數(shù)學、編程上已經(jīng)接近奧賽金牌水平,但在理解物理世界、處理三維空間關系上,可能連一個幾歲的小朋友都不如。

未來的AGI,絕不會只是一個陪你聊天的Chatbot,也不應僅僅活在文本的邏輯里。它必須是一個能夠理解物理世界、具有多感官能力的世界模型。

林達華強調(diào)說:

  • 人類的智能不只有語言。
  • 人類與世界的交互是多模態(tài)的——我們用眼睛看,用耳朵聽,用手去觸摸。AI的未來,在于從讀萬卷書(語言模型)進化到行萬里路(空間與世界交互)

在這個新舊交替的時間節(jié)點,商湯選擇不再盲目跟隨大語言模型的參數(shù)競賽,而是掉轉(zhuǎn)船頭,向著原生多模態(tài)這快更難啃的方向進發(fā)。

現(xiàn)在的模型連手指都數(shù)不清

現(xiàn)在的多模態(tài)大模型,大多都是有局限性的。

對于這個觀點,林達華給出了一個非常直觀且略帶幽默的案例。

哪怕是強如Grok或者GPT-4的早期版本,當你丟給它一張人手的照片,問它有幾根手指時,它經(jīng)常會自信地回答“5根”。

哪怕圖片里的人手因為角度或畸變顯示出6根或4根,AI的答案依舊是如此。



再比如,給模型看一張簡單的三維積木圖,問它“從上往下看是什么樣子”,大多數(shù)模型都會選錯。

它們明明看到了圖片,為什么還會胡說八道呢?

因為它并沒有真正在看。

林達華打了一個極其生動的比方:

  • 這就好比一個盲人,在黑暗中閉眼學習了十年。他讀了萬卷書,大腦極其發(fā)達,邏輯思維嚴密。突然有一天,你讓他睜開眼看世界。
  • 他的第一反應是什么?是他會拼命地試圖用他過去十年在書本里學到的語義概念,去硬套眼前看到的東西。

在傳統(tǒng)的多模態(tài)架構(gòu)(拼接式架構(gòu))中,通常是一個視覺編碼器(Vision Encoder)加上一個大語言模型。

視覺編碼器把圖片翻譯成語言模型能聽懂的Token,然后扔給大語言模型去推理。

在這個過程中,大語言模型依然是那個“閉眼學習了十年”的大腦。它看到“手”這個圖像Token,大腦里立刻調(diào)出的先驗知識是“手有5根手指”,會直接覆蓋掉眼睛看到的真實像素細節(jié)。

林達華分析道:

  • 它不是真的理解了三維空間關系,它只是在靠概率猜詞。



這種拼接式的路線,雖然能快速出成果,但缺陷是致命的:

視覺信號在進入大腦的那一刻,就被降維、被閹割了。大量的空間細節(jié)、三維結(jié)構(gòu)、物理規(guī)律,在轉(zhuǎn)化為語言Token的過程中流失殆盡。

這就是為什么現(xiàn)在的模型數(shù)學能拿金牌,卻連手指都數(shù)不清、連積木都搭不明白的原因了。

要解決這個問題,修修補補似乎已經(jīng)是無濟于事。必須從底層架構(gòu)上進行一場徹底的革新。

商湯原生多模態(tài)的解法

這場革新的產(chǎn)物,就是商湯剛剛開源的NEO架構(gòu),以及基于此架構(gòu)的SenseNova-SI模型。



在深入了解這個架構(gòu)之前,我們需要先理解什么是原生多模態(tài)。

林達華的解釋是這樣的:

  • 模式上不再是“視覺眼睛+語言大腦”的拼接。在NEO架構(gòu)里,從模型最底層的Transformer Block開始,每一個細胞都能同時處理視覺和語言信號。

這聽起來很抽象,但在技術(shù)實現(xiàn)上卻極其硬核。

在NEO架構(gòu)中,視覺Token和文本Token不再是“先后進入”或“翻譯關系”,而是“一塊進入模型的每一層。

商湯設計了專門的混合注意力機制(Mixed Attention),讓模型在進行每一次推理計算時,既能參考文本的上下文,又能實時“回頭看”圖像的原始特征。



為了讓模型真正理解空間,林達華團隊還干了一件反直覺的事——

他們不再只用預測下一個詞(Next Token Prediction)來訓練模型,而是引入了跨視角預測

簡單來說,就是給模型看一個物體的正面,讓它去預測這個物體側(cè)面、背面長什么樣。

林達華表示:

  • 這就像教小孩子搭積木、看世界一樣,你在腦海里構(gòu)建三維模型的過程,就是空間智能誕生的過程。

這種原生架構(gòu)帶來的效果是驚人的——

數(shù)據(jù)效率提升了10倍。

例如SenseNova-SI僅用了同類模型10%的訓練數(shù)據(jù),就達到了SOTA水平。而且,它不再是靠死記硬背,而是真正理解了三維空間關系。

正如我們前文提到的對比評測中,SenseNova-SI不僅超越了李飛飛團隊的Cambrian-S,更是在空間推理、幻覺抑制等關鍵指標上表現(xiàn)更優(yōu)。

林達華總結(jié)道:

  • 我們希望把一個閉眼狂奔的盲人,變成了一個真正睜眼看世界的觀察者。
落地,落地,還得看落地

技術(shù)再牛,如果不能變成生產(chǎn)力,終究只是實驗室里的玩具。

在量子位與林達華的交流過程中,他反復提到了一個詞:工業(yè)紅線。

  • 我們內(nèi)部有一個標準:任何技術(shù),如果它的使用成本高于它創(chuàng)造的價值,那就是沒過工業(yè)紅線。

這是因為大模型行業(yè)目前最大的痛點,除了不夠聰明,就是太貴、太慢。

特別是在視頻生成領域,雖然Sora驚艷了世界,但生成幾秒鐘視頻需要消耗巨大的算力,推理時間動輒幾分鐘甚至幾小時。

這種成本和延遲,根本無法支撐大規(guī)模的商業(yè)應用。

“只有當推理成本以每年1-2個數(shù)量級的速度下降時,AI才能從Demo級的炫技,變成石油級的工業(yè)生產(chǎn)力?!?/strong>

為了跨過這條紅線,商湯在落地應用上下足了功夫。林達華以商湯最新實時語音驅(qū)動數(shù)字人產(chǎn)品SekoTalk為例,展示了什么叫算法和系統(tǒng)協(xié)同的極致優(yōu)化。

目前的視頻生成主流模型都是基于擴散模型,生成一張圖往往需要迭代幾十步甚至上百步。

但這個過程的步驟就不能減少嗎?答案是否定的。

林達華團隊利用一種名為算法蒸餾的技術(shù),硬生生將擴散模型的推理步數(shù),從100步壓縮到了4步。

這不是簡單的偷工減料,而是基于對模型分布的深刻理解。林達華解釋說:

  • 模型在從白噪聲變成圖像的過程中,不同階段處理的數(shù)據(jù)分布是完全不同的。以前是用同一套參數(shù)跑100遍,現(xiàn)在是分階段用不同參數(shù)跑4遍,讓專業(yè)的參數(shù)干專業(yè)的事。

如此打法之下,效果依舊是驚人:64倍的速度提升。

這就意味著在不久的將來,你只需要一張消費級的顯卡(比如RTX 4090甚至更低),就能實時生成高質(zhì)量的數(shù)字人視頻。



△SekoTalk生成的視頻

聊至此處,林達華也表現(xiàn)出了激動之情:

  • 以前生成20秒視頻要跑一小時,現(xiàn)在我們能做到實時生成。這不僅是效率的提升,更是商業(yè)模式的質(zhì)變。
  • 這直接打通了AI在直播、短視頻制作等領域的規(guī)?;涞芈窂?。

從SenseNova-SI的底層架構(gòu)創(chuàng)新,到SekoTalk的極致落地優(yōu)化,商湯正在踐行林達華所說的雙輪驅(qū)動:

一手抓Back to Research的原始創(chuàng)新,一手抓擊穿工業(yè)紅線的落地價值。

One More Thing

在對話的最后,林達華也為當下想要投身AI大浪潮中的年輕人給予了一些寶貴的建議:

  • 不要只盯著大語言模型來卷,這個賽道真的太擁擠了。

林達華誠懇地表示,年輕一代的研究者和創(chuàng)業(yè)者,應該把視野打開。

  • 具身智能、AI for Science、工業(yè)制造、生命科學……這些都是非常好的領域。
  • 智能不只有語言,AI的未來在于從讀萬卷書進化到行萬里路。

林達華最后說道,在這場從Words to Worlds的宏大遷徙中,中國擁有全世界最豐富的場景、最完整的工業(yè)體系。這片土壤,天生適合培育那些能與物理世界深度交互的AI。

在這個賽道上,中國科技公司已經(jīng)搶到了一張船票;而未來的頭等艙,屬于那些敢于回歸實驗室、敢于勇闖無人區(qū)的年輕人。

SenseNova-SI地址:
https://github.com/OpenSenseNova/SenseNova-SI

NEO地址:
https://github.com/EvolvingLMMs-Lab/NEO

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛,iOS 全面開放!

剛剛,iOS 全面開放!

果粉俱樂部
2025-12-19 11:29:01
1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書一句話讓他瞬間淚崩

1976年尼克松重返北京,執(zhí)意要去周總理墓前磕頭,秘書一句話讓他瞬間淚崩

史海殘云
2025-12-19 14:26:17
2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

2025最慘大撤退:18萬家快遞驛站,快把所有人得罪光了

金錯刀
2025-12-14 15:34:35
確認了:7級!還有雨夾雪、雪!明天抵達杭州

確認了:7級!還有雨夾雪、雪!明天抵達杭州

杭州之聲
2025-12-19 15:08:12
養(yǎng)老金大調(diào)整!退休5年、10年、15年、20年的差別如何體現(xiàn)?

養(yǎng)老金大調(diào)整!退休5年、10年、15年、20年的差別如何體現(xiàn)?

貓叔東山再起
2025-12-19 10:35:14
詩妮娜貴妃真有手段!被爆在德國秘密產(chǎn)子,孩子五官像極了泰王

詩妮娜貴妃真有手段!被爆在德國秘密產(chǎn)子,孩子五官像極了泰王

紅袖說事
2025-12-19 13:38:43
趙心童罕見社媒發(fā)文!總結(jié)2025耐人尋味,亞洲一哥已不是丁俊暉了

趙心童罕見社媒發(fā)文!總結(jié)2025耐人尋味,亞洲一哥已不是丁俊暉了

曹說體育
2025-12-19 14:20:33
花生再次被關注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
全球最大的自由貿(mào)易港來了!

全球最大的自由貿(mào)易港來了!

看看新聞Knews
2025-12-18 19:28:07
實錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

實錘了!龐萊臣捐贈藏品果然被拍賣了,一幅畫2014年被拍賣230萬

火山詩話
2025-12-19 14:26:47
央視發(fā)布赴日游警示后,為何中國游客不降反升?

央視發(fā)布赴日游警示后,為何中國游客不降反升?

胡嚴亂語
2025-12-19 15:32:50
廣東27歲姑娘患胃萎縮后不幸離世,志愿者:她身高一米六多,因病暴瘦至35斤

廣東27歲姑娘患胃萎縮后不幸離世,志愿者:她身高一米六多,因病暴瘦至35斤

極目新聞
2025-12-19 11:20:16
養(yǎng)了20年的繼女結(jié)婚,卻讓親媽上臺受禮,我賣掉給她準備的金鐲子

養(yǎng)了20年的繼女結(jié)婚,卻讓親媽上臺受禮,我賣掉給她準備的金鐲子

我是三月魚H
2025-12-18 17:28:47
這次,向太的爆料,沒給親生母親留一絲體面,原來蔡明當初沒撒謊

這次,向太的爆料,沒給親生母親留一絲體面,原來蔡明當初沒撒謊

韓馳
2025-12-19 16:25:54
重返中國,穆迪埃回歸,1年合同,水哥也有望回歸,杜鋒期待

重返中國,穆迪?;貧w,1年合同,水哥也有望回歸,杜鋒期待

樂聊球
2025-12-18 13:50:46
韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

韓媒:徐正源原本已自動激活續(xù)約條件,但最終其主動放棄續(xù)約

懂球帝
2025-12-19 11:25:47
一夜涼透!牛肋條自助從排隊到倒閉,只用三個月?創(chuàng)業(yè)者哭著退場

一夜涼透!牛肋條自助從排隊到倒閉,只用三個月?創(chuàng)業(yè)者哭著退場

青眼財經(jīng)
2025-12-13 21:11:33
掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見一斑

掌權(quán)40年,洪森家族到底賺了多少?他小女兒的奢靡曝光,可見一斑

明月光
2025-12-17 19:06:45
阿凡達3影廳選擇焦慮?還得是中影CINITY

阿凡達3影廳選擇焦慮?還得是中影CINITY

楓塵余往逝
2025-12-19 10:50:21
越南談中越戰(zhàn)爭:一代人的犧牲和貢獻,換來的是40年的經(jīng)濟滯后

越南談中越戰(zhàn)爭:一代人的犧牲和貢獻,換來的是40年的經(jīng)濟滯后

小豫講故事
2025-12-19 06:00:04
2025-12-19 18:59:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11882文章數(shù) 176340關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領土問題的意愿

頭條要聞

普京:俄羅斯目前沒有看到烏克蘭討論領土問題的意愿

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

房產(chǎn)
教育
數(shù)碼
時尚
旅游

房產(chǎn)要聞

廣州有態(tài)度,一座國際化社區(qū)給出的城市答案

教育要聞

防范“笑氣”濫用危害 守護無毒青春

數(shù)碼要聞

DDR5暴漲:玩家呼吁AMD銳龍7 5800X3D回歸!你同意嗎

女友BELLA+封面 | Jimmy&Ohm:人生拼圖

旅游要聞

三亞西島景區(qū)被指“拍攝壟斷”,關鍵是規(guī)則要透明 |新京報快評

無障礙瀏覽 進入關懷版