網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

李飛飛一年前究竟說(shuō)了啥？怎么又火了

2025-09-11 14:27:04　來(lái)源: 量子位

北京舉報(bào)

分享至

聞樂(lè) 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

大語(yǔ)言模型的局限在哪里？

AI教母李飛飛這樣說(shuō)：

大自然中是沒(méi)有語(yǔ)言存在的，你不會(huì)從天空中直接看到文字。
語(yǔ)言是一種純粹的生成的信號(hào)。

語(yǔ)言信號(hào)的輸出主要基于人類(lèi)給的輸入信號(hào)，可以說(shuō)，語(yǔ)言是不獨(dú)立于人之外的。

然而，物理世界是客觀存在的。所以提取、理解、生成3D世界的數(shù)據(jù)、實(shí)現(xiàn)空間智能和處理語(yǔ)言問(wèn)題時(shí)截然不同。

沒(méi)想到，李飛飛一年前的訪談被扒出來(lái)，又引發(fā)大量圍觀。

她這段話意味著，大語(yǔ)言模型或許還不是真正的智能。

真正的智能將是信號(hào)感知、物理以及和現(xiàn)實(shí)世界相結(jié)合的產(chǎn)物。

下面來(lái)看看大家還在熱議些啥吧。

空間智能可以借鑒語(yǔ)言模型，但仍存在本質(zhì)差異

這場(chǎng)討論的焦點(diǎn)在于，現(xiàn)在基于語(yǔ)言信號(hào)訓(xùn)練的模型到底懂不懂物理世界的常識(shí)

首先，回顧一下李飛飛的說(shuō)法。

她認(rèn)為語(yǔ)言模型及當(dāng)今的多模態(tài)語(yǔ)言模型的底層表示是一維的。它們?cè)诟旧暇褪遣僮饔陔x散token的一維序列上，所以模型對(duì)于書(shū)面文本這種一維序列的表示是非常自然的。

然而，在處理空間智能問(wèn)題時(shí)，核心是世界的三維本質(zhì)。

雖然多模態(tài)大語(yǔ)言模型也能看圖像，但它是將其他模態(tài)硬塞進(jìn)這種一維token序列的底層表示中，這種一維且由人類(lèi)生成的數(shù)據(jù)，可能無(wú)法很好地表示物理世界，造成信息損失。

如果直接讓模型處理3D數(shù)據(jù)，那么表示類(lèi)型與模型旨在執(zhí)行的任務(wù)類(lèi)型之間將會(huì)有更好的匹配。

而空間智能的挑戰(zhàn)就是在于從這個(gè)真實(shí)世界中提取、表示和生成信息。

除了這個(gè)維度上的差異，從更哲學(xué)的角度來(lái)說(shuō)，她認(rèn)為語(yǔ)言是一種純粹由生成產(chǎn)生的信號(hào)。自然界中并不存在預(yù)設(shè)的語(yǔ)言形式，也就是說(shuō)語(yǔ)言不能獨(dú)立于人類(lèi)之外。

大模型能夠通過(guò)學(xué)習(xí)并反芻所輸入的數(shù)據(jù)，無(wú)論輸入什么樣的數(shù)據(jù)，模型都能用足夠的泛化能力處理語(yǔ)言任務(wù)。這是因?yàn)檎Z(yǔ)言，或者說(shuō)文本的本質(zhì)允許模型在生成范式下表現(xiàn)得出色。

與語(yǔ)言不同，3D世界是真實(shí)存在于外部的。這個(gè)世界遵循著物理定律，并因材料等多種因素而具有其自身的結(jié)構(gòu)。

因此，要讓模型倒推出3D世界的信息，并能夠表示和生成它，在技術(shù)層面上，空間智能可以借鑒語(yǔ)言模型，但從哲學(xué)的范疇來(lái)看，這兩者仍存在本質(zhì)差異。

有人舉了一堆例子來(lái)證明李飛飛的觀點(diǎn)，同時(shí)說(shuō)明語(yǔ)言模型在理解物理世界時(shí)確實(shí)有局限。

基于語(yǔ)言信號(hào)訓(xùn)練的模型在物理世界任務(wù)中表現(xiàn)差

比如用一個(gè)小實(shí)驗(yàn)來(lái)測(cè)試Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro三個(gè)多模態(tài)大模型的物理常識(shí)，并與人類(lèi)兒童表現(xiàn)做對(duì)比。

研究用Animal-AI這個(gè)用來(lái)測(cè)試動(dòng)物和人工智能體物理認(rèn)知的3D環(huán)境來(lái)測(cè)試大模型，讓大模型通過(guò)前進(jìn)/后退、左轉(zhuǎn)/右轉(zhuǎn)、環(huán)境描述與規(guī)劃控制三個(gè)指令控制一個(gè)小角色在虛擬環(huán)境中完成任務(wù)。

第一個(gè)實(shí)驗(yàn)是讓大模型完成一些簡(jiǎn)單的任務(wù)，如直接找到小球，還有一些稍難的任務(wù)，如躲開(kāi)障礙物找到小球。

結(jié)果發(fā)現(xiàn)模型只能搞定最簡(jiǎn)單的任務(wù)，稍難一點(diǎn)就不行了。

第二個(gè)實(shí)驗(yàn)是在第一個(gè)實(shí)驗(yàn)的基礎(chǔ)上增加教學(xué)案例，比如演示正確做法，結(jié)果模型表現(xiàn)也沒(méi)有明顯的提升。

對(duì)比之后再看，這些大模型的表現(xiàn)遠(yuǎn)不及人類(lèi)兒童，也比不上專(zhuān)門(mén)為這個(gè)環(huán)境測(cè)試的機(jī)器人。

還有其他研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)名為ABench-Physics的工具，專(zhuān)門(mén)用來(lái)測(cè)試大語(yǔ)言模型在物理推理方面的能力，核心就是想搞清楚這些模型到底能不能真的理解物理、解決物理問(wèn)題。

測(cè)試分兩部分，Phy A由400道競(jìng)賽級(jí)別的物理難題組成，先給大模型來(lái)個(gè)基礎(chǔ)測(cè)試。

Phy B屬于動(dòng)態(tài)部分：修改Phy A中題目的數(shù)字，但不改變物理原理，用來(lái)測(cè)試大模型能不能進(jìn)行靈活的物理推理。

結(jié)果顯示，最厲害的模型在Phy A上的正確率只有43%，而在Phy B中模型的平均準(zhǔn)確率下降了22.5%。

這說(shuō)明模型并不是真懂物理。

還有團(tuán)隊(duì)用視覺(jué)任務(wù)測(cè)試大模型，比如讓模型判斷照片中哪些物體更近，或者匹配相同的事物。

人類(lèi)對(duì)這些任務(wù)的正確率能達(dá)到95.7%，而幾個(gè)模型最高的正確率僅有51%。在視覺(jué)感知上，大模型還遠(yuǎn)不及人類(lèi)。

這些結(jié)果都進(jìn)一步證明了李飛飛之前訪談中關(guān)于大模型理解真實(shí)物理世界局限性的觀點(diǎn)。

也得到了網(wǎng)友們的認(rèn)同。

模型的開(kāi)發(fā)確實(shí)正在擴(kuò)展到將模型建立在物理與多模態(tài)理解的基礎(chǔ)上。

討論升級(jí)

當(dāng)然了，有正方就有反方。

有人先是反駁了關(guān)于語(yǔ)言的論述。

也有人認(rèn)為，在某些情況下，語(yǔ)言描述現(xiàn)實(shí)的能力可能會(huì)比感知更優(yōu)。

還有人說(shuō)模型的語(yǔ)言不用局限于人類(lèi)的語(yǔ)言、文本等，人工智能或許能創(chuàng)造出自己的語(yǔ)言來(lái)理解物理世界。

或者，我們?cè)撍伎?，用語(yǔ)言訓(xùn)練大模型取得現(xiàn)有成就的根本因素又是什么呢？

對(duì)于這場(chǎng)討論，你又有什么樣的看法呢？

[1]https://x.com/rohanpaul_ai/status/1965242567085490547
[2]https://www.youtube.com/watch?v=vIXfYFB7aBI

— 完 —

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.