當(dāng)世界模型來臨，AI訓(xùn)練師該如何重新理解自己的工作？

2026-03-18 07:52:27　來源: 人人都是產(chǎn)品經(jīng)理社區(qū)

廣東舉報

分享至

從大語言模型的‘圖書館式智能’到多模態(tài)模型的‘視覺映射’，再到世界模型賦予AI預(yù)測物理規(guī)律的能力，這場范式轉(zhuǎn)移不僅重塑技術(shù)路線，更將訓(xùn)練師的角色從數(shù)據(jù)標(biāo)注員推向‘世界規(guī)則設(shè)計師’。本文從一線AI訓(xùn)練師的獨(dú)特視角，深度解析Sora引爆的背后邏輯與大廠布局的隱秘戰(zhàn)線。

———— / BEGIN / ————

我入行AI訓(xùn)練師，說實(shí)話，剛開始的時候我對這個職位的理解非常模糊。

標(biāo)注數(shù)據(jù)、寫prompt、做RLHF反饋、評估模型輸出質(zhì)量……每天的工作看起來像是在做一些零散的事情，很難說清楚自己到底在訓(xùn)練一個什么樣的東西，又在朝哪個方向走。

直到世界模型這個概念開始密集出現(xiàn)在我的視野里。那是我第一次真切感受到，AI正在發(fā)生一些本質(zhì)性的變化。不是更聰明了，不是更快了，而是開始理解世界了。

這篇文章，我想從一個AI訓(xùn)練師的視角，聊聊世界模型到底是什么，它和我們已經(jīng)熟悉的大語言模型、多模態(tài)模型之間是什么關(guān)系，以及這場范式轉(zhuǎn)移對于我們這些在AI訓(xùn)練一線工作的人意味著什么。

LLM讓我們誤解了”智能”

在聊世界模型之前，我想先說說大語言模型給我們帶來的一個重要誤解。

ChatGPT出現(xiàn)之后，很多人——包括我自己——有一段時間真的以為AGI快來了。GPT-4能通過律師資格考試，能寫出媲美人類的文章，能解釋量子力學(xué)，能幫你調(diào)試代碼……這一系列能力疊加在一起，很難不讓人產(chǎn)生一種錯覺：這個東西已經(jīng)很”懂”了。

但在實(shí)際工作中，你會慢慢發(fā)現(xiàn)一些奇怪的縫隙。

我做RLHF標(biāo)注的時候，有一次給模型出了一道很簡單的空間推理題：桌子上有一個蘋果，蘋果旁邊有一本書，書的左邊是一杯水。問：蘋果和水的相對位置是什么？

模型給出的答案不穩(wěn)定，有時候?qū)Γ袝r候錯，而且你追問它為什么這么判斷，它能給出一套聽起來完全合理的解釋——無論答案是對是錯。

這讓我意識到一件事：LLM掌握的是”關(guān)于世界的語言描述”，而不是”世界本身的運(yùn)作規(guī)律”。

這個區(qū)別聽起來很微妙，但其實(shí)非常根本。

打一個比方：想象一個人從來沒有離開過圖書館，他讀遍了所有關(guān)于游泳的書籍，能背誦蝶泳的技術(shù)要領(lǐng)，能分析菲爾普斯的動作細(xì)節(jié)，能寫出一篇專業(yè)的游泳教學(xué)文章。但是，把他扔進(jìn)游泳池，他大概率會沉下去。

LLM就是這個圖書館里的人。

它的訓(xùn)練目標(biāo)是：給定前面所有的詞，預(yù)測下一個詞的概率分布。用數(shù)學(xué)語言說就是最大化P(token_t | 所有之前的token)。這個目標(biāo)讓它學(xué)會了人類語言的統(tǒng)計模式，但語言的統(tǒng)計模式不等于世界的因果規(guī)律。

火焰是熱的，這句話在訓(xùn)練數(shù)據(jù)里出現(xiàn)了無數(shù)次，所以LLM”知道”火焰是熱的。但它不知道的是：如果你把手伸向火焰，溫度會按照什么樣的物理規(guī)律傳導(dǎo)到你的皮膚，皮膚的蛋白質(zhì)會在多少攝氏度開始變性，這個過程是可逆還是不可逆的。

這些”知道”背后的知道為什么，LLM一直缺席。

多模態(tài)讓AI”看見了”，但還沒有”經(jīng)歷”

多模態(tài)模型的出現(xiàn)是一個重要的進(jìn)步。

當(dāng)GPT-4V、Gemini這類模型能夠理解圖片的時候，我們獲得了一個新的能力維度：AI開始能夠感知視覺世界了。OCR、圖像描述、視覺問答……這些能力在很多實(shí)際應(yīng)用場景里有巨大的價值。

但多模態(tài)模型的本質(zhì)，是在視覺特征和語言描述之間建立映射關(guān)系。

它學(xué)習(xí)的是：這種視覺模式，對應(yīng)這種語言描述。一張貓的圖片，對應(yīng)”貓”這個詞以及關(guān)于貓的所有語言知識。這種對應(yīng)關(guān)系學(xué)習(xí)得越精準(zhǔn)，模型的多模態(tài)能力就越強(qiáng)。

問題在于，這依然是一種靜態(tài)的、表面的理解。

舉個例子：給多模態(tài)模型看一張臺球桌的照片，再給它看一張球桿擊球瞬間的照片，它能告訴你這是在打臺球，能描述球的顏色和位置。但如果你問它：球被擊中之后會往哪里運(yùn)動，會不會碰到邊框反彈，最終停在哪里——這些問題涉及到物理軌跡的預(yù)測，多模態(tài)模型的表現(xiàn)就會變得非常不穩(wěn)定。

原因很簡單：多模態(tài)模型看過無數(shù)張臺球的圖片，但它從來沒有在臺球的世界里”行動”過。

看過和經(jīng)歷過，是兩種本質(zhì)上不同的智能來源。

人類之所以有直覺，有物理常識，是因為我們從嬰兒時期就在真實(shí)世界里摸爬滾打，通過無數(shù)次的行動和反饋，在大腦里建立起了一套世界的運(yùn)作模型。當(dāng)你看到一個杯子放在桌子邊緣，你本能地會感到擔(dān)憂——這種直覺不是從書上學(xué)來的，而是從你某次不小心打碎杯子的經(jīng)歷里涌現(xiàn)的。

LLM沒有經(jīng)歷過，多模態(tài)模型依然沒有經(jīng)歷過。

而世界模型，正是要解決這個”經(jīng)歷”的缺失。

世界模型：AI第一次開始”預(yù)測世界”

世界模型這個概念并不新。

2018年，AI研究者David Ha和深度學(xué)習(xí)先驅(qū)Jürgen Schmidhuber發(fā)表了一篇名為《World Models》的論文，系統(tǒng)提出了這個框架。他們的核心想法是：一個智能體要在世界中行動，就必須在內(nèi)部建立一個關(guān)于世界的模型，通過這個內(nèi)部模型來預(yù)測行動的后果，再決定采取什么行動。

這個想法其實(shí)和人類的認(rèn)知方式非常接近。

你在開車的時候，大腦并不是實(shí)時處理所有傳感器數(shù)據(jù)再做決策，而是基于你對道路規(guī)律的理解，不斷預(yù)測前方會發(fā)生什么，在預(yù)測的基礎(chǔ)上做判斷。這個”對道路規(guī)律的理解”，就是你大腦里的世界模型。

用更技術(shù)性的語言來說，世界模型的核心訓(xùn)練目標(biāo)是：

給定當(dāng)前的狀態(tài)S和采取的動作A，預(yù)測下一個狀態(tài)S’。

這一個簡單的公式和LLM的訓(xùn)練目標(biāo)相比，有三個根本性的不同：

第一，引入了”動作”維度。 LLM預(yù)測的是詞，多模態(tài)模型預(yù)測的是內(nèi)容，而世界模型預(yù)測的是”行動之后世界會怎樣”。這意味著AI第一次真正把”做事”和”理解”結(jié)合在了一起。

第二，建立了因果關(guān)系而非統(tǒng)計關(guān)系。我推了這個杯子，杯子會倒——這是因果。LLM知道”杯子倒了”和”推”經(jīng)常在語言里一起出現(xiàn)，但它不理解推力、重心、摩擦力之間的因果鏈條。世界模型要學(xué)的正是這個因果鏈條。

第三，支持”反事實(shí)推理”。這是最讓我興奮的一點(diǎn)。反事實(shí)推理是說：如果我不這樣做，而是那樣做，結(jié)果會有什么不同？這種”想象中的試錯”能力，是規(guī)劃和決策的基礎(chǔ)，也是人類智慧的重要組成部分。一個真正的世界模型，應(yīng)該能在內(nèi)部模擬多種可能的未來，選擇最優(yōu)的行動路徑。

Sora為什么讓整個行業(yè)震驚

2024年1月，OpenAI發(fā)布Sora的那一刻，其實(shí)是世界模型概念第一次以一種所有人都看得懂的方式被呈現(xiàn)出來。

Sora表面上是一個視頻生成模型。但讓業(yè)內(nèi)人士真正震驚的，不是它生成的視頻有多漂亮，而是視頻里展現(xiàn)出來的物理一致性。

水往低處流，而不是隨機(jī)飄散。碰撞發(fā)生時，物體的形變方向符合受力分析。鏡頭從一個角度切換到另一個角度，場景里的光影關(guān)系保持正確。一個球被踢出去，它的運(yùn)動軌跡符合拋物線，而不是隨機(jī)游走。

這些細(xì)節(jié)，Sora并沒有被顯式地教過。沒有人在訓(xùn)練數(shù)據(jù)里標(biāo)注”這里的水應(yīng)該向左流”，也沒有人寫代碼規(guī)定光照應(yīng)該如何計算。這些物理規(guī)律，是模型在訓(xùn)練了海量視頻之后自發(fā)涌現(xiàn)出來的。

OpenAI在Sora的技術(shù)報告里有一段話，我覺得是整篇文章最重要的部分：

“我們認(rèn)為，視頻生成模型是物理世界通用模擬器的一個有前景的路徑。”

這句話的信息量非常大。它意味著：當(dāng)你訓(xùn)練一個足夠大的模型去預(yù)測視頻的下一幀，它會被迫學(xué)習(xí)世界的物理規(guī)律——因為只有理解了物理規(guī)律，才能正確預(yù)測下一幀應(yīng)該長什么樣。

這是一個非常優(yōu)雅的訓(xùn)練信號設(shè)計。視頻本身就是因果序列——每一幀都是上一幀按照物理規(guī)律演化的結(jié)果。通過預(yù)測這個序列，模型在學(xué)習(xí)語言的過程中，也在悄悄學(xué)習(xí)物理。

當(dāng)然，Sora還遠(yuǎn)遠(yuǎn)不是完美的世界模型。它有時候會生成物理上荒謬的內(nèi)容：人從椅子上站起來但椅子憑空消失，水面反光的方向和光源不一致，長時間視頻里物體的屬性前后矛盾……這些錯誤恰恰說明，它的世界模型是不完整的，是片段性的。

但它展示了一個可行的方向。

三條路線的本質(zhì)差異：一個訓(xùn)練師的理解

在工作中，我慢慢形成了一個對這三類模型的理解框架，我覺得用”認(rèn)知層次”來描述最為準(zhǔn)確。

大語言模型解決的是”知道什么”的問題。

它的核心能力是知識的存儲和檢索，以及語言的生成和理解。它知道歷史上發(fā)生了什么，知道科學(xué)定律的表述，知道如何把一件事情解釋清楚。這是一種很寶貴的能力，但它的局限在于：它知道的是”關(guān)于世界的描述”，而不是”世界本身”。

多模態(tài)模型解決的是”看到什么”的問題。

它的核心能力是感知，是把視覺、聽覺等感官信號轉(zhuǎn)化為語義理解。它能看懂圖片，能理解視頻里發(fā)生了什么，能把不同模態(tài)的信息關(guān)聯(lián)起來。這把AI的認(rèn)知范圍從語言擴(kuò)展到了感知。但它依然是靜態(tài)的，是截圖式的理解，缺少對時序動態(tài)和行動后果的建模。

世界模型解決的是”會怎樣”和”怎么做”的問題。

它的核心能力是預(yù)測和規(guī)劃。它要理解的不是事物的靜態(tài)屬性，而是動態(tài)的因果鏈條。它要能夠回答：如果我這樣做，世界會變成什么樣？哪條路徑能讓我達(dá)到目標(biāo)？這個東西碰到那個東西會發(fā)生什么？

從訓(xùn)練師的角度來看，這三種模型對數(shù)據(jù)的需求截然不同。

LLM需要的是大量高質(zhì)量的文本，核心在于覆蓋廣泛、語言準(zhǔn)確。多模態(tài)需要的是高質(zhì)量的圖文對或視頻文本對，核心在于模態(tài)之間的對齊精準(zhǔn)。而世界模型需要的是包含行動標(biāo)注的交互序列——不只是”發(fā)生了什么”，還要有”因為做了什么才發(fā)生”。

這對數(shù)據(jù)采集和標(biāo)注的要求，是一個數(shù)量級的跨越。

世界模型為什么現(xiàn)在爆發(fā)

這個問題我思考了很久，因為世界模型這個概念并不新——2018年就有奠基性的論文了，為什么偏偏是2024年前后突然成為業(yè)界最熱的話題？

我覺得有幾個因素疊加在一起，形成了這次爆發(fā)。

第一個因素是LLM的scaling law開始遇到天花板。

GPT-3到GPT-4這個階段，每一次參數(shù)量的大幅提升都帶來了令人驚嘆的能力躍遷。但GPT-4之后，這種躍遷的幅度開始明顯收窄。訓(xùn)練成本從數(shù)千萬美元漲到數(shù)億美元，但能力的提升越來越難以讓用戶感知到革命性的變化。

更麻煩的是數(shù)據(jù)問題。有研究機(jī)構(gòu)估算，互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)將在2026年到2028年之間基本被主流模型”吃完”。繼續(xù)堆數(shù)據(jù)的路線正在遭遇物理限制。

業(yè)界開始意識到：單純在語言空間里做文章，可能真的到頭了。

第二個因素是具身智能的需求突然變得非常迫切。

2024年，人形機(jī)器人賽道的融資規(guī)模達(dá)到了一個歷史高點(diǎn)。Figure AI、1X Technologies、Physical Intelligence……一批專注于通用機(jī)器人的公司密集獲得了大額融資。與此同時，特斯拉的Optimus機(jī)器人開始在工廠里執(zhí)行真實(shí)任務(wù)，波士頓動力的機(jī)器人也在加速商業(yè)化。

機(jī)器人要在真實(shí)的物理世界里工作，必須理解物理規(guī)律，必須能夠預(yù)測行動后果，必須能在不確定的環(huán)境中實(shí)時規(guī)劃。這些需求，LLM和多模態(tài)模型都無法直接滿足。

而世界模型，正是機(jī)器人大腦的核心基礎(chǔ)設(shè)施。

第三個因素是Sora證明了這條路線的可行性。

在Sora之前，世界模型更多是一個學(xué)術(shù)概念，工程實(shí)現(xiàn)上還有很多未解決的問題。Sora的出現(xiàn)證明了：大規(guī)模視頻預(yù)訓(xùn)練可以讓模型涌現(xiàn)出物理理解能力，這條路線是走得通的。

這給了整個行業(yè)一個非常強(qiáng)烈的信號：下一個重要的范式，已經(jīng)有了第一個令人信服的工程案例。

第四個因素是Meta的LeCun持續(xù)”帶節(jié)奏”。

Yann LeCun作為深度學(xué)習(xí)的三位圖靈獎得主之一，在過去兩年里不斷公開表達(dá)一個觀點(diǎn)：現(xiàn)有的LLM路線永遠(yuǎn)無法實(shí)現(xiàn)AGI，真正的通用智能必須建立在世界模型的基礎(chǔ)之上。他在Meta主導(dǎo)開發(fā)的JEPA系列架構(gòu)，是目前世界模型研究中最有影響力的學(xué)術(shù)路線之一。

當(dāng)這個級別的研究者持續(xù)、公開地為一個方向站臺，資本和人才的流向就會跟著改變。

這四個因素疊加在一起，形成了2024年世界模型突然爆火的背景。

大廠們在做什么

了解大廠的布局，對于理解這個領(lǐng)域的發(fā)展方向非常有幫助。

OpenAI的路線是最模糊也最讓人好奇的。Sora是目前最接近世界模型概念的商業(yè)化產(chǎn)品，但OpenAI并沒有明確把它定義為世界模型，而是稱之為”物理世界的模擬器”。與此同時，o1和o3系列模型走的是推理能力深化的方向——在回答之前讓模型進(jìn)行更長時間的”思考”。這兩條線最終如何融合，是整個行業(yè)都在猜測的問題。

Meta的路線是最明確的。LeCun主導(dǎo)的JEPA架構(gòu)，加上V-JEPA 2.0對視頻動態(tài)的建模，是目前學(xué)術(shù)界最系統(tǒng)的世界模型研究路線。Meta的策略是把這些研究開源，在學(xué)術(shù)影響力上建立優(yōu)勢，同時為自家的AR眼鏡和機(jī)器人項目提供技術(shù)儲備。

Google DeepMind走的是多線并行的路線。Gemini負(fù)責(zé)通用多模態(tài)能力，Genie系列專注于從視頻中學(xué)習(xí)可交互的世界模型，還有專門針對機(jī)器人控制的RT系列。DeepMind的優(yōu)勢在于強(qiáng)化學(xué)習(xí)的深厚積累——從AlphaGo到AlphaFold，他們在讓AI通過與環(huán)境交互來學(xué)習(xí)這件事上有最豐富的經(jīng)驗。

國內(nèi)方面，字節(jié)跳動、騰訊、華為等公司都在布局，但公開信息相對有限。比較明確的是自動駕駛賽道——理想汽車、文遠(yuǎn)知行等公司都在把世界模型作為下一代自動駕駛系統(tǒng)的核心技術(shù)。Wayve的GAIA-1是目前自動駕駛世界模型里最受關(guān)注的案例，它能夠根據(jù)文字描述生成不同天氣、不同交通狀況下的駕駛場景，用來訓(xùn)練自動駕駛系統(tǒng)。

回到訓(xùn)練師：這場變革對我們意味著什么

說了這么多宏觀的內(nèi)容，我想回到一個更具體的問題：作為AI訓(xùn)練師，這場世界模型的浪潮對我們的日常工作意味著什么？

我在思考這個問題的時候，有一個感受越來越強(qiáng)烈：訓(xùn)練師這個職業(yè)，正在從”數(shù)據(jù)標(biāo)注工人”向”世界規(guī)則設(shè)計師”演變。

在LLM時代，訓(xùn)練師的核心工作是：提供高質(zhì)量的文本示例，告訴模型什么樣的回答是好的，什么樣的是不好的。RLHF標(biāo)注本質(zhì)上是在幫模型建立一套語言層面的偏好系統(tǒng)。

這個工作很重要，但它的邊界是清晰的——你在評估的是語言輸出的質(zhì)量。

但在世界模型的訓(xùn)練體系里，問題變得復(fù)雜得多。

你需要評估的不再只是語言，而是物理合理性。

模型生成了一段視頻，一個機(jī)器人伸手抓取桌上的物體。你作為訓(xùn)練師，需要判斷：這個抓取動作的角度是否合理？手指的彎曲是否符合人體工程學(xué)？物體被抓起的那一刻，桌子是否有正確的反應(yīng)力？這些判斷需要的不是語言能力，而是對物理世界的直覺。

你需要設(shè)計的不再只是問答示例，而是場景和規(guī)則。

在強(qiáng)化學(xué)習(xí)的框架里，智能體是通過在環(huán)境中行動并獲得獎勵來學(xué)習(xí)的。訓(xùn)練師的一個重要職責(zé)，是設(shè)計合理的獎勵函數(shù)——告訴模型什么樣的行為應(yīng)該被獎勵，什么樣的應(yīng)該被懲罰。獎勵函數(shù)設(shè)計得好，模型會學(xué)到我們期望的行為；設(shè)計得不好，模型會鉆空子，用我們意想不到的方式來最大化獎勵，而完全偏離了真正的目標(biāo)。

這在業(yè)內(nèi)被稱為”獎勵黑客”（Reward Hacking），是強(qiáng)化學(xué)習(xí)里最經(jīng)典也最棘手的問題之一。解決這個問題需要訓(xùn)練師對任務(wù)目標(biāo)有深刻的理解，并且有足夠的創(chuàng)造力來預(yù)判模型可能找到的”作弊路徑”。

你需要面對的不再只是語言幻覺，而是物理幻覺。

LLM會產(chǎn)生事實(shí)性錯誤，這我們都知道。但世界模型會產(chǎn)生物理性錯誤——生成在物理上不可能發(fā)生的場景，或者在長時間的模擬中讓誤差不斷累積，最終偏離現(xiàn)實(shí)。

如何識別這些物理幻覺，如何設(shè)計測試場景來暴露模型的物理盲區(qū)，如何構(gòu)建評估體系來量化模型的物理理解能力——這些都是世界模型時代訓(xùn)練師需要具備的新能力。

你需要參與的不再只是數(shù)據(jù)標(biāo)注，而是數(shù)據(jù)生態(tài)的設(shè)計。

世界模型最大的數(shù)據(jù)瓶頸，是缺乏包含行動標(biāo)注的交互序列數(shù)據(jù)。互聯(lián)網(wǎng)上有海量的視頻，但這些視頻大多數(shù)只有”發(fā)生了什么”，沒有”因為什么動作才發(fā)生”。

如何設(shè)計數(shù)據(jù)采集框架，如何利用仿真環(huán)境生成合成訓(xùn)練數(shù)據(jù)，如何確保合成數(shù)據(jù)和真實(shí)世界之間的分布匹配——這些工作需要訓(xùn)練師深度參與，而不只是在標(biāo)注界面上點(diǎn)點(diǎn)鼠標(biāo)。

作為訓(xùn)練師，我在嘗試做的事

說到這里，我想分享一些自己在工作中開始嘗試的轉(zhuǎn)變。

第一，主動建立對物理世界的系統(tǒng)認(rèn)知。

這聽起來很奇怪——你需要重新學(xué)物理？但我是認(rèn)真的。我開始系統(tǒng)地復(fù)習(xí)基礎(chǔ)物理知識：力學(xué)、流體、光學(xué)……不是為了去做物理計算，而是為了在評估模型輸出的時候，有更扎實(shí)的物理直覺作為判斷基礎(chǔ)。

我們評估語言模型輸出的時候，依賴的是我們從小積累的語言直覺——這句話聽起來自然不自然，這個邏輯通不通順。評估世界模型輸出的時候，我們需要的是物理直覺——這個運(yùn)動軌跡對不對，這個形變合不合理。

而物理直覺是需要刻意培養(yǎng)的。

第二，開始學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念。

我不需要成為強(qiáng)化學(xué)習(xí)的研究者，但我需要理解獎勵函數(shù)、策略優(yōu)化、探索與利用的權(quán)衡這些基本概念。因為在世界模型的訓(xùn)練體系里，這些概念會直接影響我的工作方式和判斷標(biāo)準(zhǔn)。

知道強(qiáng)化學(xué)習(xí)的基本原理，我才能理解為什么某些獎勵設(shè)計會導(dǎo)致模型產(chǎn)生意料之外的行為，才能在設(shè)計評估任務(wù)的時候，提前考慮到潛在的獎勵黑客風(fēng)險。

第三，開始關(guān)注具身智能和機(jī)器人相關(guān)的場景。

世界模型目前最重要的落地方向是自動駕駛和機(jī)器人控制。這些場景和我們?nèi)粘＝佑|的對話AI非常不同，但它們正在成為訓(xùn)練師工作的重要組成部分。

我開始主動了解機(jī)器人操作的基本知識，學(xué)習(xí)自動駕駛場景的評估標(biāo)準(zhǔn)，嘗試建立對這些具身智能場景的感性認(rèn)知。

第四，把”數(shù)據(jù)設(shè)計”而不只是”數(shù)據(jù)標(biāo)注”作為自己的核心能力目標(biāo)。

標(biāo)注是執(zhí)行層面的工作，數(shù)據(jù)設(shè)計是策略層面的工作。前者關(guān)注的是”這個樣本應(yīng)該打什么標(biāo)簽”，后者關(guān)注的是”我們需要什么樣的數(shù)據(jù)，才能讓模型學(xué)到我們想要的能力”。

我在試圖讓自己的思維層次向后者遷移。每次做標(biāo)注任務(wù)的時候，我會多想一步：這個任務(wù)的數(shù)據(jù)設(shè)計合不合理？有沒有系統(tǒng)性的盲區(qū)？如果我來設(shè)計這個標(biāo)注方案，我會有什么不同的選擇？

三者的未來：不是替代，而是融合

在整理這篇文章的思路時，我反復(fù)在思考一個問題：LLM和多模態(tài)是否已經(jīng)走到了盡頭？

我的結(jié)論是：沒有，但它們正在走到”獨(dú)立存在”的盡頭。

LLM不會消亡。它積累的語言理解和知識存儲能力，是任何通用智能系統(tǒng)都必須具備的基礎(chǔ)設(shè)施。未來的智能系統(tǒng)一定需要一個能夠理解和生成語言的模塊——LLM就是這個模塊最好的實(shí)現(xiàn)方式。

多模態(tài)模型也不會消亡。感知世界的能力是具身智能不可或缺的基礎(chǔ)。攝像頭的數(shù)據(jù)需要被理解，場景需要被語義化，這些工作多模態(tài)模型做得最好。

但它們作為獨(dú)立產(chǎn)品形態(tài)的價值邊界，正在變得越來越清晰。繼續(xù)在LLM框架內(nèi)堆參數(shù)、堆數(shù)據(jù)，邊際收益正在快速遞減。繼續(xù)在多模態(tài)框架內(nèi)做更精準(zhǔn)的圖文對齊，也難以突破感知理解的天花板。

世界模型不是來取代它們的，而是來整合它們的。

用一個不太精確但很直觀的比喻：如果未來的通用AI系統(tǒng)是一個人，那LLM是這個人的語言中樞，多模態(tài)是這個人的感知系統(tǒng)，而世界模型是這個人的認(rèn)知中樞——把感知到的信息、理解到的知識，整合成對世界的動態(tài)理解和行動規(guī)劃能力。

沒有任何一個部分是多余的，但只有任何一個部分，都不足以成為完整的智能。

我剛?cè)胄械臅r候，有個前輩跟我說：做AI訓(xùn)練師，最重要的不是技術(shù)能力，而是對”什么是真正好的輸出”有清晰的判斷。

我當(dāng)時理解這句話的層次很淺——好的輸出就是準(zhǔn)確、流暢、有用的語言回答。

但現(xiàn)在，隨著世界模型的概念越來越清晰，我開始理解這句話有更深的含義：

“好的輸出”這個標(biāo)準(zhǔn)本身，正在隨著AI的演進(jìn)而不斷擴(kuò)展。

從”語言是否準(zhǔn)確”，到”感知是否正確”，再到”物理是否合理”，再到”規(guī)劃是否有效”——每一次AI范式的轉(zhuǎn)移，都是在把”好的輸出”的定義往更接近真實(shí)智能。

本文來自作者：冒泡泡

想要第一時間了解行業(yè)動態(tài)、面試技巧、商業(yè)知識等等等？加入產(chǎn)品經(jīng)理進(jìn)化營，跟優(yōu)秀的產(chǎn)品人一起交流成長！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.