国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

當(dāng)世界模型來臨,AI訓(xùn)練師該如何重新理解自己的工作?

0
分享至

從大語言模型的‘圖書館式智能’到多模態(tài)模型的‘視覺映射’,再到世界模型賦予AI預(yù)測物理規(guī)律的能力,這場范式轉(zhuǎn)移不僅重塑技術(shù)路線,更將訓(xùn)練師的角色從數(shù)據(jù)標(biāo)注員推向‘世界規(guī)則設(shè)計師’。本文從一線AI訓(xùn)練師的獨(dú)特視角,深度解析Sora引爆的背后邏輯與大廠布局的隱秘戰(zhàn)線。

———— / BEGIN / ————

我入行AI訓(xùn)練師,說實(shí)話,剛開始的時候我對這個職位的理解非常模糊。

標(biāo)注數(shù)據(jù)、寫prompt、做RLHF反饋、評估模型輸出質(zhì)量……每天的工作看起來像是在做一些零散的事情,很難說清楚自己到底在訓(xùn)練一個什么樣的東西,又在朝哪個方向走。

直到世界模型這個概念開始密集出現(xiàn)在我的視野里。那是我第一次真切感受到,AI正在發(fā)生一些本質(zhì)性的變化。不是更聰明了,不是更快了,而是開始理解世界了。

這篇文章,我想從一個AI訓(xùn)練師的視角,聊聊世界模型到底是什么,它和我們已經(jīng)熟悉的大語言模型、多模態(tài)模型之間是什么關(guān)系,以及這場范式轉(zhuǎn)移對于我們這些在AI訓(xùn)練一線工作的人意味著什么。

LLM讓我們誤解了”智能”

在聊世界模型之前,我想先說說大語言模型給我們帶來的一個重要誤解。

ChatGPT出現(xiàn)之后,很多人——包括我自己——有一段時間真的以為AGI快來了。GPT-4能通過律師資格考試,能寫出媲美人類的文章,能解釋量子力學(xué),能幫你調(diào)試代碼……這一系列能力疊加在一起,很難不讓人產(chǎn)生一種錯覺:這個東西已經(jīng)很”懂”了。

但在實(shí)際工作中,你會慢慢發(fā)現(xiàn)一些奇怪的縫隙。

我做RLHF標(biāo)注的時候,有一次給模型出了一道很簡單的空間推理題:桌子上有一個蘋果,蘋果旁邊有一本書,書的左邊是一杯水。問:蘋果和水的相對位置是什么?

模型給出的答案不穩(wěn)定,有時候?qū)Γ袝r候錯,而且你追問它為什么這么判斷,它能給出一套聽起來完全合理的解釋——無論答案是對是錯。

這讓我意識到一件事:LLM掌握的是”關(guān)于世界的語言描述”,而不是”世界本身的運(yùn)作規(guī)律”。

這個區(qū)別聽起來很微妙,但其實(shí)非常根本。

打一個比方:想象一個人從來沒有離開過圖書館,他讀遍了所有關(guān)于游泳的書籍,能背誦蝶泳的技術(shù)要領(lǐng),能分析菲爾普斯的動作細(xì)節(jié),能寫出一篇專業(yè)的游泳教學(xué)文章。但是,把他扔進(jìn)游泳池,他大概率會沉下去。

LLM就是這個圖書館里的人。

它的訓(xùn)練目標(biāo)是:給定前面所有的詞,預(yù)測下一個詞的概率分布。用數(shù)學(xué)語言說就是最大化P(token_t | 所有之前的token)。這個目標(biāo)讓它學(xué)會了人類語言的統(tǒng)計模式,但語言的統(tǒng)計模式不等于世界的因果規(guī)律。

火焰是熱的,這句話在訓(xùn)練數(shù)據(jù)里出現(xiàn)了無數(shù)次,所以LLM”知道”火焰是熱的。但它不知道的是:如果你把手伸向火焰,溫度會按照什么樣的物理規(guī)律傳導(dǎo)到你的皮膚,皮膚的蛋白質(zhì)會在多少攝氏度開始變性,這個過程是可逆還是不可逆的。

這些”知道”背后的知道為什么,LLM一直缺席。

多模態(tài)讓AI”看見了”,但還沒有”經(jīng)歷”

多模態(tài)模型的出現(xiàn)是一個重要的進(jìn)步。

當(dāng)GPT-4V、Gemini這類模型能夠理解圖片的時候,我們獲得了一個新的能力維度:AI開始能夠感知視覺世界了。OCR、圖像描述、視覺問答……這些能力在很多實(shí)際應(yīng)用場景里有巨大的價值。

但多模態(tài)模型的本質(zhì),是在視覺特征和語言描述之間建立映射關(guān)系。

它學(xué)習(xí)的是:這種視覺模式,對應(yīng)這種語言描述。一張貓的圖片,對應(yīng)”貓”這個詞以及關(guān)于貓的所有語言知識。這種對應(yīng)關(guān)系學(xué)習(xí)得越精準(zhǔn),模型的多模態(tài)能力就越強(qiáng)。

問題在于,這依然是一種靜態(tài)的、表面的理解。

舉個例子:給多模態(tài)模型看一張臺球桌的照片,再給它看一張球桿擊球瞬間的照片,它能告訴你這是在打臺球,能描述球的顏色和位置。但如果你問它:球被擊中之后會往哪里運(yùn)動,會不會碰到邊框反彈,最終停在哪里——這些問題涉及到物理軌跡的預(yù)測,多模態(tài)模型的表現(xiàn)就會變得非常不穩(wěn)定。

原因很簡單:多模態(tài)模型看過無數(shù)張臺球的圖片,但它從來沒有在臺球的世界里”行動”過。

看過和經(jīng)歷過,是兩種本質(zhì)上不同的智能來源。

人類之所以有直覺,有物理常識,是因為我們從嬰兒時期就在真實(shí)世界里摸爬滾打,通過無數(shù)次的行動和反饋,在大腦里建立起了一套世界的運(yùn)作模型。當(dāng)你看到一個杯子放在桌子邊緣,你本能地會感到擔(dān)憂——這種直覺不是從書上學(xué)來的,而是從你某次不小心打碎杯子的經(jīng)歷里涌現(xiàn)的。

LLM沒有經(jīng)歷過,多模態(tài)模型依然沒有經(jīng)歷過。

而世界模型,正是要解決這個”經(jīng)歷”的缺失。

世界模型:AI第一次開始”預(yù)測世界”

世界模型這個概念并不新。

2018年,AI研究者David Ha和深度學(xué)習(xí)先驅(qū)Jürgen Schmidhuber發(fā)表了一篇名為《World Models》的論文,系統(tǒng)提出了這個框架。他們的核心想法是:一個智能體要在世界中行動,就必須在內(nèi)部建立一個關(guān)于世界的模型,通過這個內(nèi)部模型來預(yù)測行動的后果,再決定采取什么行動。

這個想法其實(shí)和人類的認(rèn)知方式非常接近。

你在開車的時候,大腦并不是實(shí)時處理所有傳感器數(shù)據(jù)再做決策,而是基于你對道路規(guī)律的理解,不斷預(yù)測前方會發(fā)生什么,在預(yù)測的基礎(chǔ)上做判斷。這個”對道路規(guī)律的理解”,就是你大腦里的世界模型。

用更技術(shù)性的語言來說,世界模型的核心訓(xùn)練目標(biāo)是:

給定當(dāng)前的狀態(tài)S和采取的動作A,預(yù)測下一個狀態(tài)S’。

這一個簡單的公式和LLM的訓(xùn)練目標(biāo)相比,有三個根本性的不同:

第一,引入了”動作”維度。 LLM預(yù)測的是詞,多模態(tài)模型預(yù)測的是內(nèi)容,而世界模型預(yù)測的是”行動之后世界會怎樣”。這意味著AI第一次真正把”做事”和”理解”結(jié)合在了一起。

第二,建立了因果關(guān)系而非統(tǒng)計關(guān)系。 我推了這個杯子,杯子會倒——這是因果。LLM知道”杯子倒了”和”推”經(jīng)常在語言里一起出現(xiàn),但它不理解推力、重心、摩擦力之間的因果鏈條。世界模型要學(xué)的正是這個因果鏈條。

第三,支持”反事實(shí)推理”。 這是最讓我興奮的一點(diǎn)。反事實(shí)推理是說:如果我不這樣做,而是那樣做,結(jié)果會有什么不同?這種”想象中的試錯”能力,是規(guī)劃和決策的基礎(chǔ),也是人類智慧的重要組成部分。一個真正的世界模型,應(yīng)該能在內(nèi)部模擬多種可能的未來,選擇最優(yōu)的行動路徑。

Sora為什么讓整個行業(yè)震驚

2024年1月,OpenAI發(fā)布Sora的那一刻,其實(shí)是世界模型概念第一次以一種所有人都看得懂的方式被呈現(xiàn)出來。

Sora表面上是一個視頻生成模型。但讓業(yè)內(nèi)人士真正震驚的,不是它生成的視頻有多漂亮,而是視頻里展現(xiàn)出來的物理一致性。

水往低處流,而不是隨機(jī)飄散。碰撞發(fā)生時,物體的形變方向符合受力分析。鏡頭從一個角度切換到另一個角度,場景里的光影關(guān)系保持正確。一個球被踢出去,它的運(yùn)動軌跡符合拋物線,而不是隨機(jī)游走。

這些細(xì)節(jié),Sora并沒有被顯式地教過。沒有人在訓(xùn)練數(shù)據(jù)里標(biāo)注”這里的水應(yīng)該向左流”,也沒有人寫代碼規(guī)定光照應(yīng)該如何計算。這些物理規(guī)律,是模型在訓(xùn)練了海量視頻之后自發(fā)涌現(xiàn)出來的。

OpenAI在Sora的技術(shù)報告里有一段話,我覺得是整篇文章最重要的部分:

“我們認(rèn)為,視頻生成模型是物理世界通用模擬器的一個有前景的路徑。”

這句話的信息量非常大。它意味著:當(dāng)你訓(xùn)練一個足夠大的模型去預(yù)測視頻的下一幀,它會被迫學(xué)習(xí)世界的物理規(guī)律——因為只有理解了物理規(guī)律,才能正確預(yù)測下一幀應(yīng)該長什么樣。

這是一個非常優(yōu)雅的訓(xùn)練信號設(shè)計。視頻本身就是因果序列——每一幀都是上一幀按照物理規(guī)律演化的結(jié)果。通過預(yù)測這個序列,模型在學(xué)習(xí)語言的過程中,也在悄悄學(xué)習(xí)物理。

當(dāng)然,Sora還遠(yuǎn)遠(yuǎn)不是完美的世界模型。它有時候會生成物理上荒謬的內(nèi)容:人從椅子上站起來但椅子憑空消失,水面反光的方向和光源不一致,長時間視頻里物體的屬性前后矛盾……這些錯誤恰恰說明,它的世界模型是不完整的,是片段性的。

但它展示了一個可行的方向。

三條路線的本質(zhì)差異:一個訓(xùn)練師的理解

在工作中,我慢慢形成了一個對這三類模型的理解框架,我覺得用”認(rèn)知層次”來描述最為準(zhǔn)確。

大語言模型解決的是”知道什么”的問題。

它的核心能力是知識的存儲和檢索,以及語言的生成和理解。它知道歷史上發(fā)生了什么,知道科學(xué)定律的表述,知道如何把一件事情解釋清楚。這是一種很寶貴的能力,但它的局限在于:它知道的是”關(guān)于世界的描述”,而不是”世界本身”。

多模態(tài)模型解決的是”看到什么”的問題。

它的核心能力是感知,是把視覺、聽覺等感官信號轉(zhuǎn)化為語義理解。它能看懂圖片,能理解視頻里發(fā)生了什么,能把不同模態(tài)的信息關(guān)聯(lián)起來。這把AI的認(rèn)知范圍從語言擴(kuò)展到了感知。但它依然是靜態(tài)的,是截圖式的理解,缺少對時序動態(tài)和行動后果的建模。

世界模型解決的是”會怎樣”和”怎么做”的問題。

它的核心能力是預(yù)測和規(guī)劃。它要理解的不是事物的靜態(tài)屬性,而是動態(tài)的因果鏈條。它要能夠回答:如果我這樣做,世界會變成什么樣?哪條路徑能讓我達(dá)到目標(biāo)?這個東西碰到那個東西會發(fā)生什么?

從訓(xùn)練師的角度來看,這三種模型對數(shù)據(jù)的需求截然不同。

LLM需要的是大量高質(zhì)量的文本,核心在于覆蓋廣泛、語言準(zhǔn)確。多模態(tài)需要的是高質(zhì)量的圖文對或視頻文本對,核心在于模態(tài)之間的對齊精準(zhǔn)。而世界模型需要的是包含行動標(biāo)注的交互序列——不只是”發(fā)生了什么”,還要有”因為做了什么才發(fā)生”。

這對數(shù)據(jù)采集和標(biāo)注的要求,是一個數(shù)量級的跨越。

世界模型為什么現(xiàn)在爆發(fā)

這個問題我思考了很久,因為世界模型這個概念并不新——2018年就有奠基性的論文了,為什么偏偏是2024年前后突然成為業(yè)界最熱的話題?

我覺得有幾個因素疊加在一起,形成了這次爆發(fā)。

第一個因素是LLM的scaling law開始遇到天花板。

GPT-3到GPT-4這個階段,每一次參數(shù)量的大幅提升都帶來了令人驚嘆的能力躍遷。但GPT-4之后,這種躍遷的幅度開始明顯收窄。訓(xùn)練成本從數(shù)千萬美元漲到數(shù)億美元,但能力的提升越來越難以讓用戶感知到革命性的變化。

更麻煩的是數(shù)據(jù)問題。有研究機(jī)構(gòu)估算,互聯(lián)網(wǎng)上可用的高質(zhì)量文本數(shù)據(jù)將在2026年到2028年之間基本被主流模型”吃完”。繼續(xù)堆數(shù)據(jù)的路線正在遭遇物理限制。

業(yè)界開始意識到:單純在語言空間里做文章,可能真的到頭了。

第二個因素是具身智能的需求突然變得非常迫切。

2024年,人形機(jī)器人賽道的融資規(guī)模達(dá)到了一個歷史高點(diǎn)。Figure AI、1X Technologies、Physical Intelligence……一批專注于通用機(jī)器人的公司密集獲得了大額融資。與此同時,特斯拉的Optimus機(jī)器人開始在工廠里執(zhí)行真實(shí)任務(wù),波士頓動力的機(jī)器人也在加速商業(yè)化。

機(jī)器人要在真實(shí)的物理世界里工作,必須理解物理規(guī)律,必須能夠預(yù)測行動后果,必須能在不確定的環(huán)境中實(shí)時規(guī)劃。這些需求,LLM和多模態(tài)模型都無法直接滿足。

而世界模型,正是機(jī)器人大腦的核心基礎(chǔ)設(shè)施。

第三個因素是Sora證明了這條路線的可行性。

在Sora之前,世界模型更多是一個學(xué)術(shù)概念,工程實(shí)現(xiàn)上還有很多未解決的問題。Sora的出現(xiàn)證明了:大規(guī)模視頻預(yù)訓(xùn)練可以讓模型涌現(xiàn)出物理理解能力,這條路線是走得通的。

這給了整個行業(yè)一個非常強(qiáng)烈的信號:下一個重要的范式,已經(jīng)有了第一個令人信服的工程案例。

第四個因素是Meta的LeCun持續(xù)”帶節(jié)奏”。

Yann LeCun作為深度學(xué)習(xí)的三位圖靈獎得主之一,在過去兩年里不斷公開表達(dá)一個觀點(diǎn):現(xiàn)有的LLM路線永遠(yuǎn)無法實(shí)現(xiàn)AGI,真正的通用智能必須建立在世界模型的基礎(chǔ)之上。他在Meta主導(dǎo)開發(fā)的JEPA系列架構(gòu),是目前世界模型研究中最有影響力的學(xué)術(shù)路線之一。

當(dāng)這個級別的研究者持續(xù)、公開地為一個方向站臺,資本和人才的流向就會跟著改變。

這四個因素疊加在一起,形成了2024年世界模型突然爆火的背景。

大廠們在做什么

了解大廠的布局,對于理解這個領(lǐng)域的發(fā)展方向非常有幫助。

OpenAI的路線是最模糊也最讓人好奇的。Sora是目前最接近世界模型概念的商業(yè)化產(chǎn)品,但OpenAI并沒有明確把它定義為世界模型,而是稱之為”物理世界的模擬器”。與此同時,o1和o3系列模型走的是推理能力深化的方向——在回答之前讓模型進(jìn)行更長時間的”思考”。這兩條線最終如何融合,是整個行業(yè)都在猜測的問題。

Meta的路線是最明確的。LeCun主導(dǎo)的JEPA架構(gòu),加上V-JEPA 2.0對視頻動態(tài)的建模,是目前學(xué)術(shù)界最系統(tǒng)的世界模型研究路線。Meta的策略是把這些研究開源,在學(xué)術(shù)影響力上建立優(yōu)勢,同時為自家的AR眼鏡和機(jī)器人項目提供技術(shù)儲備。

Google DeepMind走的是多線并行的路線。Gemini負(fù)責(zé)通用多模態(tài)能力,Genie系列專注于從視頻中學(xué)習(xí)可交互的世界模型,還有專門針對機(jī)器人控制的RT系列。DeepMind的優(yōu)勢在于強(qiáng)化學(xué)習(xí)的深厚積累——從AlphaGo到AlphaFold,他們在讓AI通過與環(huán)境交互來學(xué)習(xí)這件事上有最豐富的經(jīng)驗。

國內(nèi)方面,字節(jié)跳動、騰訊、華為等公司都在布局,但公開信息相對有限。比較明確的是自動駕駛賽道——理想汽車、文遠(yuǎn)知行等公司都在把世界模型作為下一代自動駕駛系統(tǒng)的核心技術(shù)。Wayve的GAIA-1是目前自動駕駛世界模型里最受關(guān)注的案例,它能夠根據(jù)文字描述生成不同天氣、不同交通狀況下的駕駛場景,用來訓(xùn)練自動駕駛系統(tǒng)。

回到訓(xùn)練師:這場變革對我們意味著什么

說了這么多宏觀的內(nèi)容,我想回到一個更具體的問題:作為AI訓(xùn)練師,這場世界模型的浪潮對我們的日常工作意味著什么?

我在思考這個問題的時候,有一個感受越來越強(qiáng)烈:訓(xùn)練師這個職業(yè),正在從”數(shù)據(jù)標(biāo)注工人”向”世界規(guī)則設(shè)計師”演變。

在LLM時代,訓(xùn)練師的核心工作是:提供高質(zhì)量的文本示例,告訴模型什么樣的回答是好的,什么樣的是不好的。RLHF標(biāo)注本質(zhì)上是在幫模型建立一套語言層面的偏好系統(tǒng)。

這個工作很重要,但它的邊界是清晰的——你在評估的是語言輸出的質(zhì)量。

但在世界模型的訓(xùn)練體系里,問題變得復(fù)雜得多。

你需要評估的不再只是語言,而是物理合理性。

模型生成了一段視頻,一個機(jī)器人伸手抓取桌上的物體。你作為訓(xùn)練師,需要判斷:這個抓取動作的角度是否合理?手指的彎曲是否符合人體工程學(xué)?物體被抓起的那一刻,桌子是否有正確的反應(yīng)力?這些判斷需要的不是語言能力,而是對物理世界的直覺。

你需要設(shè)計的不再只是問答示例,而是場景和規(guī)則。

在強(qiáng)化學(xué)習(xí)的框架里,智能體是通過在環(huán)境中行動并獲得獎勵來學(xué)習(xí)的。訓(xùn)練師的一個重要職責(zé),是設(shè)計合理的獎勵函數(shù)——告訴模型什么樣的行為應(yīng)該被獎勵,什么樣的應(yīng)該被懲罰。獎勵函數(shù)設(shè)計得好,模型會學(xué)到我們期望的行為;設(shè)計得不好,模型會鉆空子,用我們意想不到的方式來最大化獎勵,而完全偏離了真正的目標(biāo)。

這在業(yè)內(nèi)被稱為”獎勵黑客”(Reward Hacking),是強(qiáng)化學(xué)習(xí)里最經(jīng)典也最棘手的問題之一。解決這個問題需要訓(xùn)練師對任務(wù)目標(biāo)有深刻的理解,并且有足夠的創(chuàng)造力來預(yù)判模型可能找到的”作弊路徑”。

你需要面對的不再只是語言幻覺,而是物理幻覺。

LLM會產(chǎn)生事實(shí)性錯誤,這我們都知道。但世界模型會產(chǎn)生物理性錯誤——生成在物理上不可能發(fā)生的場景,或者在長時間的模擬中讓誤差不斷累積,最終偏離現(xiàn)實(shí)。

如何識別這些物理幻覺,如何設(shè)計測試場景來暴露模型的物理盲區(qū),如何構(gòu)建評估體系來量化模型的物理理解能力——這些都是世界模型時代訓(xùn)練師需要具備的新能力。

你需要參與的不再只是數(shù)據(jù)標(biāo)注,而是數(shù)據(jù)生態(tài)的設(shè)計。

世界模型最大的數(shù)據(jù)瓶頸,是缺乏包含行動標(biāo)注的交互序列數(shù)據(jù)。互聯(lián)網(wǎng)上有海量的視頻,但這些視頻大多數(shù)只有”發(fā)生了什么”,沒有”因為什么動作才發(fā)生”。

如何設(shè)計數(shù)據(jù)采集框架,如何利用仿真環(huán)境生成合成訓(xùn)練數(shù)據(jù),如何確保合成數(shù)據(jù)和真實(shí)世界之間的分布匹配——這些工作需要訓(xùn)練師深度參與,而不只是在標(biāo)注界面上點(diǎn)點(diǎn)鼠標(biāo)。

作為訓(xùn)練師,我在嘗試做的事

說到這里,我想分享一些自己在工作中開始嘗試的轉(zhuǎn)變。

第一,主動建立對物理世界的系統(tǒng)認(rèn)知。

這聽起來很奇怪——你需要重新學(xué)物理?但我是認(rèn)真的。我開始系統(tǒng)地復(fù)習(xí)基礎(chǔ)物理知識:力學(xué)、流體、光學(xué)……不是為了去做物理計算,而是為了在評估模型輸出的時候,有更扎實(shí)的物理直覺作為判斷基礎(chǔ)。

我們評估語言模型輸出的時候,依賴的是我們從小積累的語言直覺——這句話聽起來自然不自然,這個邏輯通不通順。評估世界模型輸出的時候,我們需要的是物理直覺——這個運(yùn)動軌跡對不對,這個形變合不合理。

而物理直覺是需要刻意培養(yǎng)的。

第二,開始學(xué)習(xí)強(qiáng)化學(xué)習(xí)的基本概念。

我不需要成為強(qiáng)化學(xué)習(xí)的研究者,但我需要理解獎勵函數(shù)、策略優(yōu)化、探索與利用的權(quán)衡這些基本概念。因為在世界模型的訓(xùn)練體系里,這些概念會直接影響我的工作方式和判斷標(biāo)準(zhǔn)。

知道強(qiáng)化學(xué)習(xí)的基本原理,我才能理解為什么某些獎勵設(shè)計會導(dǎo)致模型產(chǎn)生意料之外的行為,才能在設(shè)計評估任務(wù)的時候,提前考慮到潛在的獎勵黑客風(fēng)險。

第三,開始關(guān)注具身智能和機(jī)器人相關(guān)的場景。

世界模型目前最重要的落地方向是自動駕駛和機(jī)器人控制。這些場景和我們?nèi)粘=佑|的對話AI非常不同,但它們正在成為訓(xùn)練師工作的重要組成部分。

我開始主動了解機(jī)器人操作的基本知識,學(xué)習(xí)自動駕駛場景的評估標(biāo)準(zhǔn),嘗試建立對這些具身智能場景的感性認(rèn)知。

第四,把”數(shù)據(jù)設(shè)計”而不只是”數(shù)據(jù)標(biāo)注”作為自己的核心能力目標(biāo)。

標(biāo)注是執(zhí)行層面的工作,數(shù)據(jù)設(shè)計是策略層面的工作。前者關(guān)注的是”這個樣本應(yīng)該打什么標(biāo)簽”,后者關(guān)注的是”我們需要什么樣的數(shù)據(jù),才能讓模型學(xué)到我們想要的能力”。

我在試圖讓自己的思維層次向后者遷移。每次做標(biāo)注任務(wù)的時候,我會多想一步:這個任務(wù)的數(shù)據(jù)設(shè)計合不合理?有沒有系統(tǒng)性的盲區(qū)?如果我來設(shè)計這個標(biāo)注方案,我會有什么不同的選擇?

三者的未來:不是替代,而是融合

在整理這篇文章的思路時,我反復(fù)在思考一個問題:LLM和多模態(tài)是否已經(jīng)走到了盡頭?

我的結(jié)論是:沒有,但它們正在走到”獨(dú)立存在”的盡頭。

LLM不會消亡。它積累的語言理解和知識存儲能力,是任何通用智能系統(tǒng)都必須具備的基礎(chǔ)設(shè)施。未來的智能系統(tǒng)一定需要一個能夠理解和生成語言的模塊——LLM就是這個模塊最好的實(shí)現(xiàn)方式。

多模態(tài)模型也不會消亡。感知世界的能力是具身智能不可或缺的基礎(chǔ)。攝像頭的數(shù)據(jù)需要被理解,場景需要被語義化,這些工作多模態(tài)模型做得最好。

但它們作為獨(dú)立產(chǎn)品形態(tài)的價值邊界,正在變得越來越清晰。繼續(xù)在LLM框架內(nèi)堆參數(shù)、堆數(shù)據(jù),邊際收益正在快速遞減。繼續(xù)在多模態(tài)框架內(nèi)做更精準(zhǔn)的圖文對齊,也難以突破感知理解的天花板。

世界模型不是來取代它們的,而是來整合它們的。

用一個不太精確但很直觀的比喻:如果未來的通用AI系統(tǒng)是一個人,那LLM是這個人的語言中樞,多模態(tài)是這個人的感知系統(tǒng),而世界模型是這個人的認(rèn)知中樞——把感知到的信息、理解到的知識,整合成對世界的動態(tài)理解和行動規(guī)劃能力。

沒有任何一個部分是多余的,但只有任何一個部分,都不足以成為完整的智能。

我剛?cè)胄械臅r候,有個前輩跟我說:做AI訓(xùn)練師,最重要的不是技術(shù)能力,而是對”什么是真正好的輸出”有清晰的判斷。

我當(dāng)時理解這句話的層次很淺——好的輸出就是準(zhǔn)確、流暢、有用的語言回答。

但現(xiàn)在,隨著世界模型的概念越來越清晰,我開始理解這句話有更深的含義:

“好的輸出”這個標(biāo)準(zhǔn)本身,正在隨著AI的演進(jìn)而不斷擴(kuò)展。

從”語言是否準(zhǔn)確”,到”感知是否正確”,再到”物理是否合理”,再到”規(guī)劃是否有效”——每一次AI范式的轉(zhuǎn)移,都是在把”好的輸出”的定義往更接近真實(shí)智能。

本文來自作者:冒泡泡

想要第一時間了解行業(yè)動態(tài)、面試技巧、商業(yè)知識等等等?加入產(chǎn)品經(jīng)理進(jìn)化營,跟優(yōu)秀的產(chǎn)品人一起交流成長!


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全球又要大亂?俄中將陣亡,美油管被炸,四國集體失聲!

全球又要大亂?俄中將陣亡,美油管被炸,四國集體失聲!

星星沒有你亮
2026-04-09 11:32:47
100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

100 日元兌 4.33 元:日本用三十年,把自己熬成了 “廉價國家”

深析古今
2026-03-31 10:10:57
專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個地方可躲災(zāi)難,一定要知道

專家分析得出:一旦核戰(zhàn)爆發(fā),中國3個地方可躲災(zāi)難,一定要知道

文史達(dá)觀
2024-06-14 21:35:17
當(dāng)你有了存款會瞞著身邊人嗎?網(wǎng)友:存錢就連親爹媽都別告訴

當(dāng)你有了存款會瞞著身邊人嗎?網(wǎng)友:存錢就連親爹媽都別告訴

帶你感受人間冷暖
2026-02-23 00:30:12
三顧茅廬的真相

三顧茅廬的真相

漢周讀書
2026-04-06 13:22:57
弘一法師:人活到極致,不是擁有什么,而是沒有什么

弘一法師:人活到極致,不是擁有什么,而是沒有什么

木言觀
2026-04-12 06:57:10
重磅!ICE將重點(diǎn)打擊赴美生子和月子中心,月子中心或已被列為目標(biāo),孕婦恐將無法入境美國

重磅!ICE將重點(diǎn)打擊赴美生子和月子中心,月子中心或已被列為目標(biāo),孕婦恐將無法入境美國

大洛杉磯LA
2026-04-12 04:47:01
成都蓉城VS北京國安:王牌鐵腰回歸,羅慕洛領(lǐng)銜,最強(qiáng)三叉戟沖鋒

成都蓉城VS北京國安:王牌鐵腰回歸,羅慕洛領(lǐng)銜,最強(qiáng)三叉戟沖鋒

零度眼看球
2026-04-12 02:05:03
特朗普最信任的女秘書卡羅琳·萊維特,在全球鏡頭前“擺爛”。

特朗普最信任的女秘書卡羅琳·萊維特,在全球鏡頭前“擺爛”。

果媽聊娛樂
2026-04-12 06:24:33
戰(zhàn)爭爆發(fā)前的預(yù)兆出現(xiàn)!美國已經(jīng)有4個征兆,張召忠預(yù)言要成真?

戰(zhàn)爭爆發(fā)前的預(yù)兆出現(xiàn)!美國已經(jīng)有4個征兆,張召忠預(yù)言要成真?

老嘪科普
2026-04-12 11:26:51
風(fēng)向都變了!以美國為首的多國認(rèn)為:中國已在換電等關(guān)鍵領(lǐng)域崛起

風(fēng)向都變了!以美國為首的多國認(rèn)為:中國已在換電等關(guān)鍵領(lǐng)域崛起

潮鹿逐夢
2026-04-11 11:22:49
八千里路云和月:要不是廖豐年,張云魁到死都不知,孫懷義的算計

八千里路云和月:要不是廖豐年,張云魁到死都不知,孫懷義的算計

老橝說體育
2026-04-10 19:08:13
73歲遲重瑞舍百億遺產(chǎn)入寺,白巖松一語道破真相

73歲遲重瑞舍百億遺產(chǎn)入寺,白巖松一語道破真相

麥芽是個小趴菜
2026-04-12 10:48:01
以色列士兵虐童視頻引爆全球,李在明公開質(zhì)問!

以色列士兵虐童視頻引爆全球,李在明公開質(zhì)問!

鳳眼論
2026-04-11 13:34:48
日本降級對華關(guān)系后,53條中日航線被取消,中方反應(yīng)平靜

日本降級對華關(guān)系后,53條中日航線被取消,中方反應(yīng)平靜

人間百態(tài)中的溫馨
2026-04-12 10:44:48
孫怡怒稱發(fā)布會是趙子琪淘汰會!宣布不當(dāng)隊長全網(wǎng)炸鍋

孫怡怒稱發(fā)布會是趙子琪淘汰會!宣布不當(dāng)隊長全網(wǎng)炸鍋

星星沒有你亮
2026-04-12 06:39:09
勞務(wù)派遣究竟有多猖獗?

勞務(wù)派遣究竟有多猖獗?

黯泉
2026-04-11 13:57:11
開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

開始搶人!美國一周挖走4位中國頂尖人才,年薪1億美金太驚人

百科密碼
2026-04-10 15:56:21
熱議上海德比:海港中場控制力下降;申花終于買對人了

熱議上海德比:海港中場控制力下降;申花終于買對人了

懂球帝
2026-04-11 22:46:11
女人靠兩年半開房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

女人靠兩年半開房410次而“火箭升遷”,當(dāng)年南航這樁事有多丑陋

長安一孤客
2026-04-10 22:39:51
2026-04-12 12:48:49
人人都是產(chǎn)品經(jīng)理社區(qū) incentive-icons
人人都是產(chǎn)品經(jīng)理社區(qū)
想要成為大牛先從學(xué)做產(chǎn)品開始
64622文章數(shù) 311584關(guān)注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風(fēng)日產(chǎn):尊重同行

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個月未露面 突然全面亮劍

頭條要聞

媒體:伊朗新領(lǐng)袖"冒死接班"1個月未露面 突然全面亮劍

體育要聞

五大聯(lián)賽首冠出爐?拜仁或提前4輪衛(wèi)冕德甲

娛樂要聞

46歲趙達(dá)官宣結(jié)婚!曾與殷桃談婚論嫁

財經(jīng)要聞

三輪磋商談至深夜 美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

時尚
親子
旅游
藝術(shù)
軍事航空

春季穿衣別死氣沉沉,看看這27套日常穿搭,活力時尚又減齡

親子要聞

家長別忽略:這些看似微小的口腔問題,卻能影響孩子終身健康!

旅游要聞

人民論壇網(wǎng)評 | “跟著演出去旅行”為何這么火

藝術(shù)要聞

2025殊相——中國油畫學(xué)會創(chuàng)作研修作品展 | 油畫選刊(六)

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

無障礙瀏覽 進(jìn)入關(guān)懷版