国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)搶占C位,成為AI企業(yè)的“應(yīng)許之地”?

0
分享至

須知參差多態(tài),乃是幸福本源?!_素

人工智能占領(lǐng)世界,多模態(tài)統(tǒng)治人工智能。

從OpenAI發(fā)布GPT-4o、谷歌亮出Project Astra到馬斯克新一代大模型Gork-3,再到智譜AI自主智能體AutoGLM、DeepSeek開源模型Janus-Pro,以及智元機器人的啟元大模型GO-1,這些模型背后,無論科技巨頭還是科技新星,都瞄準了同一個方向:多模態(tài)AI。

谷歌研究報告顯示,預(yù)計至2025年,全球多模態(tài)AI市場規(guī)模將飆升至24億美元,而到2037年底,這一數(shù)字更是預(yù)計將達到驚人的989億美元。

資本也用真金白銀對多模態(tài)投下了“信任票”。根據(jù)全球金融追蹤機構(gòu)PitchBook發(fā)布數(shù)據(jù)顯示,2024年,生成式AI領(lǐng)域的融資活動異?;鸨?,全年融資總額高達560億美元,同比增長192%。其中OpenAI融資總額81億美元,Anthropic完成75億美元融資,xAI共募集120億美元資金。這些投資主要聚焦于多模態(tài)生成技術(shù)突破、大語言模型優(yōu)化、計算效率提升等方向。

為什么全球AI企業(yè)選擇集體押注多模態(tài)?多模態(tài)又將如何塑造未來十年的AI格局?

多模態(tài)重塑AI進行時

隨著AI越來越多地與現(xiàn)實世界發(fā)生交互,增強多模態(tài)能力、提升推理效率、降低訓練成本以及加強領(lǐng)域?qū)I(yè)性,正成為大模型新一輪演化的重要方向。

如果把大語言模型(LLM)比作“關(guān)在籠子里的AI”,那么它和世界交互的方式就是通過“遞文字紙條”。

文字是人類對世界的表示,存在著信息提煉、損失、冗余、甚至錯誤。而多模態(tài)就像是讓AI繞開了人類的中間表示,直接接觸世界,從最原始的視覺、聲音、空間等開始理解世界、改變世界。

“模態(tài)”一詞最早是生物學概念,人類的“五感”——觸覺、聽覺、視覺、嗅覺、味覺,都是一種模態(tài)。從技術(shù)角度來說,模態(tài)就是感官數(shù)據(jù),不僅包括最常見的圖像、文本、視頻、音頻數(shù)據(jù),還包括傳感器等更為豐富的數(shù)據(jù)類型。

大模型經(jīng)歷了從傳統(tǒng)單模態(tài)模型,到通用單模態(tài),再到通用多模態(tài)的演進。

單模態(tài)AI的輝煌已經(jīng)實現(xiàn),如語言模型(如GPT)、視覺模型(如ResNet)以及語音模型(如Wav2Vec)雖取得了耀眼成就,但現(xiàn)實世界的復雜性無法僅靠單一模態(tài)理解。

這是由于單模態(tài)AI只能處理某一種類型的信息,通過讓AI學習互聯(lián)網(wǎng)上的海量文本、圖片等不同模態(tài)的數(shù)據(jù),尋找其內(nèi)在規(guī)律,但在算力、數(shù)據(jù)資源的限制下,僅依賴互聯(lián)網(wǎng)的數(shù)據(jù)學習會很快達到瓶頸,難以全面理解和應(yīng)對現(xiàn)實世界中多樣化的信息輸入。只有像人類一樣多種感官信息相互補充,才能準確感知和理解世界。

為了讓AI更接近人類的認知和交互水平,多模態(tài)技術(shù)應(yīng)運而生。1971年,美國心理學家艾伯特·梅拉賓(Albert Mehrabian)在著作《無聲的信息》一書中提出,人類交流中僅有7%的信息通過語言傳遞,其余93%通過語調(diào)(38%)和面部表情、肢體動作(55%)完成。這一發(fā)現(xiàn)被稱為“梅拉賓法則”,又稱7-38-55規(guī)則,成為多模態(tài)理論早期的重要基礎(chǔ)。

隨著OpenAI的DALL-E/GPT-4o/o1/o3、DeepMind的Flamingo等多模態(tài)系統(tǒng)的問世,讓AI打破模態(tài)邊界,不僅開始理解世界,還能生成跨模態(tài)的內(nèi)容,這些進步標志著智能系統(tǒng)進入了一個全新維度。

簡單理解,多模態(tài)AI=多種數(shù)據(jù)類型+多種智能處理算法。

這一系統(tǒng)整合了多種不同模態(tài)的數(shù)據(jù),通過復雜的算法模型進行融合處理,從而使AI系統(tǒng)能夠像人類一樣,綜合運用多種信息進行決策和交互。正是這種跨越不同模態(tài)理解和創(chuàng)建信息的能力,超越此前側(cè)重于集成和處理特定數(shù)據(jù)源的單模態(tài)AI,贏得了各大科技巨頭的青睞。

多模態(tài)AI的核心在于多源數(shù)據(jù)的整合與對齊。通過將視覺、語言和聲音轉(zhuǎn)化為統(tǒng)一的潛在表示,讓模型可以實現(xiàn)跨模態(tài)學習。例如,OpenAI的CLIP模型通過大規(guī)模圖文對比學習,掌握了語言描述與視覺特征之間的映射關(guān)系。

在更復雜的場景中,數(shù)據(jù)融合不只是簡單疊加,還需解決模態(tài)對齊的難題。比如,語言中的抽象概念如何匹配圖像中的具象特征?Transformer架構(gòu)的引入為這一挑戰(zhàn)提供了技術(shù)支撐,其自注意力機制能夠在多模態(tài)間捕捉深層關(guān)聯(lián),使模型具有更強的泛化能力。

從BERT到Vision Transformer,再到多模態(tài)預(yù)訓練模型(如BEiT-3),Transformer重新定義了AI的應(yīng)用范圍。以DeepMind的Perceiver為例,其通用架構(gòu)適配了語言、視覺和聲音數(shù)據(jù),展示了強大的模態(tài)遷移能力。

對比學習和遷移學習技術(shù)同樣推動了多模態(tài)AI的快速發(fā)展。例如,通過對比學習,模型可以更高效地在模態(tài)間捕捉相關(guān)性,即使在小樣本數(shù)據(jù)下依然保持卓越性能。

而多模態(tài)AI的想象力,遠不止于此。

激發(fā)真實世界理解力

從生成式AI、自動駕駛、具身智能到智能體,多模態(tài)已經(jīng)成為推動AI從“單一感知”邁向“全局理解”的核心。行業(yè)分析指出,多模態(tài)技術(shù)的突破正推動AI從工具向生產(chǎn)力轉(zhuǎn)化,并進一步拓展商業(yè)邊界。

2022年及之前,大模型處于單模態(tài)預(yù)訓練大模型階段,主要探索文本模式的輸入輸出。

2017年,谷歌提出Transformer架構(gòu),奠定了當前大模型的主流算法結(jié)構(gòu)。2018年,基于Transformer架構(gòu)訓練的BERT模型問世,參數(shù)規(guī)模首次突破3億。2020年6月GPT3.0的發(fā)布,標志著AI已經(jīng)能夠高水平地生成文字和代碼。隨后,2022年7月,文生圖領(lǐng)域的標志性產(chǎn)品Stable Fusion問世。

2023年,是大模型發(fā)展進程中一道重要的“分水嶺”,其從文本、圖像等單模態(tài)任務(wù)逐漸發(fā)展為支持多模態(tài)的多任務(wù),更為符合人類感知世界的方式。大模型公司的比拼重點轉(zhuǎn)移為多模態(tài)信息整合和數(shù)據(jù)挖掘,精細化捕捉不同模態(tài)信息的關(guān)聯(lián)。

例如,2023年9月,OpenAI推出最新多模態(tài)大模型GPT-4V,增強了視覺提示功能,在處理任意交錯的多模態(tài)方面表現(xiàn)突出。

2024年,OpenAI推出了首個文本生成視頻模型——Sora。相比Runway、Pika等主流視頻生成工具,Sora不僅能準確呈現(xiàn)細節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色,同時根據(jù)提示、靜止圖像甚至填補現(xiàn)有視頻中的缺失幀來生成視頻,堪稱多模態(tài)AI領(lǐng)域的一大里程碑。它展現(xiàn)了一個“會預(yù)測未來”的AI系統(tǒng)的雛形,讓人們對通用人工智能的到來充滿期待。

在提升對現(xiàn)實世界的理解方面,深度學習為多模態(tài)技術(shù)提供了強大支持。神經(jīng)網(wǎng)絡(luò)架構(gòu)的不斷創(chuàng)新,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像識別中的成功應(yīng)用、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在自然語言處理中的出色表現(xiàn),為多模態(tài)數(shù)據(jù)的特征提取和處理奠定了基礎(chǔ)。在此基礎(chǔ)上,研究人員進一步探索如何將不同模態(tài)的數(shù)據(jù)進行融合,開發(fā)出了一系列多模態(tài)融合算法。

例如,早期的多模態(tài)融合方法主要是簡單的特征拼接,即將不同模態(tài)提取的特征向量直接連接在一起,然后輸入到后續(xù)的分類或回歸模型中。這種方法雖然簡單直觀,但未能充分挖掘不同模態(tài)之間的內(nèi)在關(guān)聯(lián)。

隨著技術(shù)發(fā)展,出現(xiàn)了更復雜的融合策略,如跨模態(tài)注意力機制、模態(tài)間交互等?;谧⒁饬C制的融合,能夠讓模型自動關(guān)注不同模態(tài)數(shù)據(jù)中重要的部分,并根據(jù)任務(wù)需求進行動態(tài)融合,充分提高了多模態(tài)融合的效果。這些方法使得模型能夠更好地利用不同模態(tài)之間的互補信息,從而提高任務(wù)的性能。

隨著深度學習的不斷發(fā)展,尤其是預(yù)訓練模型的興起,也為多模態(tài)技術(shù)帶來了新的突破。預(yù)訓練模型通過在大量無標簽數(shù)據(jù)上進行預(yù)訓練,學習到了豐富的知識表示,使得模型在下游任務(wù)上具備更強的泛化能力。

在這一階段,研究者們提出了多種多模態(tài)預(yù)訓練模型,如BERT-Vision、ViLBERT、LXMERT等,這些模型在圖像標注、視覺問答等任務(wù)上取得了顯著的性能提升。之后,研究人員開始嘗試將預(yù)訓練思想應(yīng)用于多模態(tài)領(lǐng)域。

通過在大規(guī)模多模態(tài)數(shù)據(jù)上進行無監(jiān)督預(yù)訓練,模型可以學習到不同模態(tài)之間的通用特征表示,然后在具體的下游任務(wù)中進行微調(diào),這種方式顯著提升了多模態(tài)模型的性能和泛化能力。

可以看到,多模態(tài)技術(shù)的發(fā)展是AI技術(shù)不斷演進的必然結(jié)果,它在融合多種模態(tài)數(shù)據(jù)方面取得的重要進展,為解決復雜現(xiàn)實問題提供了更有效的途徑,這也是AI企業(yè)紛紛押注多模態(tài)技術(shù)的關(guān)鍵原因。

多模態(tài)到底解鎖了什么?

“跨模態(tài)任務(wù)需求+跨模態(tài)數(shù)據(jù)融合+對人類認知能力的模擬”是AI必然走向多模態(tài)的三大因素,我們正見證著AI從“工具理性”向“認知主體”跨越的拐點。

關(guān)于多模態(tài)模型的意義和價值,一個言論在業(yè)界廣為流傳:每多一種模態(tài)的解鎖,意味著用戶滲透率的進一步提升。

這句話背后的意義是:只有文字的人機交互是單一的,是被限制的。人機交互的未來必然是多模態(tài)的,AI需要多模態(tài)理解真實世界和真實的人,人也需要AI提供文字以外的輸出。

最典型的就是語音交互之于ChatBot這個今天使用最廣泛的AI場景。今天越來越多ChatBot類的產(chǎn)品都已經(jīng)加入語音交互功能,而在一些特定的使用場景下(比如用豆包等AI應(yīng)用練習英語),語音交互就能極大地提升用戶的使用體驗。

從商業(yè)模式來看,多模態(tài)AI主要分為兩種方式。

一種是向企業(yè)用戶提供API接口,以模型即服務(wù)(Model-as-a-Service)的形式,企業(yè)可以根據(jù)自身需求調(diào)用相應(yīng)的多模態(tài)AI模型進行處理。

另一種是將多模態(tài)AI模型嵌入到自身的產(chǎn)品和服務(wù)中,提供具體的解決方案。這兩種方式都有著巨大的市場潛力,可以應(yīng)用于各個領(lǐng)域,如機器人、智能交通、智能制造、智能家居等。

當前,人形機器人作為 AI 技術(shù)與高端制造業(yè)的結(jié)合體,不僅具有高通用性,能適應(yīng)人類社會基礎(chǔ)設(shè)施,還因其性價比和廣泛應(yīng)用前景而備受矚目。大模型等技術(shù)進步正推動人形機器人的泛化能力和自然語言交互能力快速發(fā)展。

據(jù)高工產(chǎn)業(yè)研究院(GGII)預(yù)測,2026 年全球人形機器人在服務(wù)機器人中的滲透率有望達到 3.5%,市場規(guī)模超 20 億美元,到 2030 年,全球市場規(guī)模有望突破 200 億美元。

在交通領(lǐng)域,隨著多模態(tài)大模型在多種場景中的適用性日益增強,市場對統(tǒng)一管理座艙功能的智能體需求日益增長。2024 年,“蔚小理”、吉利等主機廠相繼推出了Agent框架,以語音助手為切入點,實現(xiàn)座艙內(nèi)功能應(yīng)用的統(tǒng)一管理。Agent 服務(wù)框架的推出,不僅統(tǒng)一了座艙功能,還根據(jù)客戶需求和喜好提供了豐富的場景模式,尤其是支持用戶定制化場景,加速了座艙個性化時代的到來。

雖然現(xiàn)階段已上車的Agent大部分還停留在助手、陪伴以及具體場景功能列舉層面,但相比于大模型,Agent擁有更大潛力,具備可激發(fā)的自主性和突出的工具使用能力,更加貼合“主動智能”標簽,甚至能夠彌補大模型在實際應(yīng)用中的限制。

智能家居是目前少數(shù)保持高速增長的產(chǎn)業(yè)之一。根據(jù) Statista 數(shù)據(jù)預(yù)測,到2028年,全球智能家居市場規(guī)模將有望達到1544億美元,并且在2024年至2028年期間,該市場還將維持67%的高復合年增長率,這一增長趨勢得益于多模態(tài)大模型與家居產(chǎn)品的逐步融合和應(yīng)用。

交互型多模態(tài)大模型的嵌入使智能家電具備更高級的語音交互能力,這能夠更準確地識別消費者需求,通過語音、手勢和面部表情的自然交互,控制智能家居設(shè)備,甚至提供情感陪護和輔導孩子作業(yè)的功能,使家庭生活更便捷、更富有互動性。

未來,多模態(tài)大模型有望集成于端側(cè)設(shè)備,在手機端與操作系統(tǒng)和各類App深度融合,可以接收用戶的自然語言指令或根據(jù)用戶所處環(huán)境即時調(diào)取合適的服務(wù)。例如,駕車時主動開啟免提通話并打開導航。多模態(tài)大模型甚至可以作為中心樞紐,連接各種生態(tài)服務(wù),如支付、健康監(jiān)測、交通導航和在線購物,形成一個完整的智能消費生活圈。

當與 PC 端結(jié)合后,多模態(tài)大模型有望大幅提升企業(yè)的生產(chǎn)力和創(chuàng)造力,甚至可能創(chuàng)造全新的工作和創(chuàng)作方式。多模態(tài)大模型綜合處理視覺、聽覺以及文本信息,形成了全方位的認知系統(tǒng),它作為 AI 助手,能夠?qū)崟r觀察屏幕上顯示的內(nèi)容,無論是文檔、圖像還是視頻,并且可以迅速捕捉并解析其中的信息。

這種能力使得它能夠和用戶進行更為自然和流暢的溝通,不再局限于簡單的問答形式,而是能夠參與到更復雜的對話中,理解用戶的意圖,提供更具針對性的建議,甚至還可以預(yù)測下一步的需求。

這場技術(shù)進化正以不可逆轉(zhuǎn)的趨勢,將AI推向智能涌現(xiàn)的臨界點。未來5~10年,結(jié)合復雜多模態(tài)方案的大模型有望具備更加完備的與世界交互的能力,到那時,一切都將無比新鮮和令人驚嘆。這不僅讓未來的圖景更加清晰且真實,也預(yù)示著人機共生時代正全面到來。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
專訪鄭功成:建議給農(nóng)村70歲以上老人發(fā)“歷史貢獻養(yǎng)老金”

專訪鄭功成:建議給農(nóng)村70歲以上老人發(fā)“歷史貢獻養(yǎng)老金”

南方都市報
2026-03-11 08:25:08
渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

渾身都是“寄生蟲”的3種魚,賣魚商販都不敢吃,白送也千萬別要

哄動一時啊
2026-02-27 23:35:44
今天北京晴暖在線,周五停暖前還有小雨降溫

今天北京晴暖在線,周五停暖前還有小雨降溫

北青網(wǎng)-北京青年報
2026-03-11 13:43:22
中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

中國第一監(jiān)獄:關(guān)的幾乎全是高官,為防止泄密,牢房內(nèi)有特殊布置

瓦倫西亞月亮
2026-02-20 17:37:18
解放前,一地下黨被特務(wù)盯梢,旁邊富商起身埋怨道:你怎么才回來

解放前,一地下黨被特務(wù)盯梢,旁邊富商起身埋怨道:你怎么才回來

浩舞默畫
2026-03-11 10:53:59
比熬夜可怕十倍的10個壞習慣,一定要拋棄!

比熬夜可怕十倍的10個壞習慣,一定要拋棄!

深度知局
2026-02-26 21:39:44
電影院偶遇劉燁兒子,15歲諾一男模身高側(cè)顏俊朗,當場變他顏值粉

電影院偶遇劉燁兒子,15歲諾一男模身高側(cè)顏俊朗,當場變他顏值粉

八怪娛
2026-03-11 17:16:16
川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

川音“淫魔”校長:88名女音樂教師,霸占87人,細節(jié)曝光不堪入目

就一點
2026-03-08 10:54:42
伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

伊朗足協(xié)主席:留澳的女足球員不會受罰,她們是被攔住后接走的

懂球帝
2026-03-11 19:49:04
你永遠想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛讀史
2026-01-22 18:21:09
這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

這就是回家要脫褲子才能上床的原因!網(wǎng)友:看完天都塌了!

夜深愛雜談
2026-02-07 19:05:55
終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

終于有人管管美國了!美國遇到大麻煩,美國:中美兩國需要攜手

福建平子
2026-01-28 10:52:25
加拿大牽線,48小時內(nèi)澳下兩道挑戰(zhàn)書,澳軍抵黃海挑釁

加拿大牽線,48小時內(nèi)澳下兩道挑戰(zhàn)書,澳軍抵黃海挑釁

防衛(wèi)狙擊手
2026-03-10 15:50:33
錢再多有什么用?2個女兒慘死 3個兒子反目,千億家產(chǎn)換不來親情

錢再多有什么用?2個女兒慘死 3個兒子反目,千億家產(chǎn)換不來親情

凡知
2026-03-09 14:47:24
1949年,新中國確定國名,張治中建議刪除2字,毛主席:我同意

1949年,新中國確定國名,張治中建議刪除2字,毛主席:我同意

史之銘
2026-03-09 18:23:12
殼廠提前泄密!蘋果iPhone Fold完整設(shè)計曝光

殼廠提前泄密!蘋果iPhone Fold完整設(shè)計曝光

PChome電腦之家
2026-03-10 09:49:46
這種保溫杯早被國家禁了,可能引發(fā)慢性中毒,很多人卻成天不離手

這種保溫杯早被國家禁了,可能引發(fā)慢性中毒,很多人卻成天不離手

DrX說
2025-12-16 14:36:14
馬筱梅曝大S豪宅去向,S媽又"作妖",張?zhí)m出手,小楊阿姨也不簡單

馬筱梅曝大S豪宅去向,S媽又"作妖",張?zhí)m出手,小楊阿姨也不簡單

無處不風景l(fā)ove
2026-03-09 21:48:38
“活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

“活不起了?”男子橫幅威脅引發(fā)熱議,真相令人震驚!

一絲不茍的法律人
2026-03-10 12:45:20
心寬路遠,從容向暖

心寬路遠,從容向暖

青蘋果sht
2026-03-11 06:28:03
2026-03-11 20:43:00
極智GeeTech incentive-icons
極智GeeTech
釋放科技想象,探索數(shù)字未來。
73文章數(shù) 13關(guān)注度
往期回顧 全部

科技要聞

騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

頭條要聞

美叫停以軍打擊伊朗油庫 以軍"打擊規(guī)模遠超美國預(yù)期"

頭條要聞

美叫停以軍打擊伊朗油庫 以軍"打擊規(guī)模遠超美國預(yù)期"

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

楊冪連續(xù)五年為劉詩詩慶生,劉詩詩回應(yīng)

財經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

藝術(shù)
游戲
旅游
本地
公開課

藝術(shù)要聞

這組剪紙?zhí)懒耍?/h3>

再戰(zhàn)六年 Falcom社長確認《軌跡》系列將在2032年完結(jié)

旅游要聞

服務(wù)消費新標桿|尋夢滄海沉浸式演藝點亮青島文旅新圖景

本地新聞

這檔韓國玄學綜藝,讓多少人看得頭皮發(fā)麻

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版