国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

讓龍蝦看懂屏幕!谷歌多模態(tài)新成果,文本圖像視頻音頻進(jìn)同一空間

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

原生,啟動!

剛剛,谷歌發(fā)布了首個(gè)原生多模態(tài)(Multimodal)嵌入模型——

Gemini Embedding 2

這次模型最大的變化在于:把文本、圖像、視頻、音頻和文檔,全部映射進(jìn)同一個(gè)統(tǒng)一的嵌入空間。



換句話說,不同媒介的數(shù)據(jù)第一次被放進(jìn)同一個(gè)語義坐標(biāo)系里。

在輸入能力上,Gemini Embedding 2支持多種數(shù)據(jù)類型:

  • 文本:支持最多8192個(gè)token
  • 圖像:每次請求最多處理6張圖像,支持PNG和JPEG
  • 視頻:支持最長120秒的視頻輸入,格式為MP4和MOV
  • 音頻:原生嵌入音頻數(shù)據(jù),無需中間文本轉(zhuǎn)錄
  • 文檔:可直接嵌入最多6頁的PDF

此外,模型不僅可以處理單一模態(tài),還支持多模態(tài)混合輸入(例如圖像 +文本)。

這意味著模型可以捕捉不同媒體之間的復(fù)雜語義關(guān)系,從而更準(zhǔn)確地理解現(xiàn)實(shí)世界中的信息。

在評測方面,Gemini Embedding 2不僅整體性能較上一代提升,同時(shí)也為多模態(tài)嵌入任務(wù)樹立了新的性能基準(zhǔn)。

一方面增強(qiáng)了語音處理能力,另一方面也在文本、圖像和視頻任務(wù)中均超越現(xiàn)有領(lǐng)先模型,實(shí)現(xiàn)SOTA。



乍看之下,這似乎只是一次底層的數(shù)據(jù)工程升級。

但實(shí)際上,它正為像龍蝦這樣的AI Agent真正“看懂”世界,提供了關(guān)鍵基礎(chǔ)。

目前,Gemini Embedding 2已經(jīng)通過Gemini API和Vertex AI展開公測。

原生多模態(tài)嵌入

嵌入模型(Embedding Model)本質(zhì)上是把數(shù)據(jù)轉(zhuǎn)化為稠密向量表示。

在這個(gè)向量空間中,語義相似的數(shù)據(jù)會彼此靠近,不相似的數(shù)據(jù)則距離更遠(yuǎn)。

傳統(tǒng)的嵌入模型主要針對文本。

例如,在谷歌此前的論文《Gemini Embedding: Generalizable Embeddings from Gemini》中——

Gemini Embedding通過在大語言模型參數(shù)中已有的海量知識基礎(chǔ)上構(gòu)建表征,并將得來的嵌入用于:語義檢索、文本聚類、分類,排序等下游任務(wù)。



但這只停留在文字階段。

最新的Gemini Embedding 2,則首次徹底打通了多模態(tài)數(shù)據(jù)。

文本、圖片、視頻、音頻和文檔,都被壓縮到同一個(gè)向量空間之中。

而這,就意味著模型實(shí)現(xiàn)了“跨模態(tài)語義對齊”,能夠讓貓這個(gè)「文字概念」與貓的照片這個(gè)「視覺概念」,在統(tǒng)一的嵌入空間中的數(shù)學(xué)向量的距離極度接近。

通俗來說,當(dāng)你搜索“貓”的時(shí)候,系統(tǒng)不僅能找到相關(guān)文字,還能直接找到貓的圖片、視頻甚至聲音。

也正因?yàn)槿绱耍芏嘣緩?fù)雜的多模態(tài)流程可以被大幅簡化。

RAG檢索、語義搜索、情感分析,到數(shù)據(jù)聚類等應(yīng)用場景,都能直接受益。

更重要的是,這類能力對AI Agent意義巨大。

過去的Agent在操作電腦時(shí),往往只能依賴文字信息。

例如識別按鈕上的“設(shè)置”“確認(rèn)”等標(biāo)簽。但真實(shí)世界的UI界面,大量信息其實(shí)來自視覺結(jié)構(gòu):

圖標(biāo)、布局、顏色、控件位置,正是傳統(tǒng)文本嵌入模型難以處理的部分。

而有了多模態(tài)嵌入之后,情況就不同了。

對于像OpenClaw(龍蝦)這樣需要操作電腦,識別屏幕的Agent來說,它不再只是識別文字。



它可以直接理解:哪個(gè)像素區(qū)域是設(shè)置圖標(biāo)、哪個(gè)按鈕與當(dāng)前任務(wù)最相關(guān),屏幕截圖與文本指令之間的關(guān)系

換句話說,Gemini Embedding 2提供了一條統(tǒng)一的感官總線。視覺、聽覺與文本信息,都能在同一個(gè)語義空間中進(jìn)行關(guān)聯(lián)。

這也為未來Agent真正理解屏幕、理解環(huán)境并代替人類操作電腦,奠定了最重要的語義基礎(chǔ)。

在技術(shù)層面,Gemini Embedding 2繼續(xù)采用Matryoshka Representation Learning(MRL)



這種方法允許嵌入向量在保持語義信息的同時(shí)進(jìn)行動態(tài)維度縮減。

(注:MRL強(qiáng)制模型把最核心、最關(guān)鍵的特征壓縮在向量的前幾十維里,次要的特征放在后面,這讓開發(fā)者可以根據(jù)預(yù)算和算力,自由決定信息密度的分布管理)

Gemini Embedding 2的默認(rèn)輸出維度為3072維,但開發(fā)者可以根據(jù)需求縮減,例如:3072維、1536維、768維,從而在性能與存儲成本之間取得平衡。

除了支持API調(diào)用外,Gemini Embedding 2也支持通過LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB和Vector Search等工具調(diào)用。

通過為不同類型的數(shù)據(jù)賦予統(tǒng)一的語義表示,Gemini Embedding 2正在為下一代AI應(yīng)用:多模態(tài)Agent,乃至具身智能機(jī)器人提供關(guān)鍵基礎(chǔ)設(shè)施。

[1]https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[2]https://arxiv.org/pdf/2503.07891

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
上海母女倆小區(qū)里祭祀遭碾壓,快遞小哥抬車救人腰椎骨折,想辦理工傷必須要見義勇為認(rèn)定書?相關(guān)部門:已申請!

上海母女倆小區(qū)里祭祀遭碾壓,快遞小哥抬車救人腰椎骨折,想辦理工傷必須要見義勇為認(rèn)定書?相關(guān)部門:已申請!

黃河新聞網(wǎng)呂梁
2026-03-11 11:38:43
全網(wǎng)售罄、多地?cái)嘭洠〉赇伬习澹阂郧岸殉缮蕉假u不掉

全網(wǎng)售罄、多地?cái)嘭?!店鋪老板:以前堆成山都賣不掉

金融界
2026-03-11 13:17:35
IPO 腐敗驚雷:香港廉政公署突擊中信證券和國泰君安,國泰君安國際潘舉鵬被香港廉政公署帶走

IPO 腐敗驚雷:香港廉政公署突擊中信證券和國泰君安,國泰君安國際潘舉鵬被香港廉政公署帶走

新浪財(cái)經(jīng)
2026-03-11 22:02:40
11年前,不顧一切娶了泰國"最美人妖"的北京男子,如今過得怎樣了

11年前,不顧一切娶了泰國"最美人妖"的北京男子,如今過得怎樣了

談史論天地
2026-03-02 06:39:01
以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

以色列何去何從,歷史驚人的相似,猶太人在打中國的主意

趙枹是個(gè)熱血青年
2026-03-05 21:34:25
宋方金曝光陳道明接戲“潛規(guī)則”:他主動要請你吃飯,就是不演了

宋方金曝光陳道明接戲“潛規(guī)則”:他主動要請你吃飯,就是不演了

落雪聽梅a
2026-03-06 22:10:36
聯(lián)合國罕見高票通過決議譴責(zé)伊朗襲擊中東多國,中俄投棄權(quán)票

聯(lián)合國罕見高票通過決議譴責(zé)伊朗襲擊中東多國,中俄投棄權(quán)票

桂系007
2026-03-12 06:36:33
建議保障醫(yī)護(hù)工作者休息權(quán),專訪全國政協(xié)委員王廣發(fā)

建議保障醫(yī)護(hù)工作者休息權(quán),專訪全國政協(xié)委員王廣發(fā)

醫(yī)學(xué)界
2026-03-10 19:05:21
OpenAI Codex 負(fù)責(zé)人:懂底層是沒被淘汰的唯一底牌,頂尖工程師的終極歸宿是“代碼審查員”

OpenAI Codex 負(fù)責(zé)人:懂底層是沒被淘汰的唯一底牌,頂尖工程師的終極歸宿是“代碼審查員”

AI科技大本營
2026-03-11 18:19:35
伊朗警察總長:街頭即戰(zhàn)場,抗議者是敵人

伊朗警察總長:街頭即戰(zhàn)場,抗議者是敵人

老馬拉車莫少裝
2026-03-11 07:55:28
謝謝謝娜,貢獻(xiàn)出26年內(nèi)娛的第一個(gè)笑話!

謝謝謝娜,貢獻(xiàn)出26年內(nèi)娛的第一個(gè)笑話!

娛樂圈筆娛君
2026-03-04 14:03:54
董潔承認(rèn)自己任性污蔑潘粵明!14年恩怨終和解,潘粵明回應(yīng)扎心

董潔承認(rèn)自己任性污蔑潘粵明!14年恩怨終和解,潘粵明回應(yīng)扎心

溫讀史
2026-03-10 05:50:41
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個(gè)“硬傷”

她時(shí)尚丫
2026-02-17 22:41:30
美國準(zhǔn)備滅國之戰(zhàn)!以色列真敢丟核彈?外媒:發(fā)現(xiàn)伊朗背后的高人

美國準(zhǔn)備滅國之戰(zhàn)!以色列真敢丟核彈?外媒:發(fā)現(xiàn)伊朗背后的高人

好賢觀史記
2026-03-07 14:47:18
明天起四川盆地迎來降溫降雨

明天起四川盆地迎來降溫降雨

華西都市報(bào)
2026-03-12 02:34:33
還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

還沒焐熱就腰斬,MacBook Neo4599元發(fā)布2429元到手,比買iPad還劃算?

齊魯壹點(diǎn)
2026-03-10 10:38:15
錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

錢再多有什么用?79歲身家525億的特朗普,給全部中老年人提了醒

阿器談史
2026-01-19 19:33:57
已列入國家重要規(guī)劃,陜西這兩條高鐵將開工建設(shè)!

已列入國家重要規(guī)劃,陜西這兩條高鐵將開工建設(shè)!

榮耀西安網(wǎng)
2026-03-11 21:58:11
文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡(luò)熱詞,老外愛上喝開水吃火鍋等中式生活

文旅部部長:7名外國游客到上海旅游,買了40箱中國貨;“成為中國人”成了網(wǎng)絡(luò)熱詞,老外愛上喝開水吃火鍋等中式生活

新民晚報(bào)
2026-03-07 15:00:52
催淚一幕!一伊朗女足球員哥哥:妹妹,留在澳大利亞,千萬別回來

催淚一幕!一伊朗女足球員哥哥:妹妹,留在澳大利亞,千萬別回來

大秦壁虎白話體育
2026-03-11 11:24:27
2026-03-12 07:32:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12267文章數(shù) 176413關(guān)注度
往期回顧 全部

科技要聞

騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

頭條要聞

伊朗實(shí)施“真實(shí)承諾4”第40輪軍事行動 視頻公布

頭條要聞

伊朗實(shí)施“真實(shí)承諾4”第40輪軍事行動 視頻公布

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

蔡少芬曬全家福照,兩女兒成最大亮點(diǎn)

財(cái)經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

親子
房產(chǎn)
家居
手機(jī)
公開課

親子要聞

生娃時(shí)胎兒脖子被臍帶勒住。結(jié)果護(hù)士自己嚇跑,留孕婦獨(dú)自凌亂??幸虧...

房產(chǎn)要聞

最低殺到7800元/㎡!???026第一波房價(jià)大調(diào)整來了!

家居要聞

中式風(fēng)格 人間朝與暮

手機(jī)要聞

第一臺龍蝦手機(jī)來了:小米「養(yǎng)蝦」,意在何處?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版