国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構(gòu)

0
分享至

編輯|冷貓

最近,或許是年底了,谷歌的發(fā)布變得有些密集。比如昨天,谷歌發(fā)布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash。



在 Gemini 3 Flash 發(fā)布后,大家都以為谷歌今年的模型發(fā)布已經(jīng)收官的時候,谷歌卻又掏出了一個讓大家都意想不到的模型更新:T5Gemma 2

T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月,谷歌第一次發(fā)布了 T5Gemma 模型系列,并且一口氣發(fā)布了 32 個模型。

從模型名稱可以看出,T5Gemma 系列模型與 T5 息息相關(guān)。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架,「編解碼器大模型」的思想源頭,幾乎都能追溯到 T5。

T5Gemma 使用了「適應(yīng)(adaptation)」技術(shù)將已經(jīng)完成預(yù)訓(xùn)練的僅解碼器模型轉(zhuǎn)換為編碼器 - 解碼器架構(gòu)。

但遺憾的是,「編碼器 - 解碼器架構(gòu)」始終沒有成為大模型世界的主流,在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運。

谷歌是為數(shù)不多仍在堅持編碼器 - 解碼器架構(gòu)大模型的玩家。

今年上半年,谷歌發(fā)布了開放模型 Gemma 3 系列,性能強大,反響熱烈,衍生出許多基于 Gemma 3 系列模型的優(yōu)秀工作。這次更新的 T5Gemma 2 模型正是其中之一。



簡而言之:T5Gemma 2,是谷歌新一代編碼器 - 解碼器模型,是首個多模態(tài)和長上下文的編碼器 - 解碼器模型,建立在 Gemma 3 的強大功能之上。

主要創(chuàng)新和升級功能包括:

  • 支持多模態(tài)
  • 擴(kuò)展長上下文
  • 開箱即用,支持 140 多種語言
  • 效率提升的架構(gòu)創(chuàng)新

同時,谷歌向社區(qū)發(fā)布了 270M–270M、1B–1B 以及 4B–4B 三種規(guī)模的預(yù)訓(xùn)練模型,是社區(qū)中首個支持超長上下文(最高 128K)的高性能編解碼器大語言模型



  • 論文鏈接: https://arxiv.org/abs/2512.14856
  • HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
  • 博客鏈接: https://blog.google/technology/developers/t5gemma-2

T5Gemma 2 延續(xù)了 T5Gemma 的「適應(yīng)(adaptation)」訓(xùn)練路線:將一個預(yù)訓(xùn)練的純解碼器模型適配為編解碼器模型;同時,底座采用 Gemma 3 模型,通過結(jié)合 Gemma 3 中的關(guān)鍵創(chuàng)新,將這一技術(shù)擴(kuò)展到了視覺 - 語言模型領(lǐng)域。

新架構(gòu),新能力

高效的架構(gòu)創(chuàng)新

T5Gemma 2 不僅僅是一次再訓(xùn)練。它在繼承 Gemma 3 系列許多強大特性的同時,還進(jìn)行了重要的架構(gòu)變更:

1. 詞嵌入綁定

在編碼器與解碼器之間 共享詞嵌入?yún)?shù)。這一設(shè)計顯著降低了模型的總體參數(shù)量,使我們能夠在相同的顯存 / 內(nèi)存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關(guān)鍵。

2. 合并注意力

在解碼器中,我們采用了合并注意力機(jī)制,將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統(tǒng)一的注意力層。這一做法減少了模型參數(shù)和架構(gòu)復(fù)雜度,提升了模型并行化效率,同時也有利于推理性能的提升。

新一代模型能力

得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上實現(xiàn)了顯著升級:

1. 多模態(tài)能力

T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器,模型可以自然地完成視覺問答和多模態(tài)推理等任務(wù)。

2. 超長上下文

我們對上下文窗口進(jìn)行了大幅擴(kuò)展。借助 Gemma 3 的局部 — 全局交替注意力機(jī)制(alternating local and global attention),T5Gemma 2 能夠支持最長達(dá) 128K token 的上下文輸入。

3. 大規(guī)模多語言支持

通過在規(guī)模更大、更加多樣化的數(shù)據(jù)集上進(jìn)行訓(xùn)練,T5Gemma 2 開箱即用即可支持 140 多種語言。

性能結(jié)果

T5Gemma 2 為緊湊型編碼器 - 解碼器模型設(shè)定了新的標(biāo)準(zhǔn),在關(guān)鍵能力領(lǐng)域表現(xiàn)出色,繼承了 Gemma 3 架構(gòu)強大的多模態(tài)和長上下文特性。



Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預(yù)訓(xùn)練性能。

如上圖所示,T5Gemma 2 展現(xiàn)出以下突出優(yōu)勢:

  • 強大的多模態(tài)性能:在多個基準(zhǔn)測試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎(chǔ)模型(270M 與 1B) 成功適配為 高效的多模態(tài)編解碼器模型。
  • 卓越的長上下文能力:相較于 Gemma 3 和 T5Gemma,在生成質(zhì)量上取得了顯著提升。通過引入獨立的編碼器,T5Gemma 2 在處理長上下文問題時表現(xiàn)更佳。
  • 全面提升的通用能力:在 代碼、推理和多語言 等任務(wù)上,T5Gemma 2 整體上均優(yōu)于其對應(yīng)規(guī)模的 Gemma 3 模型。



訓(xùn)練后性能。這里的結(jié)果僅用于說明,研究團(tuán)隊對 T5Gemma 2 進(jìn)行了最小的 SFT,未使用 RL。另外請注意,預(yù)訓(xùn)練和訓(xùn)練后基準(zhǔn)是不同的,因此不同圖表中的分?jǐn)?shù)不可比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)預(yù)訓(xùn)練結(jié)果。需要注意的是,Gemma 3 的 270M 與 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標(biāo)記的結(jié)果為近似值,無法在不同論文之間直接比較。



Gemma 3、T5Gemma 與 T5Gemma 2 的詳細(xì)后訓(xùn)練結(jié)果。盡管 T5Gemma 2 的后訓(xùn)練過程相對輕量化,但其在大多數(shù)能力維度上仍然優(yōu)于 Gemma 3。

實驗結(jié)果表明,該適配策略在不同模型架構(gòu)與不同模態(tài)上都具有良好的通用性,同時也驗證了編解碼器架構(gòu)在長上下文建模方面的獨特優(yōu)勢。與 T5Gemma 類似,T5Gemma 2 在預(yù)訓(xùn)練階段的性能可達(dá)到或超過其 Gemma 3 對應(yīng)模型,而在后訓(xùn)練階段則取得了顯著更優(yōu)的表現(xiàn)

我們能看到,編碼器 - 解碼器架構(gòu)下的大模型并不弱于僅解碼器架構(gòu)的模型,甚至具備自己獨特的優(yōu)勢。

谷歌繼續(xù)堅持的編碼器 - 解碼器架構(gòu),能否打破被邊緣化的現(xiàn)狀,讓我們拭目以待。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國內(nèi)退休群體現(xiàn)狀被揭示:大部分退休人員,或?qū)⒚媾R2大的難題

國內(nèi)退休群體現(xiàn)狀被揭示:大部分退休人員,或?qū)⒚媾R2大的難題

陳博世財經(jīng)
2025-12-19 10:11:44
杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機(jī)麻煩了

杭州剛提新車就撞人后續(xù):疑似被撞銷售不幸身亡,涉事司機(jī)麻煩了

漢史趣聞
2025-12-18 11:38:12
最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

91.6陜西交通廣播
2025-12-19 15:41:44
劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人啊!

劉亦菲在家玩自拍!不料被鏡子“出賣”了,網(wǎng)友直呼:好女人啊!

小欣欣聊體育
2025-12-18 20:44:37
小鵬汽車法務(wù)部:已報案

小鵬汽車法務(wù)部:已報案

每日經(jīng)濟(jì)新聞
2025-12-18 14:52:26
你的辦公搭子,要漲價了

你的辦公搭子,要漲價了

中國新聞周刊
2025-12-19 13:33:38
國足出線難了!FIFA也幫不了,3大舉辦國反對2030世界杯擴(kuò)軍64隊

國足出線難了!FIFA也幫不了,3大舉辦國反對2030世界杯擴(kuò)軍64隊

侃球熊弟
2025-12-19 12:24:08
TikTok美國方案簽約,字節(jié)跳動繼續(xù)擁有TikTok算法知識產(chǎn)權(quán)

TikTok美國方案簽約,字節(jié)跳動繼續(xù)擁有TikTok算法知識產(chǎn)權(quán)

第一財經(jīng)資訊
2025-12-19 07:50:10
海南封關(guān)首日iPhone最高可減2140元 免稅店排長隊搶購

海南封關(guān)首日iPhone最高可減2140元 免稅店排長隊搶購

手機(jī)中國
2025-12-18 17:09:58
性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

性能力與壽命關(guān)系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風(fēng)險越低

藥師說健康
2025-12-05 09:47:10
那個詛咒人類半個世紀(jì)的“50年魔咒”,真的開始松動了

那個詛咒人類半個世紀(jì)的“50年魔咒”,真的開始松動了

科學(xué)聲音
2025-12-18 20:06:30
美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

美國底層女性垃圾白人曝光:社工直接給工具,就是讓他們吸死拉倒

忠于法紀(jì)
2025-12-18 20:14:00
曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生,曹云金的話,有人信了

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生,曹云金的話,有人信了

科學(xué)發(fā)掘
2025-12-19 10:27:00
單扛強突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

單扛強突+MVP!22歲中鋒帶隊進(jìn)決賽:離開曼聯(lián)半年12球3助

葉青足球世界
2025-12-19 08:29:19
2票之差,特朗普拿下對委內(nèi)瑞拉開戰(zhàn)權(quán),中方通告全球,表明立場

2票之差,特朗普拿下對委內(nèi)瑞拉開戰(zhàn)權(quán),中方通告全球,表明立場

時時有聊
2025-12-18 17:07:40
CBA最新消息!曝上海將裁掉弗格,沈梓捷受傷或賽季報銷

CBA最新消息!曝上海將裁掉弗格,沈梓捷受傷或賽季報銷

郝小小看體育
2025-12-19 11:29:04
國產(chǎn)奔馳GLE要來了!前臉大改,軸距加長,能比寶馬X5更好賣?

國產(chǎn)奔馳GLE要來了!前臉大改,軸距加長,能比寶馬X5更好賣?

優(yōu)視汽車
2025-12-19 14:08:02
剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

剛從沐曦爆賺200億的葛衛(wèi)東又出手了!

商業(yè)與生活
2025-12-19 11:43:38
北京下周還有雪!今天空氣質(zhì)量將好轉(zhuǎn)——

北京下周還有雪!今天空氣質(zhì)量將好轉(zhuǎn)——

BRTV新聞
2025-12-19 12:57:41
曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

曝阿莫林下賽季不再執(zhí)教曼聯(lián),兩人成替代候選!拉爵三年承諾無用

羅米的曼聯(lián)博客
2025-12-19 07:30:10
2025-12-19 16:52:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142513關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

頭條要聞

美批準(zhǔn)對臺逾111億美元軍售 國防部回應(yīng)

體育要聞

“惡龍”埃托奧,正在毀滅喀麥隆足球

娛樂要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

家居
房產(chǎn)
教育
親子
藝術(shù)

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

教育要聞

中考數(shù)學(xué)壓軸題,不少人交白卷,很難嗎?

親子要聞

金寶貝獲“2025年度綜合實力兒童教育品牌”引領(lǐng)科學(xué)早教創(chuàng)新實踐

藝術(shù)要聞

諸樂三的寫意花鳥

無障礙瀏覽 進(jìn)入關(guān)懷版