国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌重磅開源Gemma 4!手機(jī)離線跑 Agent、還降內(nèi)存,Qwen 被拉進(jìn)正面對決

0
分享至


整理 | 褚杏娟

剛剛,谷歌正式發(fā)布 Gemma 4,稱“這是其迄今為止最智能的開放模型系列”。該系列面向復(fù)雜推理與智能體工作流設(shè)計,采用商業(yè)許可的 Apache 2.0 許可證開源。

Gemma 4 提供四種規(guī)格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合專家模型(MoE)和 31B 稠密模型(Dense)。

在端側(cè),E2B 和 E4B 模型針對移動和物聯(lián)網(wǎng)設(shè)備優(yōu)化,推理時分別激活約 20 億和 40 億參數(shù),以降低內(nèi)存和電量消耗。據(jù)介紹,這兩個模型已與谷歌 Pixel 團(tuán)隊、高通和聯(lián)發(fā)科等硬件廠商合作,可在手機(jī)、Raspberry Pi、NVIDIA Jetson Nano 等設(shè)備上離線運(yùn)行,延遲接近零。

與此同時,研究人員表示,26B MoE 模型有一個巧妙之處:在推理任務(wù)中,它只會激活 38 億參數(shù),因此既能保持較高運(yùn)行速度,又不會犧牲大模型所具備的深厚知識儲備。

26B 和 31B 模型提供面向 IDE、編程助手和 Agent 工作流的高級推理能力。模型針對消費(fèi)級 GPU 進(jìn)行了優(yōu)化,讓學(xué)生、研究人員和開發(fā)者能夠把自己的工作站變成以本地優(yōu)先為核心的 AI 服務(wù)器。

谷歌 DeepMind 研究人員 Clement Farabet 和 Olivier Lacombe 表示,在 Gemma 4 上,他們設(shè)法進(jìn)一步壓榨出了更多“單位參數(shù)智能”,讓這些模型能夠顯著實(shí)現(xiàn)“越級發(fā)揮”。例如,31B Dense 版本目前在行業(yè)標(biāo)準(zhǔn)榜單的開源模型中排名第三。

Gemma 4 建立在與 Gemini 3 相同的架構(gòu)基礎(chǔ)之上,旨在處理復(fù)雜推理任務(wù),并支持在工作站、智能手機(jī)等低功耗設(shè)備上本地運(yùn)行的自主 AI Agent。這次關(guān)鍵提升包括:

  • 推理能力更強(qiáng):該系列所有模型都面向復(fù)雜推理任務(wù)進(jìn)行了優(yōu)化,并提供可配置的“思考”模式;

  • 多模態(tài)能力進(jìn)一步擴(kuò)展:所有模型都支持文本和圖像輸入,其中圖像支持可變寬高比和不同分辨率;E2B 和 E4B 還原生支持視頻與音頻輸入;

  • 上下文窗口更大:端側(cè)模型為 128K,較大模型(26B/31B)最高 256K;

  • 編碼與智能體能力增強(qiáng):模型在代碼能力基準(zhǔn)測試中有明顯提升,同時內(nèi)置函數(shù)調(diào)用支持,能夠更好地驅(qū)動自主 Agent 執(zhí)行任務(wù);

  • 原生支持系統(tǒng)提示詞:Gemma 4 內(nèi)置了 system role 支持,讓對話結(jié)構(gòu)更清晰,也更容易控制模型行為。


Farabet 和 Lacombe 解釋稱,每個 Gemma 4 模型都更適合用于運(yùn)行 AI Agent。此前幾代 Gemma 模型往往需要開發(fā)者額外調(diào)整設(shè)計,才能與其他軟件工具交互;而 Gemma 4 已原生支持函數(shù)調(diào)用和結(jié)構(gòu)化 JSON 輸出、原生系統(tǒng)指令以及超過 140 種語言。這意味著,開發(fā)者可以用它們來驅(qū)動自主 Agent,與第三方工具交互,并執(zhí)行多步驟任務(wù)規(guī)劃。


根據(jù) Arena AI 文本排行榜(截至 2026 年 2 月 1 日),31B 模型排名全球開放模型第 3 位,26B MoE 模型排名第 6 位。


谷歌表示,Gemma 4 在部分基準(zhǔn)測試中表現(xiàn)優(yōu)于參數(shù)大 20 倍的模型。


不過,有網(wǎng)友自己測算結(jié)果 Qwen3.5-27B 要略優(yōu)于 Gemma 4 31B。


還有網(wǎng)友評價道,“最讓人眼前一亮的部分在于:一共四種尺寸,全部都為 Agent 場景做好了準(zhǔn)備,而且全都可以在本地運(yùn)行。我們一直都在呼吁,需要那種不用每次‘思考’都把數(shù)據(jù)傳回云端的模型。現(xiàn)在他們終于聽進(jìn)去了,而且給出的東西甚至比預(yù)期還多?!?/p>

開源 + 本地,谷歌擴(kuò)大優(yōu)勢

此次,Gemma 4 繼續(xù)采用 Apache 2.0 許可證,允許商業(yè)使用、自由修改和部署。谷歌稱,這一選擇旨在給予開發(fā)者對數(shù)據(jù)、基礎(chǔ)設(shè)施和模型的完全控制權(quán),支持本地或云端環(huán)境的安全部署。這消除了其他一些 AI 模型在商業(yè)使用上的諸多限制,或會成為企業(yè)應(yīng)用開發(fā)者的理想選擇。

此外,谷歌還詳細(xì)列出了使用各種大小的 Gemma 4 模型版本運(yùn)行推理所需的大致 GPU 或 TPU 內(nèi)存。


Gemma 4 在架構(gòu)設(shè)計上進(jìn)一步兼顧了效率與部署現(xiàn)實(shí)。E2B 和 E4B 中的 “E” 指的是“有效參數(shù)”,這兩款小模型采用了 PLE(每層嵌入)技術(shù),以提升端側(cè)部署時的參數(shù)利用效率。需要注意的是,PLE 雖然不會增加模型層數(shù),但會為每層解碼器中的每個 token 配置獨(dú)立的小型嵌入,因此模型實(shí)際加載到內(nèi)存中的靜態(tài)權(quán)重,往往會高于“有效參數(shù)規(guī)?!北砻嫔蠈?yīng)的占用。

26B 版本采用了混合專家(MoE)架構(gòu),雖然生成時每個 token 實(shí)際只會激活約 40 億參數(shù),但為了保證路由和推理速度,全部 260 億參數(shù)仍需提前載入內(nèi)存,所以它的實(shí)際顯存需求更接近稠密 26B 模型,而不是 4B 模型。

此外,官方給出的內(nèi)存估算通常只覆蓋靜態(tài)模型權(quán)重本身,并不包含運(yùn)行框架、上下文窗口和 KV Cache 帶來的額外顯存開銷;如果進(jìn)一步進(jìn)行微調(diào),顯存需求還會明顯高于推理階段,具體占用則取決于開發(fā)框架、批量大小,以及采用全參數(shù)微調(diào)還是 LoRA 等參數(shù)高效微調(diào)方案。

這次發(fā)布再次凸顯了谷歌想要主導(dǎo)“本地 AI”產(chǎn)業(yè)的雄心。Constellation Research 分析師 Holger Mueller 表示,即便是較大規(guī)模的 Gemma 4,也小到足以在單張圖形處理器上運(yùn)行,因此它們非常適合邊緣場景以及那些對低延遲和數(shù)字主權(quán)有較高要求的應(yīng)用。

他認(rèn)為,“谷歌正在擴(kuò)大自己在 AI 領(lǐng)域的領(lǐng)先優(yōu)勢,不只是依靠 Gemini,也包括通過 Gemma 4 家族這樣的開放模型。這些模型對于構(gòu)建 AI 開發(fā)者生態(tài)非常重要,也將幫助公司切入不同設(shè)備形態(tài)下的功能型和垂直行業(yè)應(yīng)用場景。谷歌在此前發(fā)布 Gemma 3 時已經(jīng)樹立了很高的門檻,因此這次發(fā)布也承載了很多期待?!?/p>

現(xiàn)在,開發(fā)者可以通過谷歌云直接訪問這些模型,也可以在 Hugging Face、Kaggle 和 Ollama 上獲取模型及其開放權(quán)重。Android 開發(fā)者可在 AICore Developer Preview 中試用智能體工作流原型。

此外,谷歌提供了多種推理和微調(diào)路徑,包括:Hugging Face、LiteRT-LM、vLLM、llama.cpp、MLX、Ollama、NVIDIA NIM 和 NeMo、LM Studio、Unsloth、SGLang、Cactus、Docker、MaxText、Tunix、Keras。云上部署支持 Vertex AI、Cloud Run、GKE、Sovereign Cloud 及 TPU 加速服務(wù)。

Gemma 4 開箱支持 NVIDIA(從 Jetson Nano 到 Blackwell GPU)、AMD GPU(通過開源 ROCm? 棧)以及 Google Cloud TPU。谷歌方面稱,新模型采用與谷歌專有模型相同等級的基礎(chǔ)設(shè)施安全協(xié)議,適用于企業(yè)和主權(quán)機(jī)構(gòu)的高標(biāo)準(zhǔn)安全與可靠性要求。

https://deepmind.google/models/gemma/gemma-4/-and-e4b

聲明:本文為 AI 前線整理,不代表平臺觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會議推薦

QCon 全球軟件開發(fā)大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節(jié)跳動、小米、百度等一線科技企業(yè)與創(chuàng)新團(tuán)隊的技術(shù)專家,圍繞 AI 工程化、系統(tǒng)架構(gòu)與研發(fā)模式演進(jìn)展開深入探討。更多詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 18514549229 進(jìn)行咨詢。

今日薦文

你也「在看」嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
93年我?guī)碗x婚鄰居收玉米,不小心碰到她胸口她紅著眼問彩禮給多少

93年我?guī)碗x婚鄰居收玉米,不小心碰到她胸口她紅著眼問彩禮給多少

那年秋天
2026-05-06 18:30:05
這妹子眼神太純欲了,打戲也很投入!

這妹子眼神太純欲了,打戲也很投入!

貴圈真亂
2026-05-07 12:34:08
一臺游戲機(jī)賣了37年,巴西人還在買

一臺游戲機(jī)賣了37年,巴西人還在買

像素與芯片
2026-05-05 21:43:09
東體:內(nèi)地媒體遲遲無法辦理世界杯簽證,體育版權(quán)定價應(yīng)回歸理性

東體:內(nèi)地媒體遲遲無法辦理世界杯簽證,體育版權(quán)定價應(yīng)回歸理性

懂球帝
2026-05-07 11:16:09
烏克蘭外長:普京關(guān)心的是閱兵,而不是人的生命;澤連斯基要報仇

烏克蘭外長:普京關(guān)心的是閱兵,而不是人的生命;澤連斯基要報仇

不要把蜜語說給側(cè)耳聽
2026-05-07 09:24:23
31歲中乙中場停賽7個月罰6萬 暴力染紅后威脅+推裁判 踹壞廣告板

31歲中乙中場停賽7個月罰6萬 暴力染紅后威脅+推裁判 踹壞廣告板

風(fēng)過鄉(xiāng)
2026-05-07 12:12:48
深圳24小時“食物銀行”火了!面包牛奶免費(fèi)領(lǐng),惠及人口幾十萬

深圳24小時“食物銀行”火了!面包牛奶免費(fèi)領(lǐng),惠及人口幾十萬

青眼財經(jīng)
2026-05-06 20:27:23
俄羅斯是真眼饞!中國大量東風(fēng)導(dǎo)彈將要退役,可以出口換外匯嗎?

俄羅斯是真眼饞!中國大量東風(fēng)導(dǎo)彈將要退役,可以出口換外匯嗎?

潮鹿逐夢
2026-05-06 16:44:26
大反轉(zhuǎn)!我國學(xué)者顛覆性發(fā)現(xiàn):補(bǔ)充Omega-3或損害大腦突觸功能,加速認(rèn)知衰退

大反轉(zhuǎn)!我國學(xué)者顛覆性發(fā)現(xiàn):補(bǔ)充Omega-3或損害大腦突觸功能,加速認(rèn)知衰退

醫(yī)諾維
2026-05-06 17:13:29
哈里梅根美國豪宅4億成交,"商業(yè)帝國"崩塌,褪去王室光環(huán)顯窘迫

哈里梅根美國豪宅4億成交,"商業(yè)帝國"崩塌,褪去王室光環(huán)顯窘迫

譯言
2026-05-07 08:34:31
東契奇?zhèn)笫状谓邮懿稍L:最初告訴我需要8周康復(fù)

東契奇?zhèn)笫状谓邮懿稍L:最初告訴我需要8周康復(fù)

體壇周報
2026-05-07 07:54:36
看這眼神和姿勢,下一步就應(yīng)是………

看這眼神和姿勢,下一步就應(yīng)是………

飛娛日記
2026-04-28 08:25:31
為什么準(zhǔn)噶爾蒙古選擇向東和清朝火拼,而沒有考慮西征西亞?

為什么準(zhǔn)噶爾蒙古選擇向東和清朝火拼,而沒有考慮西征西亞?

小豫講故事
2026-05-07 06:00:14
學(xué)生時代的王楚然,純欲天花板本人。原來?;ㄕ媸菑男∶赖酱蟮?

學(xué)生時代的王楚然,純欲天花板本人。原來?;ㄕ媸菑男∶赖酱蟮?

科學(xué)發(fā)掘
2026-05-05 20:07:45
堅守油車的理由是啥?網(wǎng)友分享太真實(shí)了,但很多人不買賬!

堅守油車的理由是啥?網(wǎng)友分享太真實(shí)了,但很多人不買賬!

夜深愛雜談
2026-05-06 20:49:01
返回臺島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

返回臺島后,賴清德說了3句話,洪秀柱預(yù)判成真,大陸擲地有聲

說歷史的老牢
2026-05-06 09:59:45
五一行李箱墻刷屏全網(wǎng)!多地暖心接棒,“中國式”安全感火出圈

五一行李箱墻刷屏全網(wǎng)!多地暖心接棒,“中國式”安全感火出圈

孤酒老巷QA
2026-05-05 17:41:40
江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

江蘇跨江大橋命名暗戰(zhàn),誰在掌握絕對話語權(quán)?

觀察眼看世界
2026-05-07 11:02:46
華為員工家屬:失業(yè)靠老公養(yǎng)。每月給我2萬元,含房貸7000多元

華為員工家屬:失業(yè)靠老公養(yǎng)。每月給我2萬元,含房貸7000多元

螞蟻大喇叭
2026-05-06 16:50:28
赫格塞思表示盡管有沖突,但美伊停火“沒結(jié)束”

赫格塞思表示盡管有沖突,但美伊停火“沒結(jié)束”

參考消息
2026-05-06 11:46:14
2026-05-07 13:08:49
AI前線 incentive-icons
AI前線
面向AI愛好者、開發(fā)者和科學(xué)家,提供AI領(lǐng)域技術(shù)資訊。
1476文章數(shù) 149關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學(xué)生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰(zhàn)

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業(yè)照

財經(jīng)要聞

特朗普:美伊“很有可能”達(dá)成協(xié)議

汽車要聞

理想為什么不做轎車,有了解釋……

態(tài)度原創(chuàng)

本地
親子
旅游
藝術(shù)
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

親子要聞

大家好呀,我是優(yōu)奈!四個月啦

旅游要聞

“五一”假期盤點(diǎn):文旅消費(fèi)亮點(diǎn)紛呈

藝術(shù)要聞

這位老教授筆下的青年,活力滿滿

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版