国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

谷歌黑魔法,沒人能看懂的Gemini 3 Flash

0
分享至


新智元報道

編輯:定慧

【新智元導讀】參數(shù)越小,智商越高?Gemini 3 Flash用百萬級長上下文、白菜價成本,把自家大哥Pro按在地上摩擦。谷歌到底掏出了什么黑魔法,讓整個大模型圈開始懷疑人生?

Gemini 3 Flash發(fā)布已經(jīng)有段時間了,速度快3倍的同時智力反超Pro。

但是目前依然沒人能夠說明白:為啥Flash能比Pro還要「聰明」。


為何一個在參數(shù)規(guī)模上顯著縮減的模型,能夠在更大規(guī)模的模型擅長的領域實現(xiàn)超越?


長期以來,業(yè)界奉行著「參數(shù)即正義」的信條,認為更大的模型(更多的參數(shù)量)必然帶來更強的智能表現(xiàn)。

然而,Gemini 3 Flash的出現(xiàn)打破了這一線性邏輯,它不僅在成本和速度上保持了「Flash」系列的輕量級特征,更在多項關鍵基準測試中,尤其是涉及復雜推理和超長上下文的任務上,擊敗了前一代甚至當代的「Pro」級模型。


而且最近有人發(fā)現(xiàn),在長下文測試中,Gemini 3 Flash更是遙遙領先!

在OpenAI的MRCR基準測試中,Gemini 3 Flash在100萬上下文長度下達到了90%的準確率!


這一表現(xiàn)在所有模型中均屬最先進水平,大多數(shù)頂尖模型甚至無法突破256k的上下文長度。


那么谷歌到底用了什么黑魔法?

Gemini 3 Flash憑什么在百萬長文本與低成本間實現(xiàn)「降維打擊」?

知名AI研究員@bycloudai在深入評測后指出,谷歌可能在模型架構研究上已處于「遙遙領先」的隱形地位。

這一表現(xiàn)打破了行業(yè)常規(guī)認知:它既沒有像標準注意力機制那樣產(chǎn)生高昂算力成本,也沒有像常見的線性注意力或SSM混合模型那樣導致知識推理能力下降。

Gemini 3 Flash似乎掌握了某種未知的「高效注意力機制」,令外界對其背后的技術原理直呼「看不懂」但大受震撼。


再挖掘Gemini 3 Flash的黑魔法錢,有必要先介紹一下這個評測標準。

在2023年至2024年間,評估大語言模型長上下文能力的主流方法是「大海撈針」(Needle In A Haystack,NIAH)。

該測試將一個特定的事實(針)插入到長篇文檔(大海)的隨機位置,要求模型將其檢索出來。

然而,隨著模型上下文窗口擴展至128k甚至1M token,NIAH測試迅速飽和。

Gemini 1.5 Pro、GPT-4 Turbo等早期模型在該測試中均能達到近乎100%的準確率。

NIAH本質上測試的是檢索能力而非推理能力。

它要求模型找到信息,但不要求模型理解信息之間的復雜依賴關系。

這導致了一種錯覺:似乎所有模型都完美掌握了長上下文。

但在實際的企業(yè)級應用(如法律文檔分析、代碼庫理解)中,用戶不僅需要模型找到「條款A」,還需要模型理解「條款A」與「條款B」在特定條件下的沖突,這種高階能力是NIAH無法覆蓋的。

正是在這種背景下,Context Arena應運而生。


這是一個由獨立研究者(如Dillon Uzar等人)維護的、專注于長上下文理解能力評估的基準平臺。

Context Arena不僅僅是一個排行榜,它是一個針對大模型「注意力缺陷」的診斷工具看,衡量模型「智商」和長程記憶穩(wěn)定性的試煉場。

Context Arena最具殺傷力的武器是MRCR(Multi-Round Co-Reference Resolution)基準測試。

OpenAI受到Gemini的啟發(fā),也搞了一個OpenAI-MRCR,就是一開始上面所說的評測基準。


這是一個設計精巧的壓力測試,旨在擊穿那些使用近似注意力機制(如線性注意力或稀疏注意力)的模型的防線。

測試機制是這樣的,MRCR會生成一段極長的、多輪次的合成對話或文本。

在這些文本中,系統(tǒng)會植入多個高度相似的「針」(Needles)。

例如,文本中可能包含8首關于「貘」(tapir)的詩,每首詩的風格略有不同但主題一致。

挑戰(zhàn)點在于系統(tǒng)會向模型提出極其刁鉆的指令,如:「請復述關于貘的第二首詩」或「找出第四次提到貘時的具體描述」。

在Context Arena的MRCR榜單上,Gemini 3 Flash展現(xiàn)出了驚人的統(tǒng)治力。


這直接證明了Gemini 3 Flash并未為了速度而犧牲核心的「注意力精度」。

猜猜谷歌用了什么技術

我們來對比一下常見的注意力機制。

標準注意力是指數(shù)級的,所以誕生了一種新技術叫做線性注意力。



另外一種還有稀疏注意力。

稀疏注意力保留了標準注意力的高精度,但通過只計算「重要」的部分來降低計算量。

比如,DeepSeek的DSA(DeepSeek SparseAttention)。


DeepSeek認為,對于任何一個查詢,絕大多數(shù)歷史信息都是無關的。因此,沒必要計算全量的注意力。

DSA使用一種啟發(fā)式算法(如Lightning Indexer),快速篩選出最相關的Top-K個 token或塊(Block),只對這些部分進行精細計算。

此外還有一些混合架構,比如Gemini的策略。

雖然谷歌未公開細節(jié),但業(yè)界推測Gemini 3 Flash也是一種高度復雜的混合架構,可能在底層使用Infini-attention處理超長歷史,在頂層使用標準注意力進行邏輯推理,并結合MoE(混合專家模型)來進一步降低計算成本。

總結來說,谷歌之所以能讓Gemini 3 Flash實現(xiàn)「輕量級打Pro」,并非依賴單一的黑科技,而是基于TPU硬件、算法架構、訓練數(shù)據(jù)三位一體的深度優(yōu)化:

  • 數(shù)據(jù)層面(Data):利用Gemini 3 Pro進行大規(guī)模的思維鏈蒸餾,將高階推理能力「壓縮」進Flash模型,使其具備了超越參數(shù)規(guī)模的「智商」。

  • 計算層面(Compute):引入Thinking(思考)機制,允許模型在推理時動態(tài)分配計算資源。對于難題,F(xiàn)lash模型會像人一樣「停下來想一想」,這種時間維度上的算力投入彌補了空間維度(參數(shù)量)的不足。

  • 記憶層面(Memory):部署Infini-attentionTitans風格的記憶模塊,將指數(shù)級的注意力成本降維,實現(xiàn)了在1M+上下文中依然保持高精度的檢索能力,徹底解決了長上下文帶來的問題。


Gemini 3 Flash的核心戰(zhàn)略意義

「Flash」一詞在谷歌的產(chǎn)品線中歷史悠久,從Gemini 1.5 Flash開始,它就被定位為高吞吐量、低延遲的工具,主要用于簡單任務的快速處理。

這種定位在用戶心中植入了一個根深蒂固的假設:Flash模型是Pro模型的蒸餾版本。

在傳統(tǒng)的模型壓縮理論中,蒸餾意味著學生模型只能逼近但永遠無法超越教師模型的表現(xiàn)。

因此,當Gemini 3 Flash發(fā)布時,絕大多數(shù)分析師和開發(fā)者將其視為一個更便宜的API端點,而非一個推理引擎的革新。

然而,上面的數(shù)據(jù)告訴我們,Gemini 3 Flash正在講述一個完全不同的故事。

這種「輕量級反而更強」的現(xiàn)象,不能簡單地用更精細的數(shù)據(jù)清洗或更長的訓練時間來解釋。

它暗示了底層架構的根本性變化——一種不再單純依賴參數(shù)規(guī)模堆疊,而是依賴于更高效的信息路由與記憶機制的新型架構。

Gemini 3 Flash的核心戰(zhàn)略意義在于它打破了AI經(jīng)濟學中的線性增長法則。

在過去,要獲得10%的智能提升,通常需要10倍的算力投入。

但Gemini 3 Flash以$0.50/1M輸入 token的極低價格,提供了GPQA Diamond基準測試中90.4%的博士級推理能力。

這意味著谷歌不僅僅是在打價格戰(zhàn),而是在進行一場架構層面的降維打擊。

當一個模型的推理成本低到可以忽略不計,且其長上下文召回能力達到完美(>99%)時,它就不再僅僅是一個聊天機器人,而是一個可以吞噬整個企業(yè)知識庫、實時重構代碼庫、并自主進行多輪迭代的「智能代理」(Agent)。

是的,如果一個模型足夠的輕量、又能夠記住足夠的東西、關鍵是又很便宜,那其他「智能體」還怎么生存?

這種能力的解鎖,使得Gemini 3 Flash成為了當前AI智能體爆發(fā)的關鍵推手。

在Pokémon游戲通關測試和SWE-bench代碼修復任務中,F(xiàn)lash模型的表現(xiàn)之所以能超越Pro模型,正是因為其低延遲和低成本允許代理在單位時間內(nèi)進行更多的「思考-行動-反思」循環(huán)。

這種通過高頻迭代來彌補單次推理深度不足(甚至在很多時候單次推理并不弱)的策略,正是當前AI進化的主要趨勢。

谷歌的終極武器:Titans架構與神經(jīng)長時記憶

結合Gemini 3 Flash在Context Arena的MRCR基準測試中100萬上下文90%準確率的驚人表現(xiàn),以及其低廉的推理成本,最合理的推測是:

Gemini 3 Flash大規(guī)模應用了谷歌DeepMind最新的「Titans」架構或其變體。


根據(jù)谷歌發(fā)表的Titans論文,這是一種結合了Transformer和神經(jīng)記憶的新型架構。

這些框架讓AI模型能夠更快地工作,并通過更新核心內(nèi)存在運行時處理大規(guī)模上下文。


Titans包含三個部分:

  • 核心(Core,短期記憶,通常是滑動窗口注意力)

  • 長期記憶(Long-term Memory)

  • 持久記憶(PersistentMemory)。

與傳統(tǒng)的RNN(存儲固定狀態(tài)向量)不同,Titans的長期記憶是一個深度神經(jīng)網(wǎng)絡(MLP)

當模型處理輸入時,它不僅僅是把信息存入緩存,而是通過梯度下降實時更新這個MLP的權重。

模型在推理階段(TestTime)實際上是在「學習」當前的上下文。

它利用一個「驚奇度」(Surprise Metric)指標來衡量新信息的重要性。

如果一段信息(比如用戶指定的隨機哈希碼)出乎模型的預料(High Surprise),模型就會通過梯度更新將其刻入長期記憶網(wǎng)絡中。

為什么Titans完美解釋了Gemini 3 Flash的表現(xiàn)?


  1. 無限上下文與線性復雜度:

    Titans的MAC(Memory as Context)變體允許將歷史信息壓縮進神經(jīng)網(wǎng)絡權重,而非無限增長的KVCache。這解釋了為什么Flash能以極低的內(nèi)存占用處理百萬級 token,且速度極快(線性推理)。

  2. MRCR的高分:

    在MRCR測試中,模型需要記住非常具體的細節(jié)(Needles)。在Titans架構下,這些獨特的、重復出現(xiàn)的「Needles」會產(chǎn)生高驚奇度信號,從而被優(yōu)先「學習」進記憶模塊,而大量的干擾文本則會被遺忘門過濾。這比基于相似度檢索的傳統(tǒng)注意力機制更能抵抗噪聲。

  3. 自適應能力:

    用戶反饋稱Gemini 3 Flash似乎能「學會」用戶的糾正。這正是Titans「測試時學習」特性的體現(xiàn)——模型在對話過程中動態(tài)調整了參數(shù)。


在這兩篇新論文《Titans》和《MIRAS》中,谷歌提出了一種架構和理論藍圖,結合了RNN的速度與變換器精度。

Titans是具體的架構(工具),MIRAS是理論框架(藍圖),用于推廣這些方法。

它們共同推動了測試時間記憶的概念,即AI模型通過在模型運行時加入更強大的「驚喜」指標(即意外信息片段)來維持長期記憶的能力,無需專門的離線再訓練。


一個有效的學習系統(tǒng)需要不同但相互關聯(lián)的記憶模塊,這反映了人腦對短期記憶和長期記憶的分離。

雖然注意力機制在精確短期記憶方面表現(xiàn)出色,Titans引入了一種新型神經(jīng)長期記憶模塊,它不同于傳統(tǒng)RNN中的固定大小向量或矩陣記憶,它充當深度神經(jīng)網(wǎng)絡。

該內(nèi)存模塊提供了顯著更高的表達能力,使模型能夠在不丟失重要上下文的情況下總結大量信息。模型不僅僅是做筆記,而是理解并綜合整個故事。

關鍵是,泰坦不僅僅是被動存儲數(shù)據(jù)。

它主動學習如何識別并保留連接整個輸入中Token的重要關系和概念主題。這項能力的一個關鍵方面是我們所說的「驚喜指標」。

在人類心理學中,我們知道我們會很快且容易地忘記例行公事、預期中的事件,但會記住打破常規(guī)的事情——意外、驚喜或情緒激動的事件。


在《泰坦》的語境中,「驚訝指標」指的是模型檢測到當前記憶與新輸入信息之間的巨大差異。

  • 低驚訝:如果新詞是「cat」,且模型的記憶狀態(tài)已經(jīng)預期動物詞,則梯度(驚訝)較低。它可以安全地跳過長期永久狀態(tài)下的「貓」這個詞。

  • 高驚喜:如果模型的記憶狀態(tài)正在總結一份嚴肅的財務報告,而新輸入是一張香蕉皮的圖片(意外事件),那么梯度(驚喜)會非常高。這表明新輸入重要或異常,必須優(yōu)先存儲在長期記憶模塊中。

該模型將這個內(nèi)部誤差信號(梯度)當作數(shù)學上的等價物,比如說:「這是意外且重要!」這使得泰坦架構能夠選擇性地更新其長期記憶,只包含最新穎且破壞上下文的信息,從而保持整體流程的快速和高效。

泰坦通過整合兩個關鍵要素來完善這一機制:


  1. 動量:模型同時考慮「瞬間驚訝」(當前輸入)和「過去驚訝」(近期上下文流)。這確保了后續(xù)相關信息也能被捕獲,即使這些Token本身并不令人意外。

  2. 遺忘(權重衰減):為了在處理極長序列時管理記憶有限容量,泰坦采用自適應權重衰減機制。這起到遺忘門的作用,允許模型丟棄不再需要的信息。

MIRAS:序列建模的統(tǒng)一視角

序列建模的每一項重大突破,從現(xiàn)代變換器到新的閃電高速線性RNN,本質上都是同一件事:一個高度復雜的聯(lián)想記憶模塊

因此,MIRAS獨特且實用的,在于它對AI建模的看法。它不再看到多樣化的架構,而是看到解決同一問題的不同方法:高效地將新信息與舊記憶結合,同時不遺忘核心概念。

MIRAS通過四個關鍵設計選擇定義了序列模型:

  • 內(nèi)存架構:存儲信息的結構(例如,矢量、矩陣或深度多層感知器,如泰坦中的結構)。

  • 注意力偏見:模型優(yōu)化的內(nèi)部學習目標,決定了其優(yōu)先考慮的內(nèi)容。

  • 保留門:內(nèi)存規(guī)范器。MIRAS將「遺忘機制」重新解釋為一種特定的正則化形式,平衡新學習與保留過去知識。

  • 內(nèi)存算法:用于更新內(nèi)存的優(yōu)化算法。


這些新架構最顯著的優(yōu)勢是能夠處理極長的上下文。

這一點在BABILong基準測試中得到了體現(xiàn),該任務需要在極長的文檔中對事實進行推理。

在這一充滿挑戰(zhàn)的環(huán)境中,Titans的表現(xiàn)優(yōu)于所有基線,包括像GPT-4這樣極其龐大的模型,盡管參數(shù)遠少于GPT-4。

Titans進一步展示了能夠有效擴展到超過200萬個令牌的上下文窗口。


Titans和MIRAS框架的引入標志著序列建模的重大進展。

通過將深度神經(jīng)網(wǎng)絡作為記憶模塊,在數(shù)據(jù)流入時學習記憶,這些方法克服了固定大小的循環(huán)狀態(tài)的局限。

此外,MIRAS提供了強大的理論統(tǒng)一,揭示了在線優(yōu)化、聯(lián)想記憶與架構設計之間的聯(lián)系。

這項研究為新一代序列模型打開了大門,這些模型結合了RNN的高效與長上下文人工智能時代所需的表達能力。

彩蛋

分別向Gemini和GPT詢問了Gemini 3 Pro和Flash的參數(shù)大小。

Gemini 3 Flash的回答:

基于截至2025年12月的最新行業(yè)信息和技術分析,官方并未公開Gemini 3 Pro和Gemini 3 Flash的確切模型參數(shù)大小。這是谷歌自 Gemini 1.0以來的一貫策略,主要為了保護架構機密。

不過,根據(jù)技術白皮書的推斷、行業(yè)泄露信息以及對其性能(Token 生成速度和顯存占用)的逆向分析,目前的主流估算(數(shù)量級)如下


GPT 5.2的回答:


總之,Pro和Flash這兩模型的參數(shù)數(shù)量級差了將近5~10倍(估算)。因此,F(xiàn)lash的使用體驗遠超預期,才會引起社區(qū)廣泛的討論。

參考資料:

https://research.google/blog/titans-miras-helping-ai-have-long-term-memory/

https://x.com/bycloudai/status/2002347892535930934

秒追ASI

?點贊、轉發(fā)、在看一鍵三連?

點亮星標,鎖定新智元極速推送!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

我替首長擋了5槍,他連電話都沒打,我退伍后,剛到火車站就被人攔住

張道陵秘話
2025-12-17 10:20:09
快手深夜“涉黃”直播:200多個安全專家扛了半小時,還是沒守住

快手深夜“涉黃”直播:200多個安全專家扛了半小時,還是沒守住

大白聊IT
2025-12-23 09:59:50
這個說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

這個說法很火:中日若開戰(zhàn),除俄羅斯外,全世界各國都會暗自叫好

百態(tài)人間
2025-12-23 16:38:00
為漲薪給領導發(fā)紅包,反被開除!到底冤不冤?

為漲薪給領導發(fā)紅包,反被開除!到底冤不冤?

環(huán)球網(wǎng)資訊
2025-12-24 19:44:08
曾經(jīng)他們硬氣的拒絕了中國,如今好懷念他們當初桀驁不馴的樣子!

曾經(jīng)他們硬氣的拒絕了中國,如今好懷念他們當初桀驁不馴的樣子!

阿傖說事
2025-12-23 14:06:40
徐湖平這次真的栽了!9100克西漢金獸,含金量99%,被曝掉色!

徐湖平這次真的栽了!9100克西漢金獸,含金量99%,被曝掉色!

鄉(xiāng)野小珥
2025-12-24 16:05:18
偉大勝利!菲律賓撤離仙賓礁,臨走不忘賣慘:斷糧兩天4人被餓倒

偉大勝利!菲律賓撤離仙賓礁,臨走不忘賣慘:斷糧兩天4人被餓倒

阿器談史
2025-12-24 17:31:16
深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

深圳前市長8年卷走20億,花天酒地包養(yǎng)女星,落馬時只剩三千塊

文史旺旺旺
2024-12-24 20:42:21
三人20+馬刺擊退雷霆豪取7連勝,卡斯爾24分亞歷山大33+8

三人20+馬刺擊退雷霆豪取7連勝,卡斯爾24分亞歷山大33+8

湖人崛起
2025-12-24 11:51:56
快手變快播?深夜上萬直播間同時"搞黃色"裸聊,年度最大網(wǎng)絡事故

快手變快播?深夜上萬直播間同時"搞黃色"裸聊,年度最大網(wǎng)絡事故

派大星紀錄片
2025-12-23 16:49:00
徐湖平跑不了!收藏家顏明:江南春剛調撥出去,隔天就被陸挺買走

徐湖平跑不了!收藏家顏明:江南春剛調撥出去,隔天就被陸挺買走

削桐作琴
2025-12-24 16:11:38
霍啟剛沒想到,44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

霍啟剛沒想到,44歲郭晶晶再傳喜訊,讓霍震霆和香港闊太圈沉默了

涵豆說娛
2025-12-24 16:48:02
失敗率百分之百,回顧96年解放軍的百萬大軍渡海登陸戰(zhàn)計劃

失敗率百分之百,回顧96年解放軍的百萬大軍渡海登陸戰(zhàn)計劃

動漫里的童話
2025-11-28 18:58:56
終于找到能“趕跑”血管斑塊的食物,每天吃一點,斑塊見了都繞道

終于找到能“趕跑”血管斑塊的食物,每天吃一點,斑塊見了都繞道

江江食研社
2025-12-23 07:30:07
錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

錢多有什么用?42歲離婚無兒無女的尼格買提,走上了另外一條道路

古事尋蹤記
2025-12-20 07:13:47
大冷門!主場79-97完敗青島,新疆主帥劉煒有8個意想不到!

大冷門!主場79-97完敗青島,新疆主帥劉煒有8個意想不到!

田先生籃球
2025-12-24 22:02:44
被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

被逼到墻角后,克林頓宣戰(zhàn),寧可身敗名裂,也要讓特朗普“陪葬”

趣文說娛
2025-12-24 16:50:21
女人想讓你“得手”,不會明說,而會用這些“信號”提示你

女人想讓你“得手”,不會明說,而會用這些“信號”提示你

攜手游人間a
2025-12-23 11:58:51
《尋秦記》重聚尬到腳趾摳地!郭羨妮發(fā)腮,宣萱油膩,滕麗名土氣

《尋秦記》重聚尬到腳趾摳地!郭羨妮發(fā)腮,宣萱油膩,滕麗名土氣

八斗小先生
2025-12-23 23:43:56
秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

秦嵐的腳部照片在網(wǎng)上爆紅,這背后是否有利益鏈的爭議?

動物奇奇怪怪
2025-12-22 05:25:09
2025-12-24 23:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
14175文章數(shù) 66395關注度
往期回顧 全部

科技要聞

智譜和MiniMax拿出了“血淋淋”的賬本

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

頭條要聞

61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

體育要聞

26歲廣西球王,在質疑聲中成為本土得分王

娛樂要聞

懷孕增重30斤!闞清子驚傳誕一女夭折?

財經(jīng)要聞

北京進一步放松限購 滬深是否會跟進?

汽車要聞

“運動版庫里南”一月份亮相???或命名極氪9S

態(tài)度原創(chuàng)

教育
親子
健康
公開課
軍事航空

教育要聞

183cm初中生為了10塊錢撒嬌,家長無奈吐槽:已經(jīng)激發(fā)不出母愛了

親子要聞

母嬰下半場:科研與全齡的雙重突圍|世研消費指數(shù)品牌榜Vol.93

這些新療法,讓化療不再那么痛苦

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

"九三"受閱女民兵:96米需踢出128個正步 每步75厘米

無障礙瀏覽 進入關懷版