Gemini 3.1：小小小小更新壓過對手大迭代，Google卷飛了

2026-02-20 11:23:49　來源: 硅星人

北京舉報(bào)

分享至

作者｜王兆洋和他的 Kimi 2.5 Agent集群
郵箱｜ wangzhaoyang@pingwest.com

Gemini 3.1 來了

2026年2月19日，Google發(fā)布Gemini 3.1 Pro。這是Google首次以".1"作為版本增量發(fā)布Gemini模型——此前的版本迭代均為0.5遞進(jìn)（1.0→1.5→2.0→2.5→3.0）。

Google將此次更新定位為"核心推理能力的進(jìn)步"（a step forward in core reasoning），其技術(shù)基礎(chǔ)是上周Gemini 3 Deep Think更新中引入的"核心智能"（core intelligence）架構(gòu)。

在兩項(xiàng)關(guān)鍵基準(zhǔn)測試中，Gemini 3.1 Pro呈現(xiàn)顯著性能提升。ARC-AGI-2測試得分77.1%，較Gemini 3 Pro的31.1%提升超過一倍。在Humanity's Last Exam測試中，Gemini 3.1 Pro得分44.4%，高于Gemini 3 Pro的37.5%和GPT-5.2的34.5%。

Artificial Analysis獨(dú)立評測顯示：整體智能維度Gemini 3.1 Pro以57分居首，Claude Opus 4.6以53分位列第二；編碼能力Gemini 3.1 Pro以56分排名第一；Agentic任務(wù)方面Claude Opus 4.6以68分領(lǐng)先，Gemini 3.1 Pro為59分。

訪問渠道已同步開放。開發(fā)者可通過Gemini API、Google AI Studio、Gemini CLI、Google Antigravity及Android Studio（預(yù)覽版）調(diào)用；企業(yè)用戶可使用Vertex AI和Gemini Enterprise；普通消費(fèi)者可在Gemini App和NotebookLM中使用，其中Pro和Ultra訂閱用戶享有更高額度。

此次更新最“嚇人”的地方是，Google一個“超級小”版本的迭代，達(dá)到了其他家模型大迭代的效果。

當(dāng)然版本號隨便定，但這個信號背后，Google這樣處理版號策略的調(diào)整——從0.5增量改為0.1增量——直接意味著Google將加快模型迭代節(jié)奏，以更細(xì)粒度的方式推送能力改進(jìn)。

也就是，此前一段時間多少還比較淡定的Google，也要開卷了！

官方給出的驚艷案例：更智能，更美，更全面

在官方發(fā)布的演示中，四個案例展示了Gemini 3.1 Pro的代碼生成能力。

第一個案例是將文學(xué)風(fēng)格轉(zhuǎn)化為網(wǎng)站設(shè)計(jì)。系統(tǒng)以《呼嘯山莊》為靈感，假設(shè)書中角色是一位風(fēng)景攝影師，生成了一套完整的個人作品集網(wǎng)站。視覺上，網(wǎng)站采用了與小說氛圍相符的色調(diào)和排版，將文學(xué)意境直接映射為界面元素。

第二個案例是3D椋鳥群飛模擬。用戶可以通過界面交互控制鳥群的運(yùn)動方向，鳥群的飛行動態(tài)會實(shí)時生成對應(yīng)的音景，聲音隨鳥群密度和運(yùn)動狀態(tài)變化。這是一個將視覺、交互和音頻整合在一起的完整演示。

第三個案例是國際空間站位置可視化。系統(tǒng)生成了一個HTML儀表盤，集成了第三方API獲取的實(shí)時數(shù)據(jù)，在地圖上顯示空間站的當(dāng)前位置和運(yùn)行軌跡。這展示了模型處理外部數(shù)據(jù)接口的能力。

第四個案例是動畫SVG生成。模型直接輸出了可在網(wǎng)頁中使用的動畫SVG文件，這種矢量格式可以任意縮放而不損失畫質(zhì)，適合需要響應(yīng)式設(shè)計(jì)的項(xiàng)目。

這些案例的共同特點(diǎn)是：它們都是完整的、可直接運(yùn)行的代碼產(chǎn)物，而非片段或偽代碼。從文學(xué)作品到交互模擬，從數(shù)據(jù)可視化到圖形生成，覆蓋了不同的應(yīng)用場景。模型在這些任務(wù)中的表現(xiàn)如何，讀者可以自行判斷。

Gemini 3.1 Pro的技術(shù)迭代，體現(xiàn)了一條務(wù)實(shí)的路徑：在顛覆式重構(gòu)不太會經(jīng)常出現(xiàn)后，要追求對現(xiàn)有架構(gòu)的精細(xì)化打磨。

架構(gòu)層面延續(xù)了MoE（混合專家）路線，100萬token的上下文窗口和64,000 token的輸出上限維持不變。這個規(guī)模在當(dāng)前的模型梯隊(duì)中仍屬頭部，足以支撐長文檔分析、代碼庫理解等場景。真正值得關(guān)注的，是推理機(jī)制的重構(gòu)。

三層思考模式（Low/Medium/High）的引入，本質(zhì)上是對"計(jì)算-質(zhì)量-成本"三角關(guān)系的顯式化管理。Low模式追求響應(yīng)速度，適合高并發(fā)場景；High模式則調(diào)用完整推理能力，處理復(fù)雜問題可能需要數(shù)分鐘——這種設(shè)計(jì)讓用戶能夠根據(jù)任務(wù)難度主動權(quán)衡成本，而非被動接受統(tǒng)一計(jì)價。Medium層級的加入填補(bǔ)了此前的空白，為日常任務(wù)提供了更經(jīng)濟(jì)的中間選項(xiàng)。

同時，Deep Think技術(shù)也出現(xiàn)了“下放”，上周Gemini 3 Deep Think在ARC-AGI-2測試中取得84.6%成績所依賴的"并行思考技術(shù)"，已被整合進(jìn)基礎(chǔ)模型。這意味著模型能夠同時探索多條解題路徑，再通過內(nèi)部評估篩選最優(yōu)解。與此同時，原本用于Flash模型的強(qiáng)化學(xué)習(xí)技術(shù)也被遷移至Pro版本，這種技術(shù)棧的橫向打通，比單純的參數(shù)堆疊更有價值。

幻覺控制方面的進(jìn)步也很關(guān)鍵。AA-Omniscience Index從13分躍升至30分，在主流模型中排名第一。這一指標(biāo)衡量的是模型對自身知識邊界的認(rèn)知能力——知道"不知道什么"，比知道"知道什么"更難，也更重要。

總體而言，Gemini 3.1 Pro的升級邏輯清晰：不追求單項(xiàng)指標(biāo)的驚艷，而是在可控成本下，系統(tǒng)性地提升模型的可用性和可靠性。

榜單之外，更重要是Google也開始卷了

Gemini 3.1 Pro發(fā)布后，技術(shù)社區(qū)的聲音呈現(xiàn)出明顯的分化。

樂觀派將目光投向了數(shù)據(jù)。ARC-AGI-2基準(zhǔn)77.1%的得分被視為實(shí)質(zhì)性突破——這不僅是上一代31.1%的兩倍以上，也意味著模型在處理全新邏輯模式時的能力躍升。

幻覺抗性指標(biāo)（AA-Omniscience Index）從Gemini 3 Pro的13躍升至30，遠(yuǎn)超Claude Opus 4.6的11，這一進(jìn)步被開發(fā)者群體頻繁提及。三層思考模式的設(shè)計(jì)也受到好評——讓用戶根據(jù)任務(wù)復(fù)雜度自主選擇"快速/深度/深度+"模式，被認(rèn)為是對控制權(quán)的合理讓渡。

但質(zhì)疑聲同樣值得傾聽。Gartner分析師William McKeon-White的評價代表了一種審慎態(tài)度："這是好的持續(xù)進(jìn)步，但沒有什么根本性的游戲規(guī)則改變者。"華盛頓大學(xué)教授Chirag Shah則提出了更深層的問題：更好的推理能力確實(shí)是處理復(fù)雜任務(wù)的必要條件，但并非充分條件——"更何況，'復(fù)雜'本身的定義就不明確。"LMArena的盲測數(shù)據(jù)也提供了另一種視角：3.1 Pro相比Gemini 3 Pro的提升幅度有限，在擴(kuò)展文本和代碼任務(wù)上仍落后于Claude。

中立觀察者更關(guān)注宏觀趨勢。AI模型排行榜被形容為"搶椅子游戲"——Claude、Gemini、GPT輪流登頂，每次領(lǐng)先周期只有數(shù)周。發(fā)布節(jié)奏的密集同樣引人注目：Anthropic Sonnet 4.6于2月17日發(fā)布，Google Gemini 3.1 Pro緊隨其后于2月19日登場。一個被反復(fù)提及的觀察是：基準(zhǔn)分?jǐn)?shù)與真實(shí)用戶體驗(yàn)之間存在落差，排行榜上的領(lǐng)先不等于實(shí)際工作流中的優(yōu)勢。

其實(shí)，相比于在榜單上幾個小數(shù)點(diǎn)的提升，更重要的是Google自己策略的更加激進(jìn)化。

Gemini 3.1 Pro的發(fā)布，首先標(biāo)志著Google產(chǎn)品策略的微妙轉(zhuǎn)向。首次采用".1"版本號，意味著從過去追求"大版本震撼"的發(fā)布節(jié)奏，轉(zhuǎn)向更貼近工程實(shí)際的持續(xù)迭代模式。

這種轉(zhuǎn)變本身說明：AI競賽已進(jìn)入長跑階段，單次爆發(fā)的窗口期正在收窄。在高端推理市場，Google終于拿出了與GPT-5.2和Claude正面交鋒的產(chǎn)品，而其真正的護(hù)城河或許不在于模型本身，而在于Cloud和Workspace構(gòu)成的企業(yè)基礎(chǔ)設(shè)施——這是OpenAI和Anthropic短期內(nèi)難以復(fù)制的。

從行業(yè)視角看，推理能力正在成為模型競爭的新高地。Gemini 3.1 Pro與Anthropic的發(fā)布時間間隔僅兩天，這種以天為單位的跟進(jìn)速度，反映出頭部廠商的技術(shù)差距正在收窄。更具信號意義的是定價策略：最高性能模型的價格反而更低，這意味著價格戰(zhàn)已從"性價比競爭"升級為"性能溢價消失"的新階段。

Gemini 3.1 Pro定價為$4.50/百萬token（混合價格），低于GPT-5.2的$4.80、Claude Sonnet 4.6的$6和Claude Opus 4.6的$10。API定價分檔：≤200K tokens時輸入$2、輸出$12；>200K tokens時輸入$4、輸出$18。

免費(fèi)用戶可直接在Gemini Web UI使用Gemini 3.1 Pro，無需訂閱Gemini Advanced。

點(diǎn)個“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.