国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

豆包 2.0 模型發(fā)布,全信息整理(全網最完整,另附 79 頁 Model Card)

0
分享至

今天 Seed2.0 全系列正式發(fā)布
Seed2.0,也就是豆包大模型2.0(Doubao-Seed-2.0)

包括 Pro、Lite、Mini 三款通用 Agent 模型加一個 Code 模型,圍繞 Agent 使用和大規(guī)模生產,做了系統(tǒng)性優(yōu)化

先看數(shù)據(jù)(本文里所有表格,都是我做的,好不好看?。。。?/p>


Seed2.0 核心評測數(shù)據(jù)總覽|vs GPT-5.2 · Claude Opus-4.5 · Gemini-3 Pro

先一次過完核心部份:

多模態(tài),數(shù)學與視覺推理 19 項基準 12 項第一,視覺感知、文檔理解、長上下文大部分基準 SOTA,EgoTempo 超過人類分數(shù)

LLM 科學能力,HealthBench 第一,SuperGPQA 超 GPT-5.2,整體與 Gemini 3 Pro、GPT-5.2 相當;在深度研究上也取得了不俗的成績

代碼,有明顯進步,部分高難基準與國際領先模型仍有差距

已上線,豆包 App 選「專家」模式 / TRAE 選「Doubao-Seed-2.0-Code」,全系列 API 已上線火山引擎,價格較同級 GPT 和 Claude 便宜一個數(shù)量級


Model Card 也有,同時發(fā)布的還有一份 79 頁的 Model Card,公眾號后臺回復「Seed2.0」,獲取這份 Model Card


先說定價

Seed2.0 全系列的這四款模型,API 已上線火山引擎。以下為分段計費中 ≤32k 輸入的價格,單位元/百萬 tokens,這里我也做了個對比圖:


價格對比(人民幣計價)

Pro(doubao-seed-2-0-pro-260215)旗艦全能,面向復雜推理與長鏈路 Agent 任務
輸入 3.2 / 輸出 16 / 緩存命中 0.64

Lite(doubao-seed-2-0-lite-260215)均衡型,綜合能力超 Seed1.8,兼顧質量與速度
輸入 0.6 / 輸出 3.6 / 緩存命中 0.12

Mini(doubao-seed-2-0-mini-260215)低時延高并發(fā),256k 上下文,4 檔思考長度
輸入 0.2 / 輸出 2 / 緩存命中 0.04

Code(doubao-seed-2-0-code-preview-260215)編程加強版,適配 Claude Code 等 IDE 工具鏈
輸入 3.2 / 輸出 16 / 緩存命中 0.64

四款模型均支持文字、圖片、視頻輸入,文字輸出

token 定價,比海外模型低了約一個數(shù)量級。Agent 跑一次 workflow 消耗的 token 是人類對話的幾十倍

在現(xiàn)實世界的復雜任務中,大規(guī)模推理與長鏈路生成將消耗大量 token,這個成本變量會越來越重


火山引擎模型詳情頁:https://console.volcengine.com/ark/region:ark+cn-beijing/model/detail?Id=doubao-seed-2-0-pro

本次的優(yōu)化

Seed 團隊分析了通用模型在 MaaS 服務中的真實調用情況


MaaS 調用場景分布

Seed 通用模型 MaaS 服務在中國大陸的調用場景分布,數(shù)據(jù)來自「火山方舟協(xié)作獎勵計劃」

最高比例的需求是處理混雜圖表、文檔等非結構化信息的知識內容。企業(yè)端的典型模式:先讓模型做「讀得多、想得多」的任務,再進入復雜且專業(yè)的流程型工作

基于這個真實需求,Seed2.0 重點優(yōu)化三個方向:

  • ?更穩(wěn)健的視覺與多模態(tài)理解:復雜文檔、表格、圖形、視頻內容的解析能力顯著提升

  • ?更可靠的復雜指令執(zhí)行:多約束、多步驟、長鏈路任務的理解與執(zhí)行能力強化

  • ?更靈活的推理選擇:Pro、Lite、Mini 三檔加 Code 模型,覆蓋不同場景

除了生產級需求,Seed2.0 還在推高模型智能上限。目前已經能從解決奧林匹克競賽類問題邁向支持研究級推理,比如嘗試探索埃爾德什級別的數(shù)學問題,也可以完成部分科學相關任務的編程工作

能解埃爾德什問題和能幫你整理一堆掃描版合同,是兩種能力
Seed2.0 兩個都在做

多模態(tài)理解:大部分基準 SOTA 數(shù)學與視覺推理

Seed2.0 Pro 在 MathVista、MathVision、MathKangaroo、MathCanvas 等數(shù)學推理基準上達到業(yè)界最優(yōu)水平。LogicVista、VisuLogic 等視覺解謎與邏輯推理基準上,較 Seed1.8 顯著提升


數(shù)學與視覺推理評測數(shù)據(jù)

標注 * 的數(shù)據(jù)引自公開技術報告

視覺感知

VLMsAreBiased、VLMsAreBlind、BabyVision 等基準中取得業(yè)界最高分。面對不同類型的視覺輸入時仍能保持準確且可信的感知和判斷能力


視覺感知與通用 VQA 評測數(shù)據(jù)

標注 * 的數(shù)據(jù)引自公開技術報告

文檔理解與長上下文

模型面對的,往往是復雜版式混排的原始材料。相比 Seed1.8,處理非結構化信息的能力顯著強化,ChartQAPro 與 OmniDocBench 1.5 達到頂尖水準

長上下文方面,DUDE、MMLongBench、MMLongBench-Doc 均取得業(yè)界最佳分數(shù)


文檔理解與長上下文評測數(shù)據(jù)

標注 * 的數(shù)據(jù)引自公開技術報告

視頻理解

時間序列與運動感知方面,TVBench、TempCompass、MotionBench 等關鍵測評處于領先位置

EgoTempo 超過人類分數(shù)(人類 63.2,Seed2.0 Pro 71.8),對「變化、動作、節(jié)奏」的捕捉更為穩(wěn)定

長視頻場景中,Seed2.0 在大部分評測上超越了其他頂尖模型,可以高效準確地處理小時級別的長視頻。視頻工具 VideoCut 進一步提高了長視頻處理的時長范圍和推理精度

流式實時視頻方面同樣表現(xiàn)優(yōu)異,能完成實時視頻流分析、環(huán)境感知、主動糾錯與情感陪伴,可應用于健身、穿搭等場景


視頻理解評測數(shù)據(jù)

標注 * 的數(shù)據(jù)引自公開技術報告

LLM 與 Agent:真實長程任務執(zhí)行能力提升

Seed 團隊觀察到一個典型失衡:模型已經可以順利解決競賽難題,但放在真實世界中,依然很難端到端地完成實際任務,比如一次性構建一個設計精良、功能完整的小程序

原因來自兩點。真實世界任務跨越更長時間尺度、包含多個階段,現(xiàn)有 LLM Agent 難以自主構建高效工作流。真實世界知識具有很強的領域壁壘且呈長尾分布,各行業(yè)的經驗不在訓練語料的高頻區(qū)

長尾領域知識

Seed2.0 通過系統(tǒng)性加強長尾領域知識來應對

SuperGPQA 超過 GPT-5.2,HealthBench 第一名,科學領域整體成績與 Gemini 3 Pro 和 GPT-5.2 相當。FrontierSci 等 STEM 基準表現(xiàn)突出,部分場景得分超過 Gemini 3 Pro


LLM 科學能力評測數(shù)據(jù) 指令遵循

Seed2.0 保持較強的一致性與可控性,為 Agent 模型在長鏈路、多步驟任務中嚴格按約束條件執(zhí)行奠定了基礎


指令遵循評測數(shù)據(jù) 深度研究

Seed2.0 在長鏈路任務中表現(xiàn)突出,尤其擅長連續(xù)完成「找資料、做歸納、寫結論」這類連續(xù)工作流

三項深度研究評測,Pro 和 Lite 都取得了不俗的成績


深度研究評測數(shù)據(jù) 真實世界任務

在具備直接經濟價值的現(xiàn)實任務評測中,Seed2.0 在客服問答、信息抽取、意圖識別、中小學階段問題解答等高頻場景上表現(xiàn)穩(wěn)定。GDPVal-Diamond、XPert Bench 等復雜專業(yè)任務基準上同樣取得有競爭力的結果


真實世界任務評測數(shù)據(jù) 科學發(fā)現(xiàn)

FrontierSci-research 等前沿科研基準上表現(xiàn)強勁,AInstein Bench 領先,體現(xiàn)出在科學發(fā)現(xiàn)場景中較強的假設驅動式推理能力


科學發(fā)現(xiàn)評測數(shù)據(jù) 從研究想法到實驗方案

Seed2.0 還能把「研究想法」推進到「形成可落地的實驗方案」

以高爾基體蛋白分析為例,模型把基因工程、小鼠模型構建、亞細胞分離與多組學分析串成一條完整流程,細化到關鍵環(huán)節(jié)怎么做、用什么做對照排除污染、用哪些指標評估純度

相關領域專家的反饋:方案在跨學科的實驗細節(jié)與步驟化表達上超出預期,能產出結構清晰、科學上相對可靠、具有可執(zhí)行性的實驗草案


高爾基體蛋白分析實驗方案示例 代碼:有進步,有差距

端到端整體代碼生成、上下文學習方面取得了明顯進步


Vibe Coding 及上下文評測數(shù)據(jù)

部分高難基準上,與國際領先模型相比仍有提升空間

最后

除了火山 API 之外,Seed2.0 Pro 和 Code 還已分別上線:

  • ? 豆包 App:選擇「專家」模式,開啟對話

  • ? TRAE:在「內置模型」中選擇「Doubao-Seed-2.0-Code」

以及,火山的這個模型,也已上線方舟 Coding Plan,且首月低至 8.91 元

新春限時特惠 ?? 二月特別補貼

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
地質專家在洞穴中,發(fā)現(xiàn)2臺發(fā)電機,專家說發(fā)電機已經工作了80年

地質專家在洞穴中,發(fā)現(xiàn)2臺發(fā)電機,專家說發(fā)電機已經工作了80年

咸説歷史
2026-04-14 09:47:27
后悔莫及!火箭不要的新秀,徹底完成蛻變,21歲有望成為聯(lián)盟超巨

后悔莫及!火箭不要的新秀,徹底完成蛻變,21歲有望成為聯(lián)盟超巨

體育大朋說
2026-04-18 05:05:03
六小齡童回應 “煩死了” 表情包,稱這是當年拍戲時導演抓拍到的真實狀態(tài),意外成了全網爆款表情

六小齡童回應 “煩死了” 表情包,稱這是當年拍戲時導演抓拍到的真實狀態(tài),意外成了全網爆款表情

魯中晨報
2026-04-18 17:20:04
星光大道多位冠軍現(xiàn)狀:大多已無人問津,有人負債累累當搬運工

星光大道多位冠軍現(xiàn)狀:大多已無人問津,有人負債累累當搬運工

雅兒姐游世界
2026-04-14 16:52:38
恒大0.69%清償率:一個時代神話的墓志銘

恒大0.69%清償率:一個時代神話的墓志銘

流蘇晚晴
2026-04-17 18:20:43
深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

牛鍋巴小釩
2026-04-17 13:18:03
35歲女子覺得不夠緊做陰道緊縮手術,縫合針突然斷體內,瞬間崩潰

35歲女子覺得不夠緊做陰道緊縮手術,縫合針突然斷體內,瞬間崩潰

丫頭舫
2026-03-03 21:33:10
為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

為啥淘寶,拼多多幾塊錢的東西還能包郵?看完你就明白了!

呼呼歷史論
2026-04-10 21:17:24
鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

鄭麗文稱臺灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

阿器談史
2026-01-26 20:48:30
深夜猝死的人增多!醫(yī)生反復強調:吃完晚飯后,盡量少做這4件事

深夜猝死的人增多!醫(yī)生反復強調:吃完晚飯后,盡量少做這4件事

岐黃傳人孫大夫
2026-04-18 11:45:03
高中女生借攤主手機帶入考場 企圖作弊被抓 家長遷怒攤主 攤主被逼下跪道歉

高中女生借攤主手機帶入考場 企圖作弊被抓 家長遷怒攤主 攤主被逼下跪道歉

閃電新聞
2026-04-18 17:32:26
NBA季后賽G1明天4月19日賽程:森林狼VS掘金,殘陣湖人VS火箭

NBA季后賽G1明天4月19日賽程:森林狼VS掘金,殘陣湖人VS火箭

薇說體育
2026-04-18 12:45:27
事發(fā)浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!別心軟!

事發(fā)浦東機場!女子稱兩次拒絕幫陌生人帶行李,多名網友:我也遇到過!別心軟!

新民晚報
2026-04-18 21:15:45
60歲的郭富城在香港銅鑼灣街邊被撞見,染著一頭黃發(fā),腳蹬帆布鞋

60歲的郭富城在香港銅鑼灣街邊被撞見,染著一頭黃發(fā),腳蹬帆布鞋

可樂談情感
2026-04-18 00:18:37
經濟熱點快評|全島封關運作后“首秀”,今年消博會有啥不一樣?

經濟熱點快評|全島封關運作后“首秀”,今年消博會有啥不一樣?

環(huán)球網資訊
2026-04-18 23:39:12
衛(wèi)冕冠軍險象環(huán)生!趙心童5-4險勝海菲爾德,狀態(tài)低迷敲響警鐘

衛(wèi)冕冠軍險象環(huán)生!趙心童5-4險勝海菲爾德,狀態(tài)低迷敲響警鐘

十一體育館
2026-04-18 21:43:48
伊朗副外長:伊朗絕不接受被當作國際法的“例外”對待

伊朗副外長:伊朗絕不接受被當作國際法的“例外”對待

財聯(lián)社
2026-04-18 23:18:09
曾經走紅,如今卻“淪為笑柄”的4種數(shù)碼產品,還是別再買了

曾經走紅,如今卻“淪為笑柄”的4種數(shù)碼產品,還是別再買了

美家指南
2026-03-06 10:31:36
不會干,你就別干了!中國勒令馬士基停運,巴拿馬的反應很有意思

不會干,你就別干了!中國勒令馬士基停運,巴拿馬的反應很有意思

阿腩講娛樂
2026-04-18 13:00:07
芭蕾姐喊我練一字馬,這不純扯蛋了嗎!

芭蕾姐喊我練一字馬,這不純扯蛋了嗎!

飛娛日記
2026-04-17 08:02:36
2026-04-19 00:04:49
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
389文章數(shù) 50關注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊向油輪開火 伊朗最高領袖發(fā)聲

體育要聞

時隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應潘宏彬去世,拒談喪禮細節(jié)

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價14.48萬元起

態(tài)度原創(chuàng)

藝術
手機
家居
數(shù)碼
公開課

藝術要聞

耗資600億,貴陽人的“上海外灘”,現(xiàn)在去看,荒得嚇人

手機要聞

榮耀600系列參數(shù)、外觀全曝光

家居要聞

法式線條 時光靜淌

數(shù)碼要聞

首款雷電5認證四盤位M.2固態(tài)硬盤盒,OWC發(fā)布Express 4M2 Ultra

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版