国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

豆包2.0的目標(biāo),不是成為做題家

0
分享至



對(duì)于大模型,OpenAI、Anthropic、谷歌等全球頂尖的AI公司,都在不斷地強(qiáng)調(diào)模型的通用性,以及其涌現(xiàn)能力??勺止?jié)在豆包2.0上,卻來了一波“反向操作”。

字節(jié)跳動(dòng)選擇了一條更務(wù)實(shí)的路徑。他們從真實(shí)業(yè)務(wù)場(chǎng)景倒推模型能力。

豆包團(tuán)隊(duì)發(fā)現(xiàn),企業(yè)用戶最高頻的需求不是解奧數(shù)題,而是處理混雜著圖表、文檔的非結(jié)構(gòu)化信息,然后在這個(gè)基礎(chǔ)上完成多步驟的專業(yè)任務(wù)。

于是豆包2.0把優(yōu)化重點(diǎn)放在了多模態(tài)理解、長上下文處理、指令遵循這些“不那么性感但很實(shí)用”的能力上。

這種路徑選擇可能更接近AGI的本質(zhì)。

真正的通用智能不是在所有基準(zhǔn)測(cè)試上都拿高分,而是能在真實(shí)世界各種雜七雜八的約束下,依然按要求完成任務(wù)。

一個(gè)能解IMO金牌題但無法完成企業(yè)報(bào)表分析的模型,和一個(gè)可以穩(wěn)定完成業(yè)務(wù)流程的模型,哪個(gè)更“智能”?

豆包2.0的答案很明確。

我把這段話發(fā)給了豆包2.0,它回答我說



雖然有些阿諛奉承、迎風(fēng)拍馬,但我們的觀點(diǎn)是相似的。

01

豆包2.0來了

就在2026年情人節(jié)這天,豆包更新了2.0版本。PC、網(wǎng)頁版、手機(jī)用戶都可以從對(duì)話框選擇“專家”模式,以開啟豆包2.0。

與此前版本相比,豆包2.0的核心變化在于從“能解題”轉(zhuǎn)向“能做事”——針對(duì)大規(guī)模生產(chǎn)環(huán)境的使用需求進(jìn)行了系統(tǒng)性優(yōu)化。

豆包2.0系列包含Pro、Lite、Mini三款通用Agent模型和一款 Code 模型。

豆包2.0Code 接入了AI編程產(chǎn)品TRAE,而火山引擎也同步上線了豆包2.0系列模型API服務(wù)。

從公開的基準(zhǔn)測(cè)試數(shù)據(jù)來看,豆包2.0 Pro在多個(gè)維度上取得了有競爭力的成績。

豆包2.0在IMO、CMO 數(shù)學(xué)競賽和ICPC編程競賽中獲得金牌成績,在 Putnam基準(zhǔn)測(cè)試上超越了Gemini 3 Pro。



在HLE-Text(人類的最后考試)這項(xiàng)綜合性評(píng)測(cè)中,豆包2.0 Pro得分54.2,在參與對(duì)比的模型中排名第一。

不過需要注意的是,基準(zhǔn)測(cè)試成績與實(shí)際應(yīng)用表現(xiàn)之間存在差異。

字節(jié)跳動(dòng)團(tuán)隊(duì)自己也承認(rèn),豆包2.0在端到端整體代碼生成、上下文學(xué)習(xí)等方面,與國際領(lǐng)先模型相比仍有提升空間。

這種坦誠的表態(tài),比單純強(qiáng)調(diào)優(yōu)勢(shì)更有說服力。

在科學(xué)領(lǐng)域知識(shí)測(cè)試中,豆包2.0的表現(xiàn)與Gemini 3 Pro和GPT-5.2處于同一水平線。

在SuperGPQA測(cè)試中,豆包2.0 Pro得分68.7,略高于GPT-5.2的67.9。在HealthBench測(cè)試中得分57.7,排名第一。

這些數(shù)據(jù)表明,相較于豆包1.8,新版本的豆包在長尾領(lǐng)域知識(shí)覆蓋上有所加強(qiáng)。

豆包2.0在多模態(tài)理解上的提升是全方位的。

在視覺推理方面,模型在MathVista、MathVision等基準(zhǔn)上達(dá)到了業(yè)界最優(yōu)水平。

這些考試比簡單的圖像識(shí)別要復(fù)雜得多。

因?yàn)檫@些測(cè)試的目的,是考察模型能否從圖像中提取數(shù)學(xué)關(guān)系、理解幾何結(jié)構(gòu)、進(jìn)行邏輯推演。

在文檔理解場(chǎng)景中,豆包2.0在ChartQA Pro與OmniDocBench 1.5基準(zhǔn)上的表現(xiàn)達(dá)到頂尖水平。

現(xiàn)實(shí)中的文檔往往是表格、圖表、文字、公式混雜的復(fù)雜版式,模型需要準(zhǔn)確識(shí)別結(jié)構(gòu)、提取信息、理解關(guān)系。

在長上下文理解方面,豆包2.0在 DUDE、MMLongBench等測(cè)試中取得了較好成績。

視頻理解是豆包2.0的一個(gè)重點(diǎn)優(yōu)化方向。

在TVBench、TempCompass、MotionBench等測(cè)試中,豆包2.0處于領(lǐng)先位置。

值得注意的是,在EgoTempo基準(zhǔn)上,豆包2.0的得分超過了人類水平。這個(gè)細(xì)節(jié)說明,模型在捕捉“變化、動(dòng)作、節(jié)奏”這類時(shí)序信息時(shí),可能比人類更穩(wěn)定.

豆包2.0還支持流式實(shí)時(shí)視頻分析,可以實(shí)現(xiàn)環(huán)境感知、主動(dòng)糾錯(cuò)與交互。這種能力的應(yīng)用場(chǎng)景包括健身指導(dǎo)、穿搭建議等,模型能實(shí)時(shí)觀察并給出反饋,而不是事后分析錄像。

02

豆包團(tuán)隊(duì)如何實(shí)現(xiàn)?

其實(shí)豆包2.0的這些提升背后,涉及到了多個(gè)層面的優(yōu)化。

多模態(tài)融合架構(gòu)的改進(jìn)是基礎(chǔ)。

傳統(tǒng)的多模態(tài)模型是把視覺編碼器和語言模型簡單拼接,視覺信息和文本信息的交互深度不夠。

豆包2.0強(qiáng)化了視覺與語言的深度融合,讓模型能更好地理解圖像中的語義信息。

人類看一張圖,它是包含因果關(guān)系的。



就拿這張圖來說,傳統(tǒng)多模態(tài)大模型看到這張圖,它理解的是“姚順宇”、“話筒”、“手”、“西裝”。

但是人類理解這張圖是“姚順宇西裝革履拿著話筒正在演講”。

即使圖片是靜態(tài)的,也能因?yàn)樗纳駪B(tài)、穿著來判斷此時(shí)正在做什么。

此外,豆包2.0對(duì)注意力機(jī)制的改進(jìn),為它帶來了長上下文處理能力的提升。

處理長文本或長視頻時(shí),模型需要在海量信息中保持注意力,不能顧此失彼。

就比如你在閱讀這篇文章的時(shí)候,A部分出現(xiàn)了大量的技術(shù)名詞、術(shù)語,你也只會(huì)挑其中的圖片以及數(shù)字來一目十行地看,不會(huì)逐字逐句認(rèn)真看。

因此豆包2.0其實(shí)是以人類讀長文章時(shí)那樣,自動(dòng)抓重點(diǎn),而不是平均分配注意力。

技術(shù)上,這需要更高效的注意力計(jì)算方法和更合理的信息篩選機(jī)制。



最后,豆包2.0推理能力的提升不只是記住更多知識(shí),而是真正提升了從已知推導(dǎo)未知的能力。

這涉及到訓(xùn)練過程中對(duì)推理鏈的顯式建模,讓模型學(xué)會(huì)“一步步思考”而不是直接給答案。這種能力在解決復(fù)雜問題時(shí)尤為重要。

03

現(xiàn)實(shí)不是競賽

字節(jié)跳動(dòng)團(tuán)隊(duì)觀察到一個(gè)現(xiàn)象,語言模型已經(jīng)可以順利解決競賽難題,但放在真實(shí)世界中,它們依然很難端到端地完成實(shí)際任務(wù)。

比如一次性構(gòu)建一個(gè)設(shè)計(jì)精良、功能完整的小程序。

這個(gè)鴻溝的原因主要有兩點(diǎn),第一是知識(shí)覆蓋的問題。

競賽題目通常聚焦在數(shù)學(xué)、編程等核心領(lǐng)域,而真實(shí)任務(wù)往往涉及長尾領(lǐng)域的專業(yè)知識(shí),比如前文提到的醫(yī)療、法律、工程、商業(yè)等等。

第二是指令遵循的問題。

真實(shí)任務(wù)通常包含多個(gè)步驟、多重約束,模型需要嚴(yán)格按照要求一步步推進(jìn),不能跑偏,不能遺漏。

豆包2.0試圖通過系統(tǒng)性加強(qiáng)長尾領(lǐng)域知識(shí)和強(qiáng)化指令遵循能力來彌合這個(gè)鴻溝。

從測(cè)試數(shù)據(jù)來看,在深度研究任務(wù)、復(fù)雜agent能力評(píng)估等方面,豆包2.0達(dá)到了業(yè)界第一梯隊(duì)水平。

在客服問答、信息抽取、意圖識(shí)別等高頻應(yīng)用場(chǎng)景上,模型表現(xiàn)也比較穩(wěn)定。

播客中給出了一個(gè)有意思的案例——高爾基體蛋白分析。

豆包2.0不僅能給出總體實(shí)驗(yàn)路線,還能把基因工程、小鼠模型構(gòu)建、亞細(xì)胞分離與多組學(xué)分析串成完整流程,細(xì)化到關(guān)鍵環(huán)節(jié)怎么做、用什么進(jìn)行對(duì)照、用哪些指標(biāo)評(píng)估純度。

相關(guān)領(lǐng)域?qū)<冶硎荆@個(gè)方案在跨學(xué)科的實(shí)驗(yàn)細(xì)節(jié)與步驟化表達(dá)上,超出了他們對(duì)大模型的預(yù)期。

不過,從“能給出方案”到“方案真正可行”,中間還有驗(yàn)證的距離。這個(gè)案例更多說明模型在知識(shí)整合和表達(dá)能力上的進(jìn)步,而不是說它已經(jīng)能替代科研人員做實(shí)驗(yàn)設(shè)計(jì)。

眾所周知,AI編程是2026年最火的賽道,豆包2.0 Code是針對(duì)編程場(chǎng)景優(yōu)化的版本,已上線TRAE作為內(nèi)置模型。

字節(jié)團(tuán)隊(duì)展示的案例是“TRAE春節(jié)小鎮(zhèn)·馬年廟會(huì)”互動(dòng)項(xiàng)目。通過1輪提示詞構(gòu)建基本架構(gòu),再經(jīng)過幾次調(diào)試,總共5輪提示詞完成作品。



這個(gè)小鎮(zhèn)里有11位由大語言模型驅(qū)動(dòng)的NPC,會(huì)根據(jù)人設(shè)自然聊天、招呼顧客、現(xiàn)場(chǎng)砍價(jià)。

AI游客自己決定去哪家攤位、買什么、說什么。

其中,煙花升空時(shí)的祝福語、孔明燈上的題詞都由AI即時(shí)生成。每次進(jìn)入小鎮(zhèn),看到的互動(dòng)都可能不同。

這個(gè)案例展示了豆包2.0 Code模型在快速原型開發(fā)上的能力。不過需要注意的是,從原型到產(chǎn)品之間還有很長的路要走。

從字節(jié)跳動(dòng)的策略來看,豆包2.0強(qiáng)調(diào)“面向真實(shí)世界復(fù)雜任務(wù)”,這是一個(gè)務(wù)實(shí)的定位。

通過分析真實(shí)使用場(chǎng)景來指導(dǎo)模型優(yōu)化,而不是單純?yōu)榱怂瘛?/p>

這種以需求為導(dǎo)向的研發(fā)思路,可能比單純追求基準(zhǔn)測(cè)試分?jǐn)?shù)更有價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
“北京獨(dú)生女遭男友毆打致殘”案未結(jié),“私家偵探”男友因它案異地被抓,女方:病情加重褲子都提不上來;他隱瞞有兒子,試圖將戶口上我家

“北京獨(dú)生女遭男友毆打致殘”案未結(jié),“私家偵探”男友因它案異地被抓,女方:病情加重褲子都提不上來;他隱瞞有兒子,試圖將戶口上我家

極目新聞
2026-02-24 21:55:51
朱珠回天津婆家過年,干休所探望100歲奶奶,小珠寶長得真像太奶

朱珠回天津婆家過年,干休所探望100歲奶奶,小珠寶長得真像太奶

科學(xué)發(fā)掘
2026-02-23 18:37:37
一路走好!2026春節(jié)才過7天,已有5位明星離世,最年輕的才53歲

一路走好!2026春節(jié)才過7天,已有5位明星離世,最年輕的才53歲

卷史
2026-02-24 11:35:08
小米連出六輛新車!雷軍震驚行業(yè)

小米連出六輛新車!雷軍震驚行業(yè)

銷售與管理
2026-02-24 17:32:08
濃眉交易撿寶!選秀力壓東契奇的天才,19分鐘砍22+5,才308萬

濃眉交易撿寶!選秀力壓東契奇的天才,19分鐘砍22+5,才308萬

你的籃球頻道
2026-02-25 11:52:18
官宣!遼足名宿之子,18歲1米9前鋒,離開遼寧鐵人,加盟伯恩利

官宣!遼足名宿之子,18歲1米9前鋒,離開遼寧鐵人,加盟伯恩利

小金體壇大視野
2026-02-25 15:02:59
央視當(dāng)家主持龍洋,春晚結(jié)束后的照片

央視當(dāng)家主持龍洋,春晚結(jié)束后的照片

動(dòng)物奇奇怪怪
2026-02-25 15:31:30
佛山電工梁志強(qiáng):6萬買格力持有12年,修半輩子空調(diào),凈賺近40萬

佛山電工梁志強(qiáng):6萬買格力持有12年,修半輩子空調(diào),凈賺近40萬

真實(shí)人物采訪
2026-02-24 17:15:03
最好的養(yǎng)生習(xí)慣,第一名最簡單,第七名最難

最好的養(yǎng)生習(xí)慣,第一名最簡單,第七名最難

財(cái)經(jīng)早餐
2026-02-20 06:28:00
吃自助餐遇到的人有多離譜?網(wǎng)友:浪費(fèi)糧食的下輩子吃不上熱菜

吃自助餐遇到的人有多離譜?網(wǎng)友:浪費(fèi)糧食的下輩子吃不上熱菜

解讀熱點(diǎn)事件
2026-02-25 15:07:10
銀行內(nèi)部實(shí)話:存款達(dá)這個(gè)金額,會(huì)被系統(tǒng)盯上

銀行內(nèi)部實(shí)話:存款達(dá)這個(gè)金額,會(huì)被系統(tǒng)盯上

小陸搞笑日常
2026-02-10 03:30:26
雷佳音沒撒謊!退出春晚,解散公司,性格大變的賈玲,證實(shí)他的話

雷佳音沒撒謊!退出春晚,解散公司,性格大變的賈玲,證實(shí)他的話

說歷史的老牢
2026-01-20 13:43:24
聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對(duì)

聯(lián)大高票通過烏和平?jīng)Q議!107國贊成,俄等12國反對(duì)

老馬拉車莫少裝
2026-02-25 03:23:45
春節(jié)后有人開啟“錯(cuò)峰游”模式 北京飛三亞機(jī)票低至320元左右

春節(jié)后有人開啟“錯(cuò)峰游”模式 北京飛三亞機(jī)票低至320元左右

極目新聞
2026-02-25 16:23:21
新加坡大滿貫賽:4強(qiáng)對(duì)陣出爐!國乒3:1淘汰頭號(hào)種子,沖擊冠軍

新加坡大滿貫賽:4強(qiáng)對(duì)陣出爐!國乒3:1淘汰頭號(hào)種子,沖擊冠軍

國乒二三事
2026-02-25 13:15:40
你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說出來肯定大家要笑死

你有知道哪些炸裂的秘密?網(wǎng)友:我有個(gè)秘密說出來肯定大家要笑死

帶你感受人間冷暖
2026-01-29 00:10:05
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點(diǎn)
2025-11-22 10:36:39
戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

戲子誤國!2026年剛開年,就有3位明星相繼塌房,個(gè)個(gè)荒唐

林輕吟
2026-02-24 07:14:49
小姨子借車總不加滿油,我故意清空油箱,她老公急得露餡了!

小姨子借車總不加滿油,我故意清空油箱,她老公急得露餡了!

曉艾故事匯
2026-02-21 09:21:30
俺們村里的娜娜

俺們村里的娜娜

細(xì)雨中的呼喊
2026-02-24 07:05:54
2026-02-25 19:16:49
字母榜 incentive-icons
字母榜
讓未來不止于大。
2246文章數(shù) 8043關(guān)注度
往期回顧 全部

科技要聞

“機(jī)器人只跳舞,沒什么用”

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

頭條要聞

美官員稱6個(gè)月內(nèi)三國政府或被親美政權(quán)取代 中方回應(yīng)

體育要聞

曝雄鹿計(jì)劃今夏追小卡 字母哥渴望與其并肩作戰(zhàn)

娛樂要聞

撒貝寧到沈陽跑親戚 老婆李白模特身材

財(cái)經(jīng)要聞

上海樓市放大招,地產(chǎn)預(yù)期別太大

汽車要聞

750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

態(tài)度原創(chuàng)

藝術(shù)
健康
旅游
教育
時(shí)尚

藝術(shù)要聞

這位藝術(shù)家的馬賽克畫讓人驚嘆不已!

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

旅游要聞

人文齊魯|一位晚清書畫收藏家的大明湖游記

教育要聞

高考生家長速碼!這幾個(gè)冷門專業(yè)已翻紅,選對(duì)不后悔

普通人穿衣別太老氣橫秋!這些穿搭給你靈感,保暖耐看兩不誤

無障礙瀏覽 進(jìn)入關(guān)懷版