国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

豆包1.8實測——字節(jié)的基座模型走到哪一步了?

0
分享至

最近這段時間,谷歌DeepMind的官方紀錄片《The Thinking Game》在AI圈傳播挺廣。

不得不說,拍得的確好,看過的人應該都對結(jié)尾那段很有張力的場景印象深刻:創(chuàng)始人Demis Hassabis拿著手機對準桌面,非常很松弛地和AI聊天——

他指著桌上的棋盤問怎么走,AI教他下西西里防御;他指著一個鉛筆裝置問抽走一根會怎樣,AI告訴他會崩塌。

這畫面,確實很Sexy。

而恰好我也看到了字節(jié)剛發(fā)的“豆包大模型1.8”的技術報告,發(fā)現(xiàn)其一個亮點也是視覺理解和推理。

于是我隨即在火山引擎的后臺用豆包1.8跑了一下這兩個case——

正好最近在多鄰國里學國際象棋,于是給它實拍了家里自己擺的“雙馬防御”的開局,鉛筆裝置就隨便找了一張平替圖。


可以看豆包大模型1.8在理解和推理后給出了自己的走法——d3的兵進到d4。

一般認為雙馬防御有三種走法,其一是白方的f3的馬跳到g5,其二是d2的兵進到d3。

其三就是更激進的蘇格蘭棄兵風格的兵直接進到d4,也就是豆包1.8給出的選擇,它列出的理由也合情合理。

而面對鉛筆裝置,其視覺推理和受力分析也毫無壓力,直接告知會“傾斜、坍塌”。


這么一看,這個模型的確有點東西,我決定繼續(xù)沿著技術報告繼續(xù)盤一盤它——

一、從技術報告看“豆包大模型1.8”的水準與亮點

火山引擎最新推出的豆包1.8沒有像市面上大多數(shù)模型那樣,動不動就湊個整,叫 2.0,或者加個 Max、Ultra 的后綴來裝點自己。

1.8,這個數(shù)字本身就透著一種實用主義的取向。

技術報告里的Benchmark以及它強調(diào)的“Generalized Real-World Agency”,都強調(diào)一個邏輯:關注實用性。

所以在技術報告里,整體上,它承認和 GPT-5 High、Gemini 3 Pro 這些世界頂尖閉源模型還有差距。

但這個差距,正在以肉眼可見的速度縮小。

具體而言,豆包1.8 和它自己的前代 豆包1.5、1.6 相比,那牙膏的確是是擠爆了。

豆包大模型1.8 強調(diào)“Economically Valuable Fields”(經(jīng)濟價值領域),核心能力是讓模型在真實世界里能多輪互動、用工具、接收環(huán)境反饋、做多步任務。

注意它的措辭:把感知、推理、行動盡量揉進一個統(tǒng)一的模型里。

以我粗淺的理解,下面三個點可以說一說——

1)整體縮小與世界頂級閉源模型差距,部分細分指標逼近 SOTA

報告里的第一張表直接把 豆包1.8 拉去跟 GPT-5 High、Claude Sonnet-4.5、Gemini 2.5 Pro、Gemini 3 Pro 同臺對打。


仔細看數(shù)據(jù),數(shù)學、代碼、推理這些硬骨頭,大體上屬于:綜合仍有差距,但差距在縮??;局部指標已經(jīng)能貼著 SOTA 邊走。

比如 AIME-25 上 94.3,和最高的 95.0 幾乎貼臉;一些復雜指令遵循(Inverse IFEval)也到了 80.3,跟 Gemini 3 Pro 的 80.6 只差一口氣。

補一個小細節(jié):報告明確說 豆包1.8 提供四檔 thinking mode(no_think / think-low / think-medium / think-high)。

該設置用來在時延、算力成本、解題質(zhì)量 之間做可控權衡。

這其實是想讓用戶能把它塞進不同預算、不同延遲的系統(tǒng)里跑起來。

2)在 ZeroBench、VLMsAreBiased 等多項視覺基準中超越 Gemini 3 Pro

的確,頭部模型都在卷多模態(tài),原因很簡單:語言是世界的說明書,但多模態(tài)才是世界本身。

我記得前兩年還有一個很流行的說法,叫“多模態(tài)不產(chǎn)生智能”,現(xiàn)在看這個說法錯得離譜。

想讓 Agent 真去做事,它當然要看屏幕、看表格、看截圖、看報表。

報告在視覺上給了非常硬的一句話:豆包1.8 相對前代 Seed1.5-VL 有“顯著提升”,整體能力“逼近 Gemini 3 Pro”,并且在若干挑戰(zhàn)基準上直接超過 Gemini 3 Pro。


最醒目的兩個點:

ZeroBench (main):豆包大模型1.8 = 11.0,Gemini 3 Pro = 10.0(SOTA)。

VLMsAreBiased:豆包大模型 = 62.0,Gemini 3 Pro = 50.6,而且報告還強調(diào)這是顯著領先。

這兩項為什么重要?

因為它們指向的是更接近真實世界的兩類痛點——

第一,圖里有信息,但信息是隱含或組合的、甚至是反直覺的;

第二,現(xiàn)實世界的圖像不是干凈數(shù)據(jù)集,是帶噪聲、帶誤導的。

豆包大模型1.8它在解鎖應用場景的能力上很強——

多圖理解(MUIRBench)上、2D/3D 空間理解上,它拿到 78.7,領先于 Gemini 3 Pro 與 GPT-5.1 High。

這些說白了就是為了Agent能看懂界面結(jié)構、看懂圖表關系、看懂空間位置的,只要做過一點 browser agent、GUI agent,就知道這個的重要性。

3)Agent 能力提升:在 BrowseComp-en、BrowseComp-zh、GAIA 中實現(xiàn)領先水準

講 agent,千萬別把它當提示詞工程的勝利或者是上下文工程的勝利,agent 對基礎模型的智能程度要求極高。

報告在定義上就把這事說得很直白:豆包大模型1.8 面向多輪互動與任務執(zhí)行,支持搜索、代碼執(zhí)行、GUI 交互。

并且報告中強調(diào):中間結(jié)果會反過來影響下一步動作,其實就是:邊走邊看邊改。

具體到數(shù)據(jù)層面,它在 BrowseComp 這類真實檢索與瀏覽任務上,表現(xiàn)不俗:

具體而言豆包大模型1.8在GAIA、BrowseComp-en、BrowseComp-zh、WideSearch這幾個benchmark上高于GPT-5 High 和Gemini 3 Pro。


這類指標的意義很實用的,如果你做的是搜索型 agent、研究型 agent、瀏覽器agent,模型需要穩(wěn)定地找到證據(jù)、過濾噪音、做出判斷,并且能把證據(jù)鏈講清楚。

值得注意的是,豆包1.8在BrowseComp-zh 這種中文任務表現(xiàn)出了入鄉(xiāng)隨俗的優(yōu)勢,中文互聯(lián)網(wǎng)的信息密度、噪音密度、話術密度都有自己的特點,能處理好,不容易。

而且數(shù)據(jù)還顯示它在多模態(tài)檢索(MM-BrowseComp)上也有著不錯分數(shù)(46.3),說明它不是只會搜文本,而是開始能把圖表、界面元素納入決策,這一點對Agent的實用性也非常重要。

總結(jié)一成一句話:豆包大模型1.8底座能力在縮差、視覺能力很能打、Agentic 指標上升到第一梯隊。

二、綜合實測:我在Browser Use Agent里由易到難給它上了一些強

廢話少說,從簡單的開始,先來個弱智吧的經(jīng)典題——

“擎天柱買保險是買車險還是人身意外險?”


很顯然,面對這種調(diào)戲,豆包1.8模型已經(jīng)輕車熟路,思考過程細致、清晰、詳細,回答滴水不漏,挑不出任何毛病。

注意,我們看到即便是這樣簡單的問題看,只要我選擇了高思考模式,它就會飽和思考,可以看到它總共調(diào)用了10386token,的確沒有偷懶。

咱們繼續(xù),稍微上一點強度,既然技術報告里強調(diào)了視覺理解是亮點,那咱們就直接來一段視頻。

我直接上傳了喬布斯1993年的蘋果經(jīng)典廣告“Think different”,要求它逐一識別出視頻里的涉及到的人物。

為了防止它偷懶直接上網(wǎng)搜搜結(jié)果,我特別強調(diào)要按時間線準確列出人物出場時間。

可以看到,在耗時20.85妙之后,它成功給出了時間線,完整、準確、天衣無縫——


咱們繼續(xù),Agentic的能力也是本次技術報告中強調(diào)的重點,因此我決定直接通過Agent來用豆包大模型1.8。

我在火山引擎的后臺找到了官方現(xiàn)成的Browser Use的Agent,一起來調(diào)戲它一下——

咱們照例先來簡單的,第一個任務——登錄網(wǎng)頁版微信回復我老婆的刁鉆問題。

微信是常用軟件,回答的不好可是要出問題的,而我老婆的問題是那道經(jīng)典的送命題——


我和你媽同時掉進水里,你先救誰?”

從視頻看到,毫無壓力,輕松應答,目前看,整一個應用應對日常聊天應該是綽綽有余的。

期待字節(jié)官方可以整一個面向C端的Web應用,再不濟,開發(fā)者也可以基于火山引擎的服務整一個面向C端用戶的應用,我相信這類應用是有人愿意用滴。

接下來,咱們繼續(xù)來一點小小的行為藝術——

搜索"FutureMe.org"(給未來寫信的網(wǎng)站)。寫一封信給10年后的自己(huweixi@126.com)。內(nèi)容是:"今天是2025年12月17日,我正在用一個Al Agent給未來的自己寫信。如果你收到了這封信,說明AI還沒有毀滅人類。"

可以看到,Browser Use Agent對這類任務也輕松拿捏,成功找到網(wǎng)站,寫下郵件,時間選擇10年,選擇了“私人信件”,填寫收件郵箱,就等著最后付款了,當然付款顯然超出了它的能力范圍。

(老外的網(wǎng)站就是這樣,屁大一點的功能都要錢,還死貴,等著,哪天我vibe coding一個,不要錢,關注我公眾號就行,愿意贊助token和服務的云廠商可酌情聯(lián)系)

接下來,咱們稍微上一點點難度,來一個實用一些的操作case——

“去微博(我會幫你登錄),搜索用戶“李楠或kkk”,按順序關注10個他的關注列表中的用戶,然后發(fā)一條微博——“AI獎賞懶惰的思考者,懲罰勤奮的執(zhí)行者——本條由Browser Use Agent自動發(fā)送”,最后搜索用戶“來去之間”,給他的最新博文點贊?!?/blockquote>

可以看到,Browser Use Agent行云流水,登錄之后快速找到了李楠的賬號,然后找到列表成功關注了一堆,發(fā)微博和點贊也不在話下。

這其實是非常實用的功能,其實我在Twitter就有一個類似的需求,找到一些高質(zhì)量的海外AI博主進行關注,這個功能其實就可以滿足這類需求。

(可惜火山引擎的后臺演示頁面沒辦法上Twitter)

咱們再來一個有點刁鉆的挑戰(zhàn),也是我在這次測試中非常滿意的一個測試——

“在瀏覽器里打開豆瓣,從電影《霸王別姬》開始,只允許點擊鏈接,利用六度分隔理論,一步步摸到《我不是藥神》的頁面去?!?/blockquote>

這源于我在研究生期間對六度分隔理論在國內(nèi)電影和演員之間應用的興趣。

六度分隔理論原本是說任意兩個人之間最多可通過5個人就能聯(lián)系上,擴展到影視圈就是任意兩部電影或者兩個演員,最多通過5個演員和電影就能關聯(lián)上。

這個case我感覺還是有點難度滴。

咱們來看看Browser Use Agent的表現(xiàn),說實話是超出我的預期的,它在幾步之內(nèi),不迷路、不瞎點,不到一分鐘成功找到了路徑——

在《霸王別姬》的演員中找到了葛優(yōu),然后在葛優(yōu)出演的電影中找到了《我和我的祖國》,接著在《我和我的祖國》的導演名單中找到了文牧野,然后在文牧野的導演作品中找到了《我不是藥神》。

一次完成,沒有走彎路,牛逼!

豆包大模型1.8的報告里特意提到了 "Native visual perception"(原生視覺感知)。

這點很關鍵,它不是把網(wǎng)頁轉(zhuǎn)成一堆亂碼去讀,而是像人一樣,盯著屏幕截圖看。

在《霸王別姬》的頁面上,它一眼相中了葛優(yōu),為什么選葛優(yōu)?不是張國榮,不是鞏俐?

這就體現(xiàn)了模型的智商。

如果選張國榮,年代和地域都和文牧野這些內(nèi)地現(xiàn)實主義題材的圈子略遠,選葛優(yōu),他連接多,是大節(jié)點,沒毛病。

這一通操作,就是視覺理解和深度思考的有機配合,確實有點東西。

我之所以選Browser Use這個Agent,其實也是經(jīng)過思考的——

瀏覽器作為實用頻率最高的生產(chǎn)力工具之一,它的獨特之處在于它天然就是一個很好Context環(huán)境,而Agent普及一個重點就是如何構建更好的Context。

事實上,稍微觀察一下就會發(fā)現(xiàn),我們在瀏覽器干了太多事了:吸收資訊、收發(fā)郵件、管理項目等等。

如果一個基模它的Browser Use能力強,有理由認為它在生產(chǎn)力領域的泛化潛力就越好。

從這個意義上,我們期待越來越多的創(chuàng)業(yè)者和開發(fā)者能基于豆包1.8這樣Agentic能力突出的基模開發(fā)出更有想象力的應用。

當然,必須承認,以上我個人層面的測試case并不能完全闡述豆包大模型1.8的全部水準,但我們可以將其視為一面鏡子,其折射出的能力是具有可擴展性的。

歸根結(jié)底,Agent最終需要的就是腦、眼、手以及工具組合,而上面的case其實已經(jīng)能體現(xiàn)豆包1.8將感知、推理、行動盡量揉進一個統(tǒng)一的模型里帶來的價值。

管中窺豹,可見一斑。

當然,我測評這些模型,也不能完全只說好的方面,也有一些我個人木有那么滿意的地方,比如下面這個case——


本來只想調(diào)戲一下它,結(jié)果濃眉大眼的1.8直接拒絕了我。

可以看到,這種拒絕回答并非在前端頁面的攔截,而是經(jīng)過思考的攔截(可以看到思考過程),也就是說在模型的權重層其實就加入類似“法律相關問題不允許放飛瞎說”的對齊意識。

盡管木有啥幽默感,但想一想也可以理解,畢竟像我這樣提中二問題的人在現(xiàn)實中并不多,涉及法律謹慎一點好。

但下面這個case感覺就是對齊思維略過了——



這個需求居然也拒絕我了,在我看來,這是一個非常合理的需求。

然而模型的思考似乎表現(xiàn)出了非常強的正義感,開始“正確無害”滴說教了,希望模型開發(fā)的同學可以get到這個長尾的case。

三、“模型能力升級-解鎖新的應用場景”這個范式預計在2026還會加速

的確,通過寥寥幾個案例很顯然無法清楚地闡釋一個模型的全部能力,這也是為什么需要各類Benchmark的原因,但我想說,Benchmark并非全部。

毫無疑問,基模還在繼續(xù)卷,挑戰(zhàn)智能上限的過程還在繼續(xù)。

如果我們不能理解模型的進步,我們只需要看一看在2023年,我們是如何測試GPT4的(),就會發(fā)現(xiàn)基模的進步其實在這兩年已經(jīng)滄海桑田。

從這個意義上,我需要再次強調(diào)我的觀點——當基模的智能足夠強的時候,應用往往就不需要雕花。

很多創(chuàng)業(yè)者開發(fā)AI應用,特別容易陷入一種手工藝人心態(tài):覺得模型不夠,就靠規(guī)則、提示詞優(yōu)化、工作流去縫縫補補。

這本質(zhì)上就是雕花,花雕越精細,并不是護城河越深,而是競爭力越脆弱。

我非常認可Manus的季逸超的一個說法,他認為“產(chǎn)品與底層模型最好保持正交:如果模型進步是上漲的潮水,應用應該成為那條船,而不是固定在海床上的柱子。”

的確,一旦把基模智能拉到一個閾值以上,應用層的雕花會變成一種負擔。

基模的智能足夠強的時候,它對任務的理解、對上下文的把握、對多模態(tài)證據(jù)的讀取、對動作后果的預判,往往比開發(fā)者寫出來的規(guī)則更自洽,工程上稱之為“魯棒性”。

從豆包大模型1.8的技術報告我們也能看到,模型的Agentic能力足夠強的時候,應用應該做的是“找場景、定目標、給工具、設邊界”。

一句話——相信基模,不要雕花。

結(jié)語

豆包大模型1.8的報告我覺得有的一個點可能被大部分人低估了:它專門做了一組 “Economically Valuable Fields” 的內(nèi)部評測基準。

這些內(nèi)部基準覆蓋了教育、客服、法律、金融等多個現(xiàn)實場景,這是一個產(chǎn)業(yè)視角、也是一種用戶思維,而這種被低估的取向未來會證明其應有的價值。

——End——

作者簡介:衛(wèi)夕,公眾號“衛(wèi)夕指北”出品人,科技專欄作者,專寫長文,專注剖析互聯(lián)網(wǎng)及社會科學的底層邏輯;不關注這個賬號,你都不知道你會錯過神馬!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國船員實拍伊朗導彈轟炸阿聯(lián)酋儲油設施,6枚愛國者皆攔截失敗

中國船員實拍伊朗導彈轟炸阿聯(lián)酋儲油設施,6枚愛國者皆攔截失敗

不掉線電波
2026-03-12 09:27:43
網(wǎng)紅王炸姐直播時去世!僅39歲,黑色外套像件壽衣,女兒才四歲!

網(wǎng)紅王炸姐直播時去世!僅39歲,黑色外套像件壽衣,女兒才四歲!

烏娛子醬
2026-03-12 14:08:28
讓霍爾木茲海峽關閉的,不是伊朗,而是這七家再保險機構

讓霍爾木茲海峽關閉的,不是伊朗,而是這七家再保險機構

知識圈
2026-03-11 22:16:23
韓媒:中國隊遞補世界杯純屬無稽之談,即便伊朗退賽也遠輪不到

韓媒:中國隊遞補世界杯純屬無稽之談,即便伊朗退賽也遠輪不到

懂球帝
2026-03-12 17:05:04
索賠138億只是開始,巴拿馬闖下大禍,中國要對其全球資產(chǎn)動手

索賠138億只是開始,巴拿馬闖下大禍,中國要對其全球資產(chǎn)動手

浮光驚掠影
2026-03-11 22:17:46
體制內(nèi)犯政治紀律錯有多嚴重?頂流也能給你按下去,張藝興走窄了

體制內(nèi)犯政治紀律錯有多嚴重?頂流也能給你按下去,張藝興走窄了

社會醬
2026-03-12 17:31:34
伊朗這一戰(zhàn)把美軍底褲扒光,全球軍事格局從此改寫

伊朗這一戰(zhàn)把美軍底褲扒光,全球軍事格局從此改寫

紀史行者
2026-03-10 07:45:50
特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

特朗普撂挑子不干了,以色列連俄大樓都敢炸,普京把話說得很清楚

策前論
2026-03-12 12:46:44
費玉清70歲獨居臺北淡水老宅,與61歲閨蜜為伴

費玉清70歲獨居臺北淡水老宅,與61歲閨蜜為伴

天啟大世界
2026-03-10 23:10:16
中方回應特朗普計劃訪華

中方回應特朗普計劃訪華

第一財經(jīng)資訊
2026-03-12 15:48:23
哈佛女博士被打假!偽造學歷到處借錢,疑有精神病,私生活太離譜

哈佛女博士被打假!偽造學歷到處借錢,疑有精神病,私生活太離譜

阿纂看事
2026-03-11 16:04:22
9個集裝箱滯留阿曼灣,浙江紡織老板:原本旺季現(xiàn)在訂單歸零,原材料和運費瘋漲,將暫時停產(chǎn)

9個集裝箱滯留阿曼灣,浙江紡織老板:原本旺季現(xiàn)在訂單歸零,原材料和運費瘋漲,將暫時停產(chǎn)

極目新聞
2026-03-12 10:33:45
《鏢人》票房破13億!制片人透露電影已經(jīng)回本,吳京這次又賭贏了

《鏢人》票房破13億!制片人透露電影已經(jīng)回本,吳京這次又賭贏了

得得電影
2026-03-12 13:08:55
OpenClaw創(chuàng)始人表達對騰訊抄襲不滿:大量抓取龍蝦數(shù)據(jù)卻不提供支持,服務器成本飆升

OpenClaw創(chuàng)始人表達對騰訊抄襲不滿:大量抓取龍蝦數(shù)據(jù)卻不提供支持,服務器成本飆升

回旋鏢
2026-03-12 14:56:05
注意!C1駕照迎來大調(diào)整,2026年3月20日起全國執(zhí)行

注意!C1駕照迎來大調(diào)整,2026年3月20日起全國執(zhí)行

娛樂圈的筆娛君
2026-03-12 01:04:54
她果然沒離,畢竟400億資產(chǎn)的男人也不多??!

BenSir本色說
2026-03-11 22:06:22

伊朗新領袖遭襲受傷,特朗普斬首行動失敗?伊朗抓捕121名內(nèi)鬼!

伊朗新領袖遭襲受傷,特朗普斬首行動失???伊朗抓捕121名內(nèi)鬼!

軍機Talk
2026-03-11 14:50:31
誰在掏空銀行?惠州博羅農(nóng)商行與空殼公司勾結(jié),騙貸1.3億成爛賬

誰在掏空銀行?惠州博羅農(nóng)商行與空殼公司勾結(jié),騙貸1.3億成爛賬

微評社
2026-03-12 00:40:52
武漢一男子稱頭部被固定困在核磁共振機6小時,涉事兩醫(yī)生被停職

武漢一男子稱頭部被固定困在核磁共振機6小時,涉事兩醫(yī)生被停職

上游新聞
2026-03-12 20:07:17
慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設防

慘烈畫面:1噸級彈頭“滅國彈”突防特拉維夫,以軍已不設防

策略述
2026-03-12 16:21:28
2026-03-12 21:11:00
衛(wèi)夕指北 incentive-icons
衛(wèi)夕指北
深度剖析互聯(lián)網(wǎng)底層邏輯
185文章數(shù) 4567關注度
往期回顧 全部

科技要聞

當養(yǎng)蝦人開始卸載,大廠的戰(zhàn)爭才真正開始

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

頭條要聞

男子做核磁被遺忘在機器上6小時 涉事醫(yī)生:交接失誤

體育要聞

建議將“出球型門將”納入反詐app

娛樂要聞

田亮一家新年全家福!森碟變清純少女

財經(jīng)要聞

盧鋒:從特朗普團隊群演看時代變局

汽車要聞

大眾2025財報:轉(zhuǎn)型雖有陣痛 "大象"已然起跑

態(tài)度原創(chuàng)

藝術
健康
游戲
房產(chǎn)
公開課

藝術要聞

朱屺瞻『凌波仙子』

轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

魂師對決:當前版本必練7人組盤點!真就是角色越多必練越少?

房產(chǎn)要聞

唏噓!三亞又一房企巨頭破產(chǎn),狂欠43億甩賣資產(chǎn)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版