国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

豆包的新模型,想給“豆包電腦”打個(gè)樣?

0
分享至


今天你王炸登場(chǎng),明天它新帝登基。。。

到了 2025 年年末這個(gè)時(shí)候,世超其實(shí)對(duì)各類大模型的輪番轟炸有些麻了。

想要真讓大家眼前一亮,要么是實(shí)力碾壓,斷層領(lǐng)先其他模型,要么是能整出一些人們之前沒(méi)見過(guò)的新活。

就比如前段時(shí)間發(fā)布的豆包手機(jī)助手。


啥活都能干,這些活都還干得敞亮,其實(shí)是滿足了不少人,對(duì)曾經(jīng)幻想的“ AI 手機(jī)” 的期待的。


今天,豆包則是趁熱打鐵,在火山引擎的 FORCE 大會(huì)上,發(fā)布了全新的基礎(chǔ)模型: 豆包大模型 1.8。


這個(gè)新模型的優(yōu)化 ,幾乎可以說(shuō)全部是為一個(gè)目標(biāo)服務(wù)的:

它不僅僅是要做一個(gè)更強(qiáng)的聊天模型。

而是做Generalized Real-World Agency,想要做一個(gè)通用的,面向真實(shí)世界的 Agent 代理。


首先,必須得夸一句豆包團(tuán)隊(duì)的坦誠(chéng)。

在技術(shù)報(bào)告的各類基礎(chǔ)跑分環(huán)節(jié),豆包表現(xiàn)得非常實(shí)事求是:跑不過(guò)就是跑不過(guò),不硬吹。

在純粹的編程(LiveCodeBench)、高難數(shù)學(xué)(AIME)或者硬核科學(xué)推理這些項(xiàng)目上,Google 的 Gemini 3-Pro 依然是目前的行業(yè)天花板。

豆包大模型 1.8 在這些項(xiàng)目中確實(shí)略遜一籌。

但是,這個(gè)“略遜”還是很有含金量的。


在 Agent 能力的測(cè)試?yán)铮拱踔镣瓿闪藢?duì) Gemini 的逆襲。

在干活(GAIA測(cè)試),網(wǎng)上搜集資料(BrowseComp測(cè)試)這些測(cè)試上,豆包的新模型都取得了挺不錯(cuò)的成績(jī)。

甚至它豆包、作為一個(gè)中國(guó)公司推出的大模型,在搜集英文資料(BrowseComp-en)的能力上,還要領(lǐng)先 GPT、Gemini、Claude 這些外國(guó)公司一大截。


倒反天罡了屬于是。

咱們也簡(jiǎn)單的測(cè)試了一下真拿這玩意干活的效果。

當(dāng)然,常規(guī)的測(cè)試可能沒(méi)啥意思,于是我們決定試一下,復(fù)刻一個(gè)“豆包電腦”出來(lái)看看。

眾所周知,字節(jié)今年開源過(guò)一個(gè)好玩意 —— Agent TARS,有了這么個(gè)程序框架之后,你就可以讓大模型來(lái)直接控制我們的電腦了。


于是,我給這個(gè) Agent TARS 接入了一下豆包 1.8 新模型的 API,然后讓它先跑起一個(gè)簡(jiǎn)單的任務(wù)看看。

比如說(shuō),讓豆包來(lái)幫我們完成一下多鄰國(guó)的打卡。

咱們簡(jiǎn)單描述一下需求,豆包就能自己在瀏覽器里找到多鄰國(guó)的網(wǎng)址,在我手動(dòng)登陸了賬號(hào)之后,它就能自己開始識(shí)別屏幕,一步一步的思考,完成我們要求的打卡任務(wù)。


在任務(wù)執(zhí)行的過(guò)程中,咱們還能隨時(shí)看到豆包它是怎么思考的。

比如在點(diǎn)擊了“襪子”完成了選擇之后,就會(huì)自動(dòng)思考,找到任務(wù)下一步的按鈕在哪。


它甚至還會(huì)試圖做聽力題。


最終,在差不多花了 16 分鐘后,豆包成功的幫我完成了今天的多鄰國(guó)打卡任務(wù)。


雖然確實(shí)有些慢是吧。。。

但是畢竟人家是在后臺(tái)運(yùn)行的,不影響我在前面繼續(xù)干活,所以其實(shí)慢點(diǎn)也沒(méi)太所謂。

再比如我可以讓它幫我自動(dòng)總結(jié)今天和具身智能有關(guān)的新聞,然后把這些新聞給保存到本地。


甚至可以直接問(wèn)它我這臺(tái)電腦的型號(hào)是什么,問(wèn)問(wèn)我電腦的存儲(chǔ)空間還剩多少。

它都能穩(wěn)健的通過(guò)命令行查詢基礎(chǔ)信息,然后再總結(jié)成人話回來(lái)告訴我們。



當(dāng)然,現(xiàn)在這個(gè)“豆包電腦” 只是世超自己花了十幾分鐘,拿著開源代碼跑出來(lái)的簡(jiǎn)單 demo,在成熟度,穩(wěn)定性上肯定和成熟的商業(yè)方案沒(méi)法比。

但至少,豆包展現(xiàn)出來(lái)的一整個(gè)屏幕信息理解,關(guān)鍵問(wèn)題拆解的能力,還是挺讓人有信心的。

在這個(gè)框架上再打磨打磨,可能再過(guò)個(gè)半年,咱們真能看到“豆包電腦”問(wèn)世了。

所以,豆包怎么突然這么會(huì)干活了?

要搞明白這個(gè)問(wèn)題,咱就得回到開頭的技術(shù)報(bào)告上來(lái)看。


一方面,豆包在不斷強(qiáng)化模型對(duì)圖像的理解能力。

報(bào)告里寫得很清楚,Seed1.8 在同一套接口里同時(shí)支持搜索、代碼生成與執(zhí)行、以及 GUI 交互;檢索到的信息、代碼跑出來(lái)的結(jié)果、界面里點(diǎn)出來(lái)的狀態(tài),都會(huì)回到下一步?jīng)Q策里,形成閉環(huán)。

他們非常在意真實(shí)環(huán)境的重要性。


因?yàn)檫@些 Agent 在真的來(lái)幫我們干活的時(shí)候,能看到的信息里根本沒(méi)有什么API

有的只有各種各樣的截圖,各種各樣的文字,各種各樣的圖標(biāo)和各種各樣的按鈕。

可以說(shuō)是模型有多能理解屏幕,那就有多能把活給干完。


另一方面,他們同步增強(qiáng)了豆包的“記性”。

加強(qiáng)了模型的視覺理解能力,讓模型一次性能理解幀數(shù)翻倍,假設(shè),讓豆包每隔六秒截一次屏幕的話,那么它可以一口氣理解整整一個(gè)小時(shí)內(nèi),咱們拿電腦做了什么事情。

而且人家還能一邊看視頻,一邊調(diào)用工具,來(lái)回看視頻。

在官網(wǎng)上就展示了一個(gè)例子,模型可以先量子速讀整個(gè)視頻,然后再通過(guò) VIDEOCUT 這類工具仔細(xì)的回看一些片段,加倍理解整個(gè)視頻。


世超自己也試了一下,丟了一個(gè)高速上到處都是車的視頻上去,讓豆包幫我數(shù)數(shù)看有幾輛黃色的車。

這條視頻可能是因?yàn)橛悬c(diǎn)短的緣故,沒(méi)觸發(fā)剛剛說(shuō)的 VIDEOCUT 功能,但人家依舊可以穩(wěn)定的找到黃車。還把黃車出現(xiàn)的時(shí)間也給順便標(biāo)記了出來(lái)。


另外,他們還特別注意模型 “聽人話” 的能力。

不知道大家平時(shí)用 AI 的時(shí)候,會(huì)不會(huì)感覺有時(shí)候 AI 有時(shí)候會(huì)變的非常弱智,聽不懂一點(diǎn)指揮。

這是因?yàn)楝F(xiàn)在的大模型是靠海量人類數(shù)據(jù)“喂”出來(lái)的,對(duì)于很多經(jīng)典問(wèn)題,它們已經(jīng)形成了極強(qiáng)的肌肉記憶。

比如讓他畫一個(gè)人用左手寫字的圖片,模型可能會(huì)因?yàn)闆](méi)見過(guò)用左手寫字的數(shù)據(jù)集,然后直接畫成了用右手寫字。


在論文里也提到,豆包他們特意測(cè)試了一個(gè)叫做 Inverse IFEval 的測(cè)試集。


這個(gè)測(cè)試很有意思,有點(diǎn)像之前流行的弱智吧題集,它會(huì)設(shè)計(jì)一些非!胺粗庇X” 的題目來(lái)讓大模型做答,我從它的題庫(kù)里隨便找了一個(gè)題來(lái)給大家看看:

籠子里同時(shí)有鴨和兔子, 一共有5個(gè)頭, 18個(gè)腳, 請(qǐng)用最簡(jiǎn)單的方法求出籠子里有幾種動(dòng)物?直接給出答案,不要包含推理和計(jì)算過(guò)程。


注意審題,這個(gè)題目看起來(lái)很像一個(gè)咱們小學(xué)奧數(shù)都學(xué)過(guò)的雞兔同籠的問(wèn)題。

但其實(shí)只是在問(wèn)你有幾種動(dòng)物而已,所以只要回答兩種就行了。

但是,就是這么個(gè)小學(xué)生認(rèn)真讀題都能搞定的問(wèn)題,就讓 GPT 都翻了車。


而豆包則在一系列嘰里咕嚕的思考過(guò)程后,成功看透了問(wèn)題的關(guān)鍵,搞明白了答案。


還有個(gè)好玩的是,豆包 1.8 的模型兼容性做的也很出色。

這兩年,大家也聽過(guò)了不少能通過(guò)命令行來(lái)直接控制你的電腦的 AI 工具。

這些工具好不好用,往往取決于兩個(gè)方面,一個(gè)是工具本身的任務(wù)拆解,項(xiàng)目分析,順序執(zhí)行的工程能力,另一個(gè)則是這個(gè)工具背后調(diào)用的模型本身的硬實(shí)力。

兩者同步率高,那就是 100% best match,發(fā)揮出 1 + 1 > 2 的實(shí)力,兩者要是配合的不好,那就開始拖后腿了。

而豆包這邊,對(duì)不同 Agent 框架的適應(yīng)性都不錯(cuò)。在報(bào)告中可以看到,它在 Trae、Claude Code、OpenHands 這些完全不同的框架下,代碼通過(guò)率都能穩(wěn)定在 64.8% 到 72.9% 之間 ,這說(shuō)明豆包這邊不挑工作環(huán)境,在哪都猛猛能干活。


最后,世超感覺在未來(lái),隨著模型基礎(chǔ)能力的越來(lái)越強(qiáng),各家 AI 大廠在研究 AI 道路上的不斷深入。

頂級(jí)模型之間的差異,也可能越來(lái)越明顯,各個(gè)都偏那么一點(diǎn)點(diǎn)科。

每家公司對(duì)AI開發(fā)的理解不同,會(huì)讓他們做出來(lái)的模型也各有各的風(fēng)味。

比如 Anthropic,認(rèn)為代碼即智能,只要讓 AI 寫出足夠強(qiáng)的代碼,那就能達(dá)到 AGI。

DeepSeek 則是認(rèn)為數(shù)學(xué)即智能,只要讓 AI 能解出復(fù)雜的數(shù)學(xué)題,那就能達(dá)到 AGI。

谷歌則是認(rèn)為理解即智能,只要讓 AI 能夠理解各種圖片和文字之間的位置關(guān)系,畫出好看的界面,那就可以達(dá)到 AGI。

而豆包解題思路,現(xiàn)在看起來(lái)很明確了。


Agent 即智能。

模型能力越強(qiáng),模型越能幫我們操縱現(xiàn)實(shí)世界中的互聯(lián)網(wǎng),就越能接近 AGI。

另外今天在豆包大模型的發(fā)布會(huì)上,世超還看到個(gè)離譜的數(shù)據(jù)。

現(xiàn)在豆包大模型的日均使用量,都能給干到 50 萬(wàn)億tokens了,對(duì)比去年剛發(fā)布的時(shí)候,翻了整整 417 倍。


有點(diǎn)離譜,只能說(shuō)這兩年來(lái),AI 發(fā)展的實(shí)在是太快了。

各行業(yè)各業(yè)多少都要沾點(diǎn) AI 的邊。

大家對(duì) AI 的需求也越來(lái)越大,還真的蠻需要一個(gè)能好好干活的 AI 的。

條條大路通羅馬。未來(lái)究竟是誰(shuí)定義的路徑能率先觸碰 AGI 的圣杯?

咱們只能說(shuō),拭目以待。

撰文:早起

編輯:江江 & 面線

美編:煥妍

圖片、資料來(lái)源

AI畫不出左手,是因?yàn)槲覀兘o了它一個(gè)偏科的童年 - 數(shù)字生命卡茲克

Seed1.8 Model Card: Towards Generalized Real-World Agency

https://github.com/bytedance/UI-TARS-desktop



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

三觀炸裂!翟欣欣出軌聊天記錄流出,尺度大到咂舌,判12年都嫌少

有范又有料
2025-09-29 14:21:11
一生好酒又好色,卻有驚世才華,留下無(wú)數(shù)經(jīng)典作品讓后世膜拜

一生好酒又好色,卻有驚世才華,留下無(wú)數(shù)經(jīng)典作品讓后世膜拜

林雁飛
2025-12-17 13:53:59
1940年,陳賡把戰(zhàn)壕挖到2米深,劉伯承拍桌大怒:你在自掘墳?zāi)!陳賡:這是給鬼子修的墳!

1940年,陳賡把戰(zhàn)壕挖到2米深,劉伯承拍桌大怒:你在自掘墳?zāi)梗£愘s:這是給鬼子修的墳!

史海孤雁
2025-12-17 16:50:15
湖南民營(yíng)企業(yè)百?gòu)?qiáng)榜發(fā)布!常德4家企業(yè)上榜

湖南民營(yíng)企業(yè)百?gòu)?qiáng)榜發(fā)布!常德4家企業(yè)上榜

指尖聲音
2025-12-18 15:46:26
王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來(lái)恩愛只是“遮羞布”

王雷李小萌露餡!出席活動(dòng)冷臉互不理睬 原來(lái)恩愛只是“遮羞布”

好賢觀史記
2025-12-18 12:44:59
佩通坦訪問(wèn)柬埔寨時(shí),在洪森家中舉行晚宴后留下的照片。

佩通坦訪問(wèn)柬埔寨時(shí),在洪森家中舉行晚宴后留下的照片。

南權(quán)先生
2025-12-13 16:50:24
新加坡估計(jì)怎么也想不通一覺醒來(lái),家門口的海南釜底抽薪

新加坡估計(jì)怎么也想不通一覺醒來(lái),家門口的海南釜底抽薪

忠于法紀(jì)
2025-12-12 09:14:49
邱毅:流傳的屠殺中國(guó)人的日本軍官照片是高市早苗祖父高市利彥!

邱毅:流傳的屠殺中國(guó)人的日本軍官照片是高市早苗祖父高市利彥!

南權(quán)先生
2025-12-16 16:22:32
央視曝光固態(tài)電池重大消息!

央視曝光固態(tài)電池重大消息!

電動(dòng)知家
2025-12-18 10:41:13
崩了!她也官宣離婚了

崩了!她也官宣離婚了

美芽
2025-11-23 18:08:44
寧波這回鬧大了!外賣平臺(tái)本想給商家立規(guī)矩,結(jié)果把大家逼急了!

寧波這回鬧大了!外賣平臺(tái)本想給商家立規(guī)矩,結(jié)果把大家逼急了!

青青子衿
2025-12-17 04:58:18
已婚第五代大導(dǎo)演被曝追求北電女學(xué)生,內(nèi)娛底線在哪?

已婚第五代大導(dǎo)演被曝追求北電女學(xué)生,內(nèi)娛底線在哪?

橙星文娛
2025-12-16 16:53:04
美國(guó)人的疑問(wèn):本拉登對(duì)多國(guó)發(fā)起襲擊,為何唯獨(dú)放過(guò)中國(guó)?

美國(guó)人的疑問(wèn):本拉登對(duì)多國(guó)發(fā)起襲擊,為何唯獨(dú)放過(guò)中國(guó)?

珺瑤婉史
2025-11-19 19:20:06
51歲小李子突然認(rèn)真打扮了!和以前比完全大變樣,型男形象太搶眼

51歲小李子突然認(rèn)真打扮了!和以前比完全大變樣,型男形象太搶眼

黔鄉(xiāng)小姊妹
2025-12-04 12:29:41
太尷尬!某單位一把手調(diào)離,在群里發(fā)臨別感言,整整2天無(wú)人回應(yīng)

太尷尬!某單位一把手調(diào)離,在群里發(fā)臨別感言,整整2天無(wú)人回應(yīng)

火山詩(shī)話
2025-08-08 15:17:30
國(guó)民女神又出新片,太刺激了

國(guó)民女神又出新片,太刺激了

來(lái)看美劇
2025-12-18 17:14:35
57歲伊能靜公開韓國(guó)換頭全過(guò)程,填充痕跡明顯,頸紋暴露真實(shí)年齡

57歲伊能靜公開韓國(guó)換頭全過(guò)程,填充痕跡明顯,頸紋暴露真實(shí)年齡

深析古今
2025-12-04 15:07:21
隨著韓國(guó)0-2,日本3-0,東亞錦標(biāo)賽奪冠形勢(shì):中國(guó)若連贏2場(chǎng)仍有希望

隨著韓國(guó)0-2,日本3-0,東亞錦標(biāo)賽奪冠形勢(shì):中國(guó)若連贏2場(chǎng)仍有希望

側(cè)身凌空斬
2025-12-18 17:15:33
商場(chǎng)單方面強(qiáng)制解約?KKV深圳卓悅中心店突然閉店

商場(chǎng)單方面強(qiáng)制解約?KKV深圳卓悅中心店突然閉店

南方都市報(bào)
2025-12-18 17:41:09
中國(guó)股市大佬罕見發(fā)聲:如果散戶長(zhǎng)期捂股不斬倉(cāng),莊家會(huì)怎么辦?

中國(guó)股市大佬罕見發(fā)聲:如果散戶長(zhǎng)期捂股不斬倉(cāng),莊家會(huì)怎么辦?

股經(jīng)縱橫談
2025-12-17 20:54:54
2025-12-19 01:55:00
差評(píng)XPIN incentive-icons
差評(píng)XPIN
用知識(shí)和觀點(diǎn)Debug the world!
10007文章數(shù) 489322關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

頭條要聞

在野黨參議員問(wèn)了句日本"存亡危機(jī)" 高市早苗瞬間冷臉

體育要聞

紐約尼克斯,板正的球隊(duì)

娛樂(lè)要聞

絲芭放大招了!實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

財(cái)經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進(jìn)程

汽車要聞

在零下30℃的考場(chǎng)里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

家居
藝術(shù)
房產(chǎn)
旅游
軍事航空

家居要聞

高端私宅 理想隱居圣地

藝術(shù)要聞

卡洛斯·杜蘭:不只是薩金特的老師!

房產(chǎn)要聞

搶藏瘋潮!封關(guān)時(shí)代,?陧斏萃跽▔狠S,傳世資產(chǎn)即刻登場(chǎng)!

旅游要聞

治愈冬日 emo!沈陽(yáng)北陵紅燈籠長(zhǎng)廊 + 樹掛奇觀,隨手拍都是大片

軍事要聞

福建艦入列后首過(guò)臺(tái)海 臺(tái)方談為何"甲板上沒(méi)有艦載機(jī)"

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版