国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

豆包的新模型,想給“豆包電腦”打個(gè)樣?

0
分享至


今天你王炸登場(chǎng),明天它新帝登基。。。

到了 2025 年年末這個(gè)時(shí)候,世超其實(shí)對(duì)各類大模型的輪番轟炸有些麻了。

想要真讓大家眼前一亮,要么是實(shí)力碾壓,斷層領(lǐng)先其他模型,要么是能整出一些人們之前沒(méi)見(jiàn)過(guò)的新活。

就比如前段時(shí)間發(fā)布的豆包手機(jī)助手。


啥活都能干,這些活都還干得敞亮,其實(shí)是滿足了不少人,對(duì)曾經(jīng)幻想的“ AI 手機(jī)” 的期待的。


今天,豆包則是趁熱打鐵,在火山引擎的 FORCE 大會(huì)上,發(fā)布了全新的基礎(chǔ)模型: 豆包大模型 1.8。


這個(gè)新模型的優(yōu)化 ,幾乎可以說(shuō)全部是為一個(gè)目標(biāo)服務(wù)的:

它不僅僅是要做一個(gè)更強(qiáng)的聊天模型。

而是做Generalized Real-World Agency,想要做一個(gè)通用的,面向真實(shí)世界的 Agent 代理。


首先,必須得夸一句豆包團(tuán)隊(duì)的坦誠(chéng)。

在技術(shù)報(bào)告的各類基礎(chǔ)跑分環(huán)節(jié),豆包表現(xiàn)得非常實(shí)事求是:跑不過(guò)就是跑不過(guò),不硬吹。

在純粹的編程(LiveCodeBench)、高難數(shù)學(xué)(AIME)或者硬核科學(xué)推理這些項(xiàng)目上,Google 的 Gemini 3-Pro 依然是目前的行業(yè)天花板。

豆包大模型 1.8 在這些項(xiàng)目中確實(shí)略遜一籌。

但是,這個(gè)“略遜”還是很有含金量的。


在 Agent 能力的測(cè)試?yán)?,豆包甚至完成了?duì) Gemini 的逆襲。

在干活(GAIA測(cè)試),網(wǎng)上搜集資料(BrowseComp測(cè)試)這些測(cè)試上,豆包的新模型都取得了挺不錯(cuò)的成績(jī)。

甚至它豆包、作為一個(gè)中國(guó)公司推出的大模型,在搜集英文資料(BrowseComp-en)的能力上,還要領(lǐng)先 GPT、Gemini、Claude 這些外國(guó)公司一大截。


倒反天罡了屬于是。

咱們也簡(jiǎn)單的測(cè)試了一下真拿這玩意干活的效果。

當(dāng)然,常規(guī)的測(cè)試可能沒(méi)啥意思,于是我們決定試一下,復(fù)刻一個(gè)“豆包電腦”出來(lái)看看。

眾所周知,字節(jié)今年開(kāi)源過(guò)一個(gè)好玩意 —— Agent TARS,有了這么個(gè)程序框架之后,你就可以讓大模型來(lái)直接控制我們的電腦了。


于是,我給這個(gè) Agent TARS 接入了一下豆包 1.8 新模型的 API,然后讓它先跑起一個(gè)簡(jiǎn)單的任務(wù)看看。

比如說(shuō),讓豆包來(lái)幫我們完成一下多鄰國(guó)的打卡。

咱們簡(jiǎn)單描述一下需求,豆包就能自己在瀏覽器里找到多鄰國(guó)的網(wǎng)址,在我手動(dòng)登陸了賬號(hào)之后,它就能自己開(kāi)始識(shí)別屏幕,一步一步的思考,完成我們要求的打卡任務(wù)。


在任務(wù)執(zhí)行的過(guò)程中,咱們還能隨時(shí)看到豆包它是怎么思考的。

比如在點(diǎn)擊了“襪子”完成了選擇之后,就會(huì)自動(dòng)思考,找到任務(wù)下一步的按鈕在哪。


它甚至還會(huì)試圖做聽(tīng)力題。


最終,在差不多花了 16 分鐘后,豆包成功的幫我完成了今天的多鄰國(guó)打卡任務(wù)。


雖然確實(shí)有些慢是吧。。。

但是畢竟人家是在后臺(tái)運(yùn)行的,不影響我在前面繼續(xù)干活,所以其實(shí)慢點(diǎn)也沒(méi)太所謂。

再比如我可以讓它幫我自動(dòng)總結(jié)今天和具身智能有關(guān)的新聞,然后把這些新聞給保存到本地。


甚至可以直接問(wèn)它我這臺(tái)電腦的型號(hào)是什么,問(wèn)問(wèn)我電腦的存儲(chǔ)空間還剩多少。

它都能穩(wěn)健的通過(guò)命令行查詢基礎(chǔ)信息,然后再總結(jié)成人話回來(lái)告訴我們。



當(dāng)然,現(xiàn)在這個(gè)“豆包電腦” 只是世超自己花了十幾分鐘,拿著開(kāi)源代碼跑出來(lái)的簡(jiǎn)單 demo,在成熟度,穩(wěn)定性上肯定和成熟的商業(yè)方案沒(méi)法比。

但至少,豆包展現(xiàn)出來(lái)的一整個(gè)屏幕信息理解,關(guān)鍵問(wèn)題拆解的能力,還是挺讓人有信心的。

在這個(gè)框架上再打磨打磨,可能再過(guò)個(gè)半年,咱們真能看到“豆包電腦”問(wèn)世了。

所以,豆包怎么突然這么會(huì)干活了?

要搞明白這個(gè)問(wèn)題,咱就得回到開(kāi)頭的技術(shù)報(bào)告上來(lái)看。


一方面,豆包在不斷強(qiáng)化模型對(duì)圖像的理解能力。

報(bào)告里寫得很清楚,Seed1.8 在同一套接口里同時(shí)支持搜索、代碼生成與執(zhí)行、以及 GUI 交互;檢索到的信息、代碼跑出來(lái)的結(jié)果、界面里點(diǎn)出來(lái)的狀態(tài),都會(huì)回到下一步?jīng)Q策里,形成閉環(huán)。

他們非常在意真實(shí)環(huán)境的重要性。


因?yàn)檫@些 Agent 在真的來(lái)幫我們干活的時(shí)候,能看到的信息里根本沒(méi)有什么API。

有的只有各種各樣的截圖,各種各樣的文字,各種各樣的圖標(biāo)和各種各樣的按鈕。

可以說(shuō)是模型有多能理解屏幕,那就有多能把活給干完。


另一方面,他們同步增強(qiáng)了豆包的“記性”。

加強(qiáng)了模型的視覺(jué)理解能力,讓模型一次性能理解幀數(shù)翻倍,假設(shè),讓豆包每隔六秒截一次屏幕的話,那么它可以一口氣理解整整一個(gè)小時(shí)內(nèi),咱們拿電腦做了什么事情。

而且人家還能一邊看視頻,一邊調(diào)用工具,來(lái)回看視頻。

在官網(wǎng)上就展示了一個(gè)例子,模型可以先量子速讀整個(gè)視頻,然后再通過(guò) VIDEOCUT 這類工具仔細(xì)的回看一些片段,加倍理解整個(gè)視頻。


世超自己也試了一下,丟了一個(gè)高速上到處都是車的視頻上去,讓豆包幫我數(shù)數(shù)看有幾輛黃色的車。

這條視頻可能是因?yàn)橛悬c(diǎn)短的緣故,沒(méi)觸發(fā)剛剛說(shuō)的 VIDEOCUT 功能,但人家依舊可以穩(wěn)定的找到黃車。還把黃車出現(xiàn)的時(shí)間也給順便標(biāo)記了出來(lái)。


另外,他們還特別注意模型 “聽(tīng)人話” 的能力。

不知道大家平時(shí)用 AI 的時(shí)候,會(huì)不會(huì)感覺(jué)有時(shí)候 AI 有時(shí)候會(huì)變的非常弱智,聽(tīng)不懂一點(diǎn)指揮。

這是因?yàn)楝F(xiàn)在的大模型是靠海量人類數(shù)據(jù)“喂”出來(lái)的,對(duì)于很多經(jīng)典問(wèn)題,它們已經(jīng)形成了極強(qiáng)的肌肉記憶。

比如讓他畫一個(gè)人用左手寫字的圖片,模型可能會(huì)因?yàn)闆](méi)見(jiàn)過(guò)用左手寫字的數(shù)據(jù)集,然后直接畫成了用右手寫字。


在論文里也提到,豆包他們特意測(cè)試了一個(gè)叫做 Inverse IFEval 的測(cè)試集。


這個(gè)測(cè)試很有意思,有點(diǎn)像之前流行的弱智吧題集,它會(huì)設(shè)計(jì)一些非?!胺粗庇X(jué)” 的題目來(lái)讓大模型做答,我從它的題庫(kù)里隨便找了一個(gè)題來(lái)給大家看看:

籠子里同時(shí)有鴨和兔子, 一共有5個(gè)頭, 18個(gè)腳, 請(qǐng)用最簡(jiǎn)單的方法求出籠子里有幾種動(dòng)物?直接給出答案,不要包含推理和計(jì)算過(guò)程。


注意審題,這個(gè)題目看起來(lái)很像一個(gè)咱們小學(xué)奧數(shù)都學(xué)過(guò)的雞兔同籠的問(wèn)題。

但其實(shí)只是在問(wèn)你有幾種動(dòng)物而已,所以只要回答兩種就行了。

但是,就是這么個(gè)小學(xué)生認(rèn)真讀題都能搞定的問(wèn)題,就讓 GPT 都翻了車。


而豆包則在一系列嘰里咕嚕的思考過(guò)程后,成功看透了問(wèn)題的關(guān)鍵,搞明白了答案。


還有個(gè)好玩的是,豆包 1.8 的模型兼容性做的也很出色。

這兩年,大家也聽(tīng)過(guò)了不少能通過(guò)命令行來(lái)直接控制你的電腦的 AI 工具。

這些工具好不好用,往往取決于兩個(gè)方面,一個(gè)是工具本身的任務(wù)拆解,項(xiàng)目分析,順序執(zhí)行的工程能力,另一個(gè)則是這個(gè)工具背后調(diào)用的模型本身的硬實(shí)力。

兩者同步率高,那就是 100% best match,發(fā)揮出 1 + 1 > 2 的實(shí)力,兩者要是配合的不好,那就開(kāi)始拖后腿了。

而豆包這邊,對(duì)不同 Agent 框架的適應(yīng)性都不錯(cuò)。在報(bào)告中可以看到,它在 Trae、Claude Code、OpenHands 這些完全不同的框架下,代碼通過(guò)率都能穩(wěn)定在 64.8% 到 72.9% 之間 ,這說(shuō)明豆包這邊不挑工作環(huán)境,在哪都猛猛能干活。


最后,世超感覺(jué)在未來(lái),隨著模型基礎(chǔ)能力的越來(lái)越強(qiáng),各家 AI 大廠在研究 AI 道路上的不斷深入。

頂級(jí)模型之間的差異,也可能越來(lái)越明顯,各個(gè)都偏那么一點(diǎn)點(diǎn)科。

每家公司對(duì)AI開(kāi)發(fā)的理解不同,會(huì)讓他們做出來(lái)的模型也各有各的風(fēng)味。

比如 Anthropic,認(rèn)為代碼即智能,只要讓 AI 寫出足夠強(qiáng)的代碼,那就能達(dá)到 AGI。

DeepSeek 則是認(rèn)為數(shù)學(xué)即智能,只要讓 AI 能解出復(fù)雜的數(shù)學(xué)題,那就能達(dá)到 AGI。

谷歌則是認(rèn)為理解即智能,只要讓 AI 能夠理解各種圖片和文字之間的位置關(guān)系,畫出好看的界面,那就可以達(dá)到 AGI。

而豆包解題思路,現(xiàn)在看起來(lái)很明確了。


Agent 即智能。

模型能力越強(qiáng),模型越能幫我們操縱現(xiàn)實(shí)世界中的互聯(lián)網(wǎng),就越能接近 AGI。

另外今天在豆包大模型的發(fā)布會(huì)上,世超還看到個(gè)離譜的數(shù)據(jù)。

現(xiàn)在豆包大模型的日均使用量,都能給干到 50 萬(wàn)億tokens了,對(duì)比去年剛發(fā)布的時(shí)候,翻了整整 417 倍。


有點(diǎn)離譜,只能說(shuō)這兩年來(lái),AI 發(fā)展的實(shí)在是太快了。

各行業(yè)各業(yè)多少都要沾點(diǎn) AI 的邊。

大家對(duì) AI 的需求也越來(lái)越大,還真的蠻需要一個(gè)能好好干活的 AI 的。

條條大路通羅馬。未來(lái)究竟是誰(shuí)定義的路徑能率先觸碰 AGI 的圣杯?

咱們只能說(shuō),拭目以待。

撰文:早起

編輯:江江 & 面線

美編:煥妍

圖片、資料來(lái)源

AI畫不出左手,是因?yàn)槲覀兘o了它一個(gè)偏科的童年 - 數(shù)字生命卡茲克

Seed1.8 Model Card: Towards Generalized Real-World Agency

https://github.com/bytedance/UI-TARS-desktop



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅永浩又開(kāi)炮!開(kāi)通1000兆寬帶下載只有90多兆,上海電信壓力來(lái)了

羅永浩又開(kāi)炮!開(kāi)通1000兆寬帶下載只有90多兆,上海電信壓力來(lái)了

火山詩(shī)話
2025-12-19 06:40:20
海南封關(guān),新加坡的沉默震耳欲聾!

海南封關(guān),新加坡的沉默震耳欲聾!

環(huán)球策論
2025-12-18 22:39:23
剛剛,哈佛長(zhǎng)新冠研究突破!發(fā)現(xiàn)背后黑手

剛剛,哈佛長(zhǎng)新冠研究突破!發(fā)現(xiàn)背后黑手

徐德文科學(xué)頻道
2025-12-18 21:44:08
新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

新華社證實(shí)南京博物院賣了《江南春》,事情變得更加撲朔迷離

銀河敘事
2025-12-19 13:00:27
云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

云南大理發(fā)生的這件事,有些人已經(jīng)徹底沒(méi)有底線了!

胖胖說(shuō)他不胖
2025-12-19 11:00:11
27歲女孩“巧巧”已不幸離世,體重僅35斤,命運(yùn)坎坷!早年父親去世,母親改嫁,有嚴(yán)重抑郁癥

27歲女孩“巧巧”已不幸離世,體重僅35斤,命運(yùn)坎坷!早年父親去世,母親改嫁,有嚴(yán)重抑郁癥

新民晚報(bào)
2025-12-19 15:05:51
潘周聃都選它!累計(jì)交付突破20萬(wàn)臺(tái),領(lǐng)克EM-P超電雙子星殺瘋了

潘周聃都選它!累計(jì)交付突破20萬(wàn)臺(tái),領(lǐng)克EM-P超電雙子星殺瘋了

Nice好車
2025-12-19 11:43:43
梅艷芳母親100歲大壽留影,四個(gè)孩子離世仨,如今過(guò)的比誰(shuí)都瀟灑

梅艷芳母親100歲大壽留影,四個(gè)孩子離世仨,如今過(guò)的比誰(shuí)都瀟灑

萬(wàn)物知識(shí)圈
2025-12-18 09:12:45
2019年,被“港獨(dú)”暴徒圍攻,被迫舉槍的光頭警長(zhǎng),后來(lái)怎樣了?

2019年,被“港獨(dú)”暴徒圍攻,被迫舉槍的光頭警長(zhǎng),后來(lái)怎樣了?

知鑒明史
2025-12-18 18:21:51
吳京認(rèn)祖多爾袞?原諒我不厚道地笑了,這文化水平實(shí)在笑死個(gè)人啊

吳京認(rèn)祖多爾袞?原諒我不厚道地笑了,這文化水平實(shí)在笑死個(gè)人啊

寒士之言本尊
2025-12-18 12:10:25
10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無(wú)

10人逃單后續(xù):堂哥張先生作為組局人最終付款卻面子里子全無(wú)

沒(méi)有偏旁的常慶
2025-12-19 06:30:04
最新!抖音集團(tuán)副總裁回應(yīng)出新規(guī)

最新!抖音集團(tuán)副總裁回應(yīng)出新規(guī)

每日經(jīng)濟(jì)新聞
2025-12-16 21:12:04
赴日外國(guó)游客突破3900萬(wàn)人次再創(chuàng)歷史新高 中國(guó)游客影響有限

赴日外國(guó)游客突破3900萬(wàn)人次再創(chuàng)歷史新高 中國(guó)游客影響有限

顫抖的熊貓
2025-12-17 22:12:26
被認(rèn)定為贗品的《江南春》圖卷2001年以6800元價(jià)格賣出!多部門調(diào)查最新進(jìn)展

被認(rèn)定為贗品的《江南春》圖卷2001年以6800元價(jià)格賣出!多部門調(diào)查最新進(jìn)展

海峽網(wǎng)
2025-12-19 09:42:23
泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

泰軍宣布重創(chuàng)柬埔寨!繳獲大批中國(guó)造導(dǎo)彈!打到洪森父子投降?

深度報(bào)
2025-12-17 23:06:04
日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

日本迫使蘋果調(diào)整iOS規(guī)則大幅降低蘋果稅,中國(guó)繼續(xù)人傻錢多?

風(fēng)向觀察
2025-12-18 16:40:37
“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

“日入過(guò)萬(wàn)”的16歲深圳燒雞少年壓力來(lái)了!稱每天到手只有1000多

火山詩(shī)話
2025-12-19 11:47:47
亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

亞歷山大32+7+6雷霆送快船5連敗,哈登缺席萊納德22+8+6

湖人崛起
2025-12-19 11:25:36
臨床PK完勝ChatGPT-5!國(guó)內(nèi)團(tuán)隊(duì)造出首個(gè)OCT影像AI系統(tǒng)

臨床PK完勝ChatGPT-5!國(guó)內(nèi)團(tuán)隊(duì)造出首個(gè)OCT影像AI系統(tǒng)

機(jī)器之心Pro
2025-12-16 13:16:06
俄領(lǐng)導(dǎo)人威脅稱,如果談判失敗,俄羅斯將“以武力”奪取領(lǐng)土

俄領(lǐng)導(dǎo)人威脅稱,如果談判失敗,俄羅斯將“以武力”奪取領(lǐng)土

山河路口
2025-12-17 22:34:47
2025-12-19 15:48:49
差評(píng)XPIN incentive-icons
差評(píng)XPIN
用知識(shí)和觀點(diǎn)Debug the world!
10007文章數(shù) 489324關(guān)注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

頭條要聞

剎車失靈時(shí)速115飆490公里司機(jī):下車后渾身抖無(wú)法說(shuō)話

體育要聞

沒(méi)有塔圖姆,還有塔禿姆

娛樂(lè)要聞

曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

財(cái)經(jīng)要聞

非法集資911億!"金融大鱷"終審被判無(wú)期

汽車要聞

“一體壓鑄”再引熱議 一旦受損真的修不起嗎?

態(tài)度原創(chuàng)

游戲
本地
手機(jī)
房產(chǎn)
公開(kāi)課

《噬血代碼2》PC配置需求公開(kāi) 推薦RTX 3080游玩

本地新聞

云游安徽|訪黃山云海古村,讀一城山水風(fēng)骨

手機(jī)要聞

追覓首款手機(jī)曝光:1.08億主攝、6.67英寸屏幕、5000mAh電池

房產(chǎn)要聞

猛降1.65億!大唐集團(tuán),再次出售三亞核心資產(chǎn)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版