国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

實(shí)測豆包1.8后,我終于明白字節(jié)為什么要推豆包手機(jī)了。

0
分享至

大家好,我是袋鼠帝

好久沒有因?yàn)橐豢顕a(chǎn)模型,產(chǎn)生這種明顯的期待感了。

這次,是豆包1.8。


在這個(gè)大家都忙著做年終總結(jié)的十二月,我本來以為AI圈能消停一會兒。

沒想到,字節(jié)不講武德,又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..




從節(jié)奏上看,字節(jié)這幾年在AI這條路上,一直走得非常穩(wěn)。產(chǎn)品和模型并行發(fā)展,從文本到多模態(tài),從對話到Agent,再從云端走到端側(cè)。

這次原動力大會,又是一次階段性成果的集中展示。

其中,豆包大模型1.8,作為字節(jié)新一代主力模型,正式接棒。

注意,是主力模型。

是接下來一段時(shí)間里,字節(jié)在企業(yè)Agent、應(yīng)用層、工具鏈上真正要用、要打的那個(gè)模型。

先看看跑分:在教育、客服、金融、法律、審核等多個(gè)場景測評中處于領(lǐng)先水平


Agent能力和多模態(tài)理解能力非常強(qiáng),直逼Gemini3 Pro


看得出來,這次不是單項(xiàng)能力的突破,明顯沖著一個(gè)目標(biāo)去的:復(fù)雜Agent,尤其是企業(yè)級Agent。

比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了

雙手離開鍵盤~(順便聽一聽我最近一直單曲循環(huán)的歌)

說實(shí)話,第一眼看到豆包1.8的能力,我是有點(diǎn)驚喜的。

這一看就是能干實(shí)事的。因?yàn)?strong>下面這三個(gè)點(diǎn)能同時(shí)滿足,這在國產(chǎn)模型里,是獨(dú)一檔了。

>/ 第一:Agent能力往前走了一大步。

多工具調(diào)用能力增強(qiáng),多輪指令遵循的穩(wěn)定性大幅提升,長文指令不再容易跑偏,執(zhí)行規(guī)劃能力更強(qiáng)。

尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。

在很多真實(shí)業(yè)務(wù)里,最后一公里從來不是推理,而是操作。

在屏幕上完成一些相對復(fù)雜的點(diǎn)點(diǎn)點(diǎn)的任務(wù),這些事情對人來說可能很簡單,但對模型來說一直是難點(diǎn)。

豆包1.8把這件事當(dāng)成重點(diǎn)去做,本身就是一個(gè)非常務(wù)實(shí)的信號。也很有可能就是沖著豆包手機(jī)去的。

>/ 第二:256K的超長上下文,是真的好用。

目前國產(chǎn)的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~

但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準(zhǔn)越好。

豆包1.8的一個(gè)關(guān)鍵點(diǎn)在于,它支持通過原生API做上下文管理,什么意思?

你不再需要每次把所有歷史上下文一股腦塞進(jìn)去,而是可以像整理文件夾一樣,按需清理、按需保留。

這在企業(yè)級 Agent 場景里,價(jià)值非常大。

一方面,成本直線下降。另一方面,模型的注意力更集中,執(zhí)行穩(wěn)定性也會更好。

>/ 第三:多模態(tài)能力這次是真的實(shí)打?qū)嵣壛恕?/strong>

視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。

單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內(nèi)容。

如果再配合火山方舟應(yīng)用實(shí)驗(yàn)室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關(guān)鍵片段。

這個(gè)邏輯,非常像一個(gè)聰明人快速學(xué)習(xí)新知識的方法。先快進(jìn)掃一遍,再倒回來看重點(diǎn)。

這三點(diǎn)放在一起,我覺得豆包1.8非常適合搭建復(fù)雜Agent,跑真實(shí)流程。

之前,其他模型不太能完成的復(fù)雜任務(wù),現(xiàn)在好像可以試著交給它了。

于是我快速做了幾個(gè)測試(難度越來越高),想看看它在復(fù)雜、多步驟、容易出錯(cuò)的真實(shí)任務(wù)里,表現(xiàn)到底穩(wěn)不穩(wěn)。

因?yàn)锳gent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環(huán),或者慢慢跑偏。

目前火山引擎已經(jīng)支持了豆包1.8的API


為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用


并集成了我認(rèn)為最好用的瀏覽器自動化MCP-Server:playwright mcp


話不多說,我們開始!

多平臺電商篩選比價(jià) + 跨平臺加購

先用這個(gè)案例來小試牛刀,如果這個(gè)任務(wù)跑不出來,后面的也不用看了。

Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍(lán)牙耳機(jī),價(jià)格區(qū)間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(jī)(可能有百億補(bǔ)貼,導(dǎo)致顯示的價(jià)格比500低,也可能是淘寶的bug,反正不管,固定價(jià)格區(qū)間后選定銷量第一就行了),然后在唯品會和京東進(jìn)行這款耳機(jī)的比價(jià),找到價(jià)格最便宜的同款耳機(jī),添加到我的購物車中。

這個(gè)任務(wù)里,難點(diǎn)不在于找耳機(jī)。

難在三件事:

第一,要在平臺篩選、過濾,找到符合要求的正確的商品。

第二,要能跨平臺識別同款商品。

第三,最后一步需要實(shí)際操作,加購。

但是某寶有點(diǎn)der啊,為什么選擇了價(jià)格區(qū)間在500-1000,還有這么多500元以下的?


這個(gè)現(xiàn)象一度讓豆包1.8懷疑自己

豆包1.8內(nèi)心:?。???我不是固定了500-1000價(jià)格嗎,為什么還有500以下的,不對,我再看看。

于是我加了一句提示:

可能有百億補(bǔ)貼,導(dǎo)致顯示的價(jià)格比500低,也可能是淘寶的bug,反正不管,固定價(jià) 格區(qū)間后選定銷量第一就行了

執(zhí)行過程見視頻:

從執(zhí)行過程來看,豆包1.8在幾個(gè)關(guān)鍵節(jié)點(diǎn)上表現(xiàn)都很穩(wěn)。

它先打開了某寶,在搜索欄搜索半入耳式藍(lán)牙耳機(jī),并篩選了500-1000的價(jià)格區(qū)間,以銷量排序,進(jìn)入商品詳情頁確認(rèn)了商品名稱。

然后打開某品會,搜索同款商品,對比價(jià)格,最后打開某東,發(fā)現(xiàn)某東的價(jià)格是最便宜的,并加入了購物車。

條件鎖定后,它不會反復(fù)橫跳。在不同平臺頁面結(jié)構(gòu)差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現(xiàn)誤點(diǎn)或卡死。

整個(gè)過程像是一個(gè)熟練用戶在操作,每一步都比較精準(zhǔn)。

但就是還是Agent的老問題,整個(gè)過程有點(diǎn)慢,看得著急(急性子估計(jì)用不了),好在最后順利完成了。

當(dāng)然這里面有模型推理思考的時(shí)間,還有就是playwright MCP雖然已經(jīng)是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執(zhí)行操作,要調(diào)用多個(gè)工具協(xié)同完成,這個(gè)過程也比較耗時(shí)。

B站「影視颶風(fēng)」互動任務(wù)

既然第一個(gè)任務(wù)成功了,那接下來難度升級

正好今天火山的大會Tim也去了,我們來給他的頻道增加點(diǎn)互動~

這個(gè)任務(wù)需要打開B站,進(jìn)入影視颶風(fēng)主頁,從投稿列表里篩選最近發(fā)布且播放量超過500萬的3個(gè)視頻,保存鏈接。然后逐個(gè)訪問,根據(jù)獲取到的信息,分別發(fā)出三條貼合內(nèi)容的評論。

Prompt:請幫我登錄B站,去“影視颶風(fēng)”的個(gè)人主頁執(zhí)行一個(gè)互動任務(wù)。為了防止頁面刷新導(dǎo)致迷路,請你嚴(yán)格按照先找齊鏈接,再逐個(gè)訪問的順序來操作:

第一步,篩選視頻。請進(jìn)入他的“投稿”列表,保持默認(rèn)的“最新發(fā)布”排序。請耐心地從上往下滾動瀏覽,仔細(xì)查看每一個(gè)視頻的播放數(shù)據(jù),直到找出最近發(fā)布的、且播放量明確超過500萬的3個(gè)視頻。找到后,請先把這3個(gè)視頻的鏈接保存下來。

第二步,發(fā)送評論。請依次直接訪問這3個(gè)鏈接。每進(jìn)入一個(gè)視頻,先花點(diǎn)時(shí)間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點(diǎn)。然后,基于這些信息,分別寫一條言之有物、符合科技區(qū)粉絲調(diào)性的評論并發(fā)送。注意,三條評論的內(nèi)容要完全不同,必須貼合各自的視頻主題。注意:評論的時(shí)候你一定要輸入自己思考后的內(nèi)容,并點(diǎn)擊發(fā)布,不要被評論輸入框中自帶的文字誤導(dǎo)了

執(zhí)行過程如下:

這個(gè)任務(wù)頁面多,信息雜,需要判斷、總結(jié),還要生成貼合視頻的評論內(nèi)容。

豆包1.8的表現(xiàn),像一個(gè)知道自己在干嘛的人。

它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個(gè)訪問。

在評論生成上,沒有套模板,會根據(jù)視頻主題調(diào)整語氣和內(nèi)容,像一個(gè)老粉一樣(雖然我是新粉 哈哈哈)。

創(chuàng)建火山API Key + Fastgpt配置

這個(gè)任務(wù),我刻意選了一個(gè)容易翻車的場景。偏向開發(fā)者日常。

我?guī)讉€(gè)月前用某模型來測試過,一直是死循環(huán),硬是選不中對的按鈕。

Prompt:進(jìn)入火山引擎,控制臺,找到火山方舟并進(jìn)入,在apikey那里,新建一個(gè)apikey并復(fù)制。打開fastgpt,登錄進(jìn)去,根據(jù) fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可?;鹕揭娴刂罚?https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234

下面是我給豆包1.8的fastgpt的操作截圖


這個(gè)任務(wù),幾乎集齊了Agent所有痛點(diǎn),非??简?yàn)?zāi)P偷木C合理解能力。

難點(diǎn)在于,模型需要識別圖片上的操作指引,而且步驟非常細(xì),任何一步錯(cuò)了,后面都走不通。

包括頁面跳轉(zhuǎn)、字段識別、復(fù)制粘貼、表單提交。

跑下來,一個(gè)明顯的感受是,豆包1.8對頁面結(jié)構(gòu)的理解很扎實(shí),視覺能力也很強(qiáng)。

不會因?yàn)轫撁嫔晕?fù)雜,就迷路。

而且在長指令下,步驟執(zhí)行順序穩(wěn)定,沒有出現(xiàn)跳步或重復(fù)。

這些對于Agent應(yīng)用,非常關(guān)鍵。

如果把視角再拉遠(yuǎn)一點(diǎn),你會發(fā)現(xiàn),豆包1.8的很多能力,其實(shí)已經(jīng)在為另一個(gè)方向鋪路。

那就是端側(cè)Agent。

最近備受爭議的豆包手機(jī),我覺得就是一個(gè)非常直觀的嘗試。

系統(tǒng)級AI助手這件事,跨App自動化,系統(tǒng)級權(quán)限,模擬操作。

這些能力,在技術(shù)上是很酷的,但在現(xiàn)實(shí)生態(tài)里,必然會遇到阻力。

這不是模型的問題,而是整個(gè)行業(yè)的博弈。

豆包手機(jī)的意義,也不是賣了多少臺,而是驗(yàn)證了一件事:

當(dāng)模型的Agent能力足夠強(qiáng),系統(tǒng)級AI助手這條路,是必然走得通的。

只是,怎么走,走多快,需要時(shí)間,也需要一些妥協(xié)。

豆包1.8的出現(xiàn),無疑讓這條路更好走了

最后,如果你關(guān)心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。

那這一代豆包,確實(shí)已經(jīng)走到一個(gè)很關(guān)鍵的位置了。

接下來,就看大家拿它,能做出什么樣的Agent了~

我是袋鼠帝,持續(xù)分享AI實(shí)踐干貨,我們下期見!

能看到這里的都是鳳毛麟角的存在!

如果覺得不錯(cuò),隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧~

如果想第一時(shí)間收到推送,也可以給我個(gè)星標(biāo)?

謝謝你耐心看完我的文章~

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
16萬轉(zhuǎn)賣“中國豬仔”后續(xù):葉文斌媽媽柬埔寨尋子無果,她回國了

16萬轉(zhuǎn)賣“中國豬仔”后續(xù):葉文斌媽媽柬埔寨尋子無果,她回國了

江山揮筆
2026-01-10 16:05:59
湖人輸球太冤?詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

湖人輸球太冤?詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

羅說NBA
2026-01-11 06:03:14
濟(jì)南戰(zhàn)役大捷,粟裕卻被手下大將當(dāng)眾“摔帽子”!饒漱石連忙開會

濟(jì)南戰(zhàn)役大捷,粟裕卻被手下大將當(dāng)眾“摔帽子”!饒漱石連忙開會

古書記史
2026-01-09 00:30:19
孫千這組照片太敢!黑褲包裹蜜桃臀,蝴蝶釘在胸前,這身材絕了?

孫千這組照片太敢!黑褲包裹蜜桃臀,蝴蝶釘在胸前,這身材絕了?

娛樂領(lǐng)航家
2026-01-09 22:00:03
大秦鐵路、民生銀行、三峽能源、國電電力跌得太慘了,虧得太多了

大秦鐵路、民生銀行、三峽能源、國電電力跌得太慘了,虧得太多了

財(cái)經(jīng)智多星
2026-01-11 13:18:53
54歲大哥每天含西洋參,兩個(gè)月后去體檢,身體發(fā)生了哪些變化?

54歲大哥每天含西洋參,兩個(gè)月后去體檢,身體發(fā)生了哪些變化?

寶哥精彩賽事
2026-01-11 13:43:14
“死了么”App爆火,在蘋果付費(fèi)軟件排行榜位列第一,名字引熱議,開發(fā)者回應(yīng)

“死了么”App爆火,在蘋果付費(fèi)軟件排行榜位列第一,名字引熱議,開發(fā)者回應(yīng)

大風(fēng)新聞
2026-01-10 16:18:12
突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

突發(fā)!山東一地120調(diào)度員集中離職!4人已離職、2人提出辭職……

醫(yī)脈圈
2026-01-11 12:16:08
馬杜羅警衛(wèi)稱美軍突襲時(shí)用神秘武器讓人吐血癱倒,這可能是什么?

馬杜羅警衛(wèi)稱美軍突襲時(shí)用神秘武器讓人吐血癱倒,這可能是什么?

之乎者也小魚兒
2026-01-11 17:23:35
馬龍陪夏露吃牛排,夏露開蘭博基尼送兒子上學(xué),他們住在大別墅!

馬龍陪夏露吃牛排,夏露開蘭博基尼送兒子上學(xué),他們住在大別墅!

錯(cuò)過美好
2026-01-11 15:15:59
中產(chǎn)涌入超市,搶300元羽絨服

中產(chǎn)涌入超市,搶300元羽絨服

中國新聞周刊
2026-01-09 22:13:04
這個(gè)媽媽憑什么打敗國乒?

這個(gè)媽媽憑什么打敗國乒?

新民晚報(bào)
2026-01-11 09:56:19
9勝2負(fù)!快船聯(lián)盟第一,泰倫盧預(yù)言成真,科林斯25+7也成全明星了

9勝2負(fù)!快船聯(lián)盟第一,泰倫盧預(yù)言成真,科林斯25+7也成全明星了

巴叔GO聊體育
2026-01-11 12:49:31
韓國某中學(xué)把“中華人民共和國”當(dāng)作班級目標(biāo)引爭議

韓國某中學(xué)把“中華人民共和國”當(dāng)作班級目標(biāo)引爭議

隨波蕩漾的漂流瓶
2026-01-10 17:50:06
決議生效!芬蘭正式“退群”

決議生效!芬蘭正式“退群”

環(huán)球時(shí)報(bào)國際
2026-01-10 22:57:42
德國雜志“惡意抓拍”?樊振東封面照被批“認(rèn)不出”,球迷怒懟:辜負(fù)他的治愈微笑

德國雜志“惡意抓拍”?樊振東封面照被批“認(rèn)不出”,球迷怒懟:辜負(fù)他的治愈微笑

最愛乒乓球
2026-01-11 08:21:43
28歲,豐滿圓潤,頂級身材太洶涌了

28歲,豐滿圓潤,頂級身材太洶涌了

技巧君侃球
2025-12-14 23:49:18
1月11日俄烏:當(dāng)之無愧的最高評價(jià)

1月11日俄烏:當(dāng)之無愧的最高評價(jià)

山河路口
2026-01-11 19:28:40
霍啟剛突然公示財(cái)產(chǎn)!35套物業(yè)曝光,28套出租,這才是真豪門格局

霍啟剛突然公示財(cái)產(chǎn)!35套物業(yè)曝光,28套出租,這才是真豪門格局

行者聊官
2026-01-10 20:42:35
阿富汗突發(fā)惡性襲擊事件:中方礦業(yè)公司遇襲致5死多人被綁

阿富汗突發(fā)惡性襲擊事件:中方礦業(yè)公司遇襲致5死多人被綁

老馬拉車莫少裝
2026-01-10 00:00:42
2026-01-11 20:23:00
袋鼠帝 incentive-icons
袋鼠帝
持續(xù)分享AI實(shí)踐干貨,走超級個(gè)體崛起之路
26文章數(shù) 16關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

頭條要聞

小學(xué)生留遺書在家中服藥自殺 母親起訴學(xué)校和英語老師

體育要聞

詹皇曬照不滿打手沒哨 裁判報(bào)告最后兩分鐘無誤判

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財(cái)經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補(bǔ)貼后9.98萬起

態(tài)度原創(chuàng)

時(shí)尚
親子
教育
旅游
軍事航空

朱珠美上熱搜的老錢風(fēng)穿搭,太值得借鑒了!

親子要聞

孩子摔跤不喊停,老師反夸勇敢,家長卻偷偷拍視頻發(fā)朋友圈

教育要聞

李希貴:下一代學(xué)校應(yīng)該什么樣?

旅游要聞

河南:冰雪運(yùn)動樂趣多 冬季旅游熱力足

軍事要聞

俄大使:馬杜羅夫婦被控制時(shí)身邊沒人

無障礙瀏覽 進(jìn)入關(guān)懷版