国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

實測豆包1.8后,我終于明白字節(jié)為什么要推豆包手機了。

0
分享至

大家好,我是袋鼠帝

好久沒有因為一款國產模型,產生這種明顯的期待感了。

這次,是豆包1.8。


在這個大家都忙著做年終總結的十二月,我本來以為AI圈能消停一會兒。

沒想到,字節(jié)不講武德,又搞事情。

今早我的朋友圈、各社群直接被火山引擎冬季FORCE原動力大會刷屏了..




從節(jié)奏上看,字節(jié)這幾年在AI這條路上,一直走得非常穩(wěn)。產品和模型并行發(fā)展,從文本到多模態(tài),從對話到Agent,再從云端走到端側。

這次原動力大會,又是一次階段性成果的集中展示。

其中,豆包大模型1.8,作為字節(jié)新一代主力模型,正式接棒。

注意,是主力模型。

是接下來一段時間里,字節(jié)在企業(yè)Agent、應用層、工具鏈上真正要用、要打的那個模型。

先看看跑分:在教育、客服、金融、法律、審核等多個場景測評中處于領先水平


Agent能力和多模態(tài)理解能力非常強,直逼Gemini3 Pro


看得出來,這次不是單項能力的突破,明顯沖著一個目標去的:復雜Agent,尤其是企業(yè)級Agent。

比如,我可以讓它全自動幫我獲取apikey,并配置到開源Agent平臺-Fastgpt上了

雙手離開鍵盤~(順便聽一聽我最近一直單曲循環(huán)的歌)

說實話,第一眼看到豆包1.8的能力,我是有點驚喜的。

這一看就是能干實事的。因為下面這三個點能同時滿足,這在國產模型里,是獨一檔了。

>/ 第一:Agent能力往前走了一大步。

多工具調用能力增強,多輪指令遵循的穩(wěn)定性大幅提升,長文指令不再容易跑偏,執(zhí)行規(guī)劃能力更強。

尤其是OS Agent:支持Agent去屏幕上操作,它能幫我干很多事兒。

在很多真實業(yè)務里,最后一公里從來不是推理,而是操作。

在屏幕上完成一些相對復雜的點點點的任務,這些事情對人來說可能很簡單,但對模型來說一直是難點。

豆包1.8把這件事當成重點去做,本身就是一個非常務實的信號。也很有可能就是沖著豆包手機去的。

>/ 第二:256K的超長上下文,是真的好用。

目前國產的主力大模型,大部分都是200K的上下文長度,而豆包1.8支持了256K~

但如果只是能讀得多,管理不好也不行,畢竟上給模型的上下文不是越多越好,而是越精準越好。

豆包1.8的一個關鍵點在于,它支持通過原生API做上下文管理,什么意思?

你不再需要每次把所有歷史上下文一股腦塞進去,而是可以像整理文件夾一樣,按需清理、按需保留。

這在企業(yè)級 Agent 場景里,價值非常大。

一方面,成本直線下降。另一方面,模型的注意力更集中,執(zhí)行穩(wěn)定性也會更好。

>/ 第三:多模態(tài)能力這次是真的實打實升級了。

視覺理解精度提升,圖片token消耗更少,視頻理解能力再提升。

單次視頻理解從640幀提升到1280幀,在1秒1幀的情況下,可以完整理解20分鐘的視頻內容。

如果再配合火山方舟應用實驗室的Video Cup Tool,可以先低幀率掃全片,再高幀率聚焦關鍵片段。

這個邏輯,非常像一個聰明人快速學習新知識的方法。先快進掃一遍,再倒回來看重點。

這三點放在一起,我覺得豆包1.8非常適合搭建復雜Agent,跑真實流程。

之前,其他模型不太能完成的復雜任務,現在好像可以試著交給它了。

于是我快速做了幾個測試(難度越來越高),想看看它在復雜、多步驟、容易出錯的真實任務里,表現到底穩(wěn)不穩(wěn)。

因為Agent最怕的不是不行,而是半行不行的。。。要么跑著跑著少一步,要么順序亂,要不就死循環(huán),或者慢慢跑偏。

目前火山引擎已經支持了豆包1.8的API


為了方便快速用豆包1.8搭建Agent,我把豆包1.8接入了Trae使用


并集成了我認為最好用的瀏覽器自動化MCP-Server:playwright mcp


話不多說,我們開始!

多平臺電商篩選比價 + 跨平臺加購

先用這個案例來小試牛刀,如果這個任務跑不出來,后面的也不用看了。

Prompt:全程使用playwright MCP工具,先在淘寶上尋找一款半入耳式藍牙耳機,價格區(qū)間在500-1000元之間。找到滿足以上條件并且銷量第一的那款耳機(可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價格區(qū)間后選定銷量第一就行了),然后在唯品會和京東進行這款耳機的比價,找到價格最便宜的同款耳機,添加到我的購物車中。

這個任務里,難點不在于找耳機。

難在三件事:

第一,要在平臺篩選、過濾,找到符合要求的正確的商品。

第二,要能跨平臺識別同款商品。

第三,最后一步需要實際操作,加購。

但是某寶有點der啊,為什么選擇了價格區(qū)間在500-1000,還有這么多500元以下的?


這個現象一度讓豆包1.8懷疑自己

豆包1.8內心:?。???我不是固定了500-1000價格嗎,為什么還有500以下的,不對,我再看看。

于是我加了一句提示:

可能有百億補貼,導致顯示的價格比500低,也可能是淘寶的bug,反正不管,固定價 格區(qū)間后選定銷量第一就行了

執(zhí)行過程見視頻:

從執(zhí)行過程來看,豆包1.8在幾個關鍵節(jié)點上表現都很穩(wěn)。

它先打開了某寶,在搜索欄搜索半入耳式藍牙耳機,并篩選了500-1000的價格區(qū)間,以銷量排序,進入商品詳情頁確認了商品名稱。

然后打開某品會,搜索同款商品,對比價格,最后打開某東,發(fā)現某東的價格是最便宜的,并加入了購物車。

條件鎖定后,它不會反復橫跳。在不同平臺頁面結構差異很大的情況下,正確定位了商品信息。在加購這一步,沒有出現誤點或卡死。

整個過程像是一個熟練用戶在操作,每一步都比較精準。

但就是還是Agent的老問題,整個過程有點慢,看得著急(急性子估計用不了),好在最后順利完成了。

當然這里面有模型推理思考的時間,還有就是playwright MCP雖然已經是目前非常好用的瀏覽器自動化工具了,但是每次打開新頁面,模型都要通過playwright拿到頁面快照,然后分析定位元素,最后執(zhí)行操作,要調用多個工具協(xié)同完成,這個過程也比較耗時。

B站「影視颶風」互動任務

既然第一個任務成功了,那接下來難度升級

正好今天火山的大會Tim也去了,我們來給他的頻道增加點互動~

這個任務需要打開B站,進入影視颶風主頁,從投稿列表里篩選最近發(fā)布且播放量超過500萬的3個視頻,保存鏈接。然后逐個訪問,根據獲取到的信息,分別發(fā)出三條貼合內容的評論。

Prompt:請幫我登錄B站,去“影視颶風”的個人主頁執(zhí)行一個互動任務。為了防止頁面刷新導致迷路,請你嚴格按照先找齊鏈接,再逐個訪問的順序來操作:

第一步,篩選視頻。請進入他的“投稿”列表,保持默認的“最新發(fā)布”排序。請耐心地從上往下滾動瀏覽,仔細查看每一個視頻的播放數據,直到找出最近發(fā)布的、且播放量明確超過500萬的3個視頻。找到后,請先把這3個視頻的鏈接保存下來。

第二步,發(fā)送評論。請依次直接訪問這3個鏈接。每進入一個視頻,先花點時間讀取一下視頻簡介和底下的高贊評論,了解視頻的核心看點。然后,基于這些信息,分別寫一條言之有物、符合科技區(qū)粉絲調性的評論并發(fā)送。注意,三條評論的內容要完全不同,必須貼合各自的視頻主題。注意:評論的時候你一定要輸入自己思考后的內容,并點擊發(fā)布,不要被評論輸入框中自帶的文字誤導了

執(zhí)行過程如下:

這個任務頁面多,信息雜,需要判斷、總結,還要生成貼合視頻的評論內容。

豆包1.8的表現,像一個知道自己在干嘛的人。

它在主頁正確的篩選了最新的三條超500萬播放量視頻,并把鏈接收集齊,再逐個訪問。

在評論生成上,沒有套模板,會根據視頻主題調整語氣和內容,像一個老粉一樣(雖然我是新粉 哈哈哈)。

創(chuàng)建火山API Key + Fastgpt配置

這個任務,我刻意選了一個容易翻車的場景。偏向開發(fā)者日常。

我?guī)讉€月前用某模型來測試過,一直是死循環(huán),硬是選不中對的按鈕。

Prompt:進入火山引擎,控制臺,找到火山方舟并進入,在apikey那里,新建一個apikey并復制。打開fastgpt,登錄進去,根據 fastgpt操作截圖.png 新增模型,除了apikey,其他都填test即可?;鹕揭娴刂罚?https://www.volcengine.com/,fastgpt地址:http://localhost:3000/ 用戶名:root,密碼:1234

下面是我給豆包1.8的fastgpt的操作截圖


這個任務,幾乎集齊了Agent所有痛點,非常考驗模型的綜合理解能力。

難點在于,模型需要識別圖片上的操作指引,而且步驟非常細,任何一步錯了,后面都走不通。

包括頁面跳轉、字段識別、復制粘貼、表單提交。

跑下來,一個明顯的感受是,豆包1.8對頁面結構的理解很扎實,視覺能力也很強。

不會因為頁面稍微復雜,就迷路。

而且在長指令下,步驟執(zhí)行順序穩(wěn)定,沒有出現跳步或重復。

這些對于Agent應用,非常關鍵。

如果把視角再拉遠一點,你會發(fā)現,豆包1.8的很多能力,其實已經在為另一個方向鋪路。

那就是端側Agent。

最近備受爭議的豆包手機,我覺得就是一個非常直觀的嘗試。

系統(tǒng)級AI助手這件事,跨App自動化,系統(tǒng)級權限,模擬操作。

這些能力,在技術上是很酷的,但在現實生態(tài)里,必然會遇到阻力。

這不是模型的問題,而是整個行業(yè)的博弈。

豆包手機的意義,也不是賣了多少臺,而是驗證了一件事:

當模型的Agent能力足夠強,系統(tǒng)級AI助手這條路,是必然走得通的。

只是,怎么走,走多快,需要時間,也需要一些妥協(xié)。

豆包1.8的出現,無疑讓這條路更好走了

最后,如果你關心的是,模型能不能真正幫你把事情做好,而不是陪你聊天。

那這一代豆包,確實已經走到一個很關鍵的位置了。

接下來,就看大家拿它,能做出什么樣的Agent了~

我是袋鼠帝,持續(xù)分享AI實踐干貨,我們下期見!

能看到這里的都是鳳毛麟角的存在!

如果覺得不錯,隨手點個贊、在看、轉發(fā)三連吧~

如果想第一時間收到推送,也可以給我個星標?

謝謝你耐心看完我的文章~

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
媒體人:CBA有意恢復升降級,籌劃賣隊的俱樂部需要抓緊時間

媒體人:CBA有意恢復升降級,籌劃賣隊的俱樂部需要抓緊時間

懂球帝
2026-03-10 09:12:18
世界上最鋒利的物體為什么不能切割任何東西

世界上最鋒利的物體為什么不能切割任何東西

心中的麥田
2026-03-09 19:42:31
“典型的城鄉(xiāng)結合部審美”,女老師曬工作穿搭,被嘲:土得掉渣

“典型的城鄉(xiāng)結合部審美”,女老師曬工作穿搭,被嘲:土得掉渣

妍妍教育日記
2026-03-06 20:54:35
哈維絕命反殺:梅西回歸被攔真相大白,巴薩“影子主席”浮出水面

哈維絕命反殺:梅西回歸被攔真相大白,巴薩“影子主席”浮出水面

落夜足球
2026-03-09 15:30:05
周恩來舊照中的軍銜,為何有中將還有上將?實為兩大陣營三次授予

周恩來舊照中的軍銜,為何有中將還有上將?實為兩大陣營三次授予

興趣知識
2026-03-09 18:28:49
54歲艾美獎女演員下海:僅用75分鐘還清房貸

54歲艾美獎女演員下海:僅用75分鐘還清房貸

小椰的奶奶
2026-03-08 21:03:06
這所大學宣布破產,政府接管

這所大學宣布破產,政府接管

深度報
2026-03-09 23:39:09
機關算盡太聰明,董璇被執(zhí)行4942萬!靠閨女斂財,成為了笑話

機關算盡太聰明,董璇被執(zhí)行4942萬!靠閨女斂財,成為了笑話

觀察鑒娛
2026-03-08 09:40:23
1955年李聚奎重慶視察,意外發(fā)現,昔日司令竟在當地當理發(fā)匠

1955年李聚奎重慶視察,意外發(fā)現,昔日司令竟在當地當理發(fā)匠

鶴羽說個事
2026-03-09 18:53:24
高中的潛規(guī)則:60%多的人上不了本科,能上985的,不會在普高出現

高中的潛規(guī)則:60%多的人上不了本科,能上985的,不會在普高出現

好爸育兒
2026-02-12 16:04:52
快餐CEO集體試吃漢堡,只有麥當勞受傷的世界達成了

快餐CEO集體試吃漢堡,只有麥當勞受傷的世界達成了

4A廣告網
2026-03-09 10:35:00
這夜,44歲張鈞甯秒了穿著清涼的金珍妮,性感在氣質面前不值一提

這夜,44歲張鈞甯秒了穿著清涼的金珍妮,性感在氣質面前不值一提

小徐講八卦
2026-03-10 09:34:28
研究發(fā)現:經常晚上刷牙的人,患高血壓、腦梗風險比其他人低?

研究發(fā)現:經常晚上刷牙的人,患高血壓、腦梗風險比其他人低?

垚垚分享健康
2026-03-06 09:15:26
水貨專家開噴伊朗戰(zhàn)爭,稱美國熱衷斬首是衰退表現,誤導公眾對戰(zhàn)爭認知

水貨專家開噴伊朗戰(zhàn)爭,稱美國熱衷斬首是衰退表現,誤導公眾對戰(zhàn)爭認知

回旋鏢
2026-03-04 18:07:39
哈梅內伊次子當選伊朗最高領袖 特朗普威脅其“難長久” 以色列揚言要“追殺”

哈梅內伊次子當選伊朗最高領袖 特朗普威脅其“難長久” 以色列揚言要“追殺”

國際在線
2026-03-09 06:59:13
西班牙退休金只有800歐,生活質量卻吊打國內中產,不服不行!

西班牙退休金只有800歐,生活質量卻吊打國內中產,不服不行!

天下霸奇
2026-02-24 09:06:34
廖承志被捕,蔣介石:你是廖仲愷和何香凝的后代,你要對得起他們

廖承志被捕,蔣介石:你是廖仲愷和何香凝的后代,你要對得起他們

浩渺青史
2026-03-09 16:28:26
專家:收入高者養(yǎng)老金高,低收入者卻無養(yǎng)老金,公平嗎?

專家:收入高者養(yǎng)老金高,低收入者卻無養(yǎng)老金,公平嗎?

一絲不茍的法律人
2026-03-09 11:16:12
老好人主持被閏土記恨了

老好人主持被閏土記恨了

毒舌扒姨太
2026-03-09 22:58:07
以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

以色列已經告訴世界:日本若敢擁有核武器,美國并不會第一個翻臉

八斗小先生
2025-12-26 09:33:27
2026-03-10 10:40:49
袋鼠帝 incentive-icons
袋鼠帝
持續(xù)分享AI實踐干貨,走超級個體崛起之路
55文章數 65關注度
往期回顧 全部

科技要聞

“龍蝦”狂歡,賣“飼料”的先掙錢了

頭條要聞

應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

頭條要聞

應對來自伊朗的無人機 澤連斯基稱已有11國向烏方求助

體育要聞

韓國女足羨慕的奢侈品,為何選擇中國女足

娛樂要聞

肖戰(zhàn)首奪SMG視帝,孫儷四封視后創(chuàng)歷史

財經要聞

全民"養(yǎng)龍蝦"背后 第一批受害者浮現

汽車要聞

蔚來換電和理想5C,誰能硬剛,比亞迪兆瓦閃充?

態(tài)度原創(chuàng)

藝術
手機
親子
數碼
教育

藝術要聞

30000畝杏花開了,新疆的春天這么美!

手機要聞

OPPO和一加發(fā)布價格調整公告

親子要聞

太突然!兩會僅5天,五大好消息撲面而來,有娃家庭的福音來了

數碼要聞

國補疊加38節(jié)福利!當貝三款激光投影,從入門到旗艦按需選不踩雷

教育要聞

物歸原位真的可以改變一個人

無障礙瀏覽 進入關懷版