国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

字節(jié)發(fā)布最新豆包視覺推理模型,一手實(shí)測來啦!

0
分享至


這是蒼何的第 438 篇原創(chuàng)!

大家好,我是蒼何。

太卷了啊。兄弟們。

字節(jié)又發(fā)布了最新的豆包視覺推理模型,叫 Doubao-Seed-1.6-vision/250815。


現(xiàn)在火山引擎的模型廣場就可以直接看到。

我也進(jìn)行了深度參與測試,在視覺理解能力上提升很大。

為了方便測試,我接入了 API,并 vibe 了一個測試工具。


代碼和使用教程也在 GitHub 上開源了。


在放測試 case 之前,稍微介紹下這個視覺推理模型吧。

Doubao-Seed-1.6-vision 是全新升級的多模態(tài)大模型,適用于視頻理解、Grounding、GUI Agent等高復(fù)雜度的場景,支持 256k 上下文窗口,輸出長度支持最大 64k tokens。

最為亮眼的地方在于基于 Responses API 全新支持 image process build-in tools 能力。

也就是最思考推理時(shí)能自動調(diào)用圖像處理工具。目前內(nèi)置四種圖像處理工具,分別是:grounding&crop、point&draw_line、zoom、rotate。

下面來看下幾個 case,感受下它的能力吧。

圖像旋轉(zhuǎn)

把這個圖像丟給 Doubao-Seed-1.6-vision,配合上提示詞:

白紙上寫了什么?


可以看到,它會思考過程中推理并調(diào)用工具rotate自動旋轉(zhuǎn)圖片然后做識別。


我錄了個視頻,展示了模型的思考和工具調(diào)用全鏈路。

同樣另外一個圖像旋轉(zhuǎn)的 case 是用它做書籍識別:

這是我的原始圖片:


提示詞:桌子上放了什么書?

模型先調(diào)用zoom工具放大細(xì)節(jié):


然后調(diào)用rotate工具進(jìn)行圖像旋轉(zhuǎn):


最后推理分析得出結(jié)論:


我也錄了個全程的視頻,大家可以感受一下。

超市找人

這張超市里的圖片(素材來自網(wǎng)絡(luò)),我想讓它幫我找下穿綠色上衣的人。


模型會自動調(diào)用 zoom 工具放大細(xì)節(jié),然后用 point 工具進(jìn)行標(biāo)記。


最后精準(zhǔn)找到我們需要找的人并做標(biāo)記,同樣全流程視頻如下:

清明上河圖找人

來個非常有挑戰(zhàn)的,我們知道清明上河圖上有非常多人物,姿勢動作各異,要想讓大模型在清明上河圖上精確找人,還是非常有難度的。


提示詞:在這幅《清明上河圖》的局部里,幫我找到正在激烈爭吵的兩個人,并用線連接他們,表示他們正在對話。

本身圖片就稍微模糊,要是人來找,估計(jì)也得廢個半天。

豆包 Doubao-Seed-1.6-vision 先是自動調(diào)用zoom工具來進(jìn)行放大細(xì)節(jié)


經(jīng)過多次對比分析,最后找出人物,全流程視頻如下:

歷史背景不合分析


這張圖片,讓 Doubao-Seed-1.6-vision 分析下不符合常理的地方。

提示詞:這張圖片描繪的場景在歷史準(zhǔn)確性上存在什么問題?請解釋為什么這個細(xì)節(jié)不符合歷史背景。

它會調(diào)用一系列工具,推理分析圖片細(xì)節(jié),找出不符合的地方。


全過程視頻如下:

安全隱患分析

VLM 視覺模型還有個非常實(shí)用的場景,就是可以對安全隱患進(jìn)行分析。


提示詞:這張看似平常的家庭照片中,存在哪些潛在的安全隱患?請具體指出危險(xiǎn)點(diǎn),并說明可能導(dǎo)致的后果。以及標(biāo)注出有隱患的點(diǎn)

模型會調(diào)用 point 等工具先進(jìn)行一輪分析,然后自主推理,根據(jù)常識判斷是否會有安全隱患。

流程圖識別

對于流程圖的識別也不在話下。


這是我的創(chuàng)作流程,Doubao-Seed-1.6-vision 能很好的別別并給到我反饋。

醫(yī)療影像分析

VLM 視覺模型另外一個使用場景就是在對醫(yī)療影像進(jìn)行分析,比如:


提示詞:這是一張胸部X光片,請檢查一下肺部是否有異常結(jié)節(jié)。如果發(fā)現(xiàn)可疑區(qū)域,請圈出來,并大致測量一下它的最大徑。另外,這張片子有點(diǎn)歪,請幫我把它旋轉(zhuǎn)扶正,讓脊柱保持垂直,看下效果。

Doubao-Seed-1.6-vision 就會依次自主調(diào)用工具,先是調(diào)用rotate進(jìn)行旋轉(zhuǎn),


然后調(diào)用 zoom 工具進(jìn)行局部多次放大:



視頻如下:

影視劇查找

一些精彩的片頭,總是想不出是哪部影視劇了,現(xiàn)在就可以借助 Doubao-Seed-1.6-vision 來分析。


提示詞:這是哪部?。?/blockquote>

可以看到,它能精確找出影視劇的名字。

細(xì)節(jié)感知

這個 case 能看到 Doubao-Seed-1.6-vision 能自動進(jìn)行圖片的放大,并做翻譯處理。


當(dāng)一張照片模糊到看不清的時(shí)候,也可以借助 Doubao-Seed-1.6-vision 來進(jìn)行細(xì)節(jié)放大。


這一點(diǎn)非常有用,對于放大細(xì)節(jié)來說,場景可太豐富了。

圖例判斷

這個 case,考察模型能否根據(jù)圖片的細(xì)節(jié),推理出在哪個城市。


根據(jù)標(biāo)識牌推理在哪個國家。


路徑選擇



多題解答


好了,搞完這些 case,我人直接麻了。

講真的,AI 的發(fā)展速度已經(jīng)快到讓人有點(diǎn)窒息了。

最恐怖的地方在于,它不再是簡單地「看懂」圖片,而是在「思考」如何更好地去理解。通過調(diào)用旋轉(zhuǎn)、縮放、標(biāo)記這些工具,它就像一個真正的人,在想方設(shè)法地解決問題。

從在復(fù)雜的《清明上河圖》里找人,到分析X光片的細(xì)節(jié),這些以前我們想都敢想的場景,現(xiàn)在正一個個變成現(xiàn)實(shí)。

我們正處在一個技術(shù)爆炸的奇點(diǎn),每天都有新的可能性誕生。今天我們還在驚嘆它能找人,明天它可能就成了我們生活里離不開的眼睛。

這種感覺,真讓人無比興奮。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

洛克希德·馬丁生產(chǎn)線停了,是中國凍結(jié)了他們在華的全部資產(chǎn)。

百態(tài)人間
2025-12-31 16:18:36
2025十佳運(yùn)動員出爐:全紅嬋落榜,孫穎莎位列第四,他意外上榜

2025十佳運(yùn)動員出爐:全紅嬋落榜,孫穎莎位列第四,他意外上榜

阿纂看事
2025-12-30 09:22:12
全明星首輪投票結(jié)果出爐!變了,聯(lián)盟真的變了!

全明星首輪投票結(jié)果出爐!變了,聯(lián)盟真的變了!

凡人說體育
2025-12-31 20:05:36
騷操作!門將位置走馬換將,上海申花做了一個非常不明智的決定

騷操作!門將位置走馬換將,上海申花做了一個非常不明智的決定

零度眼看球
2025-12-31 08:52:09
知名網(wǎng)紅“表哥”覃進(jìn)展破產(chǎn),曝原因惹爭議,已搬到農(nóng)村

知名網(wǎng)紅“表哥”覃進(jìn)展破產(chǎn),曝原因惹爭議,已搬到農(nóng)村

攬星河的筆記
2025-12-27 14:20:24
“美國已頒發(fā)許可,批準(zhǔn)向中國出口”

“美國已頒發(fā)許可,批準(zhǔn)向中國出口”

魯中晨報(bào)
2025-12-31 15:53:03
66歲曹西平家中離世,親哥拒處理后事,干兒子獨(dú)享遺產(chǎn)

66歲曹西平家中離世,親哥拒處理后事,干兒子獨(dú)享遺產(chǎn)

借你一生
2025-12-30 22:41:15
央視綜藝頻道重用新生代,重要活動四位主持人全是主持人大賽選手

央視綜藝頻道重用新生代,重要活動四位主持人全是主持人大賽選手

徐幫陽
2025-12-31 23:35:17
一場3-1讓英超豪強(qiáng)征服客場,終結(jié)3輪不勝,吉馬良斯補(bǔ)時(shí)破門

一場3-1讓英超豪強(qiáng)征服客場,終結(jié)3輪不勝,吉馬良斯補(bǔ)時(shí)破門

足球狗說
2025-12-31 05:37:32
優(yōu)質(zhì)“蛋白質(zhì)”排行榜!大豆排倒數(shù)第1,蝦肉才排第4,第一名很多人都不知道

優(yōu)質(zhì)“蛋白質(zhì)”排行榜!大豆排倒數(shù)第1,蝦肉才排第4,第一名很多人都不知道

美食格物
2025-12-29 16:58:15
這次演習(xí)最讓青蛙們破防的,不是臺北101,而是那架剛起飛的客機(jī)

這次演習(xí)最讓青蛙們破防的,不是臺北101,而是那架剛起飛的客機(jī)

青青子衿
2025-12-30 20:13:46
暴風(fēng)雨的前夜——伊朗暴亂,代理人終結(jié),以色列的警告:別惹我們

暴風(fēng)雨的前夜——伊朗暴亂,代理人終結(jié),以色列的警告:別惹我們

老王說正義
2025-12-31 00:03:53
突發(fā)暴跌!全線跳水

突發(fā)暴跌!全線跳水

證券時(shí)報(bào)
2025-12-31 14:27:02
清華留美學(xué)者趙通,給美獻(xiàn)4條“毒計(jì)”針對祖國,招招狠毒

清華留美學(xué)者趙通,給美獻(xiàn)4條“毒計(jì)”針對祖國,招招狠毒

小莜讀史
2025-12-13 17:55:59
“再造新廣州”,廣州靠什么?專家:支持汽車產(chǎn)業(yè)轉(zhuǎn)型

“再造新廣州”,廣州靠什么?專家:支持汽車產(chǎn)業(yè)轉(zhuǎn)型

時(shí)代周報(bào)
2025-12-31 20:54:25
31日深夜官宣!中國女籃15人名單!女奧尼爾在列張子宇王思雨無緣

31日深夜官宣!中國女籃15人名單!女奧尼爾在列張子宇王思雨無緣

老吳說體育
2025-12-31 22:10:26
1年暴漲10.9億!英超市值已達(dá)125億,西甲僅漲3億,五大聯(lián)賽墊底

1年暴漲10.9億!英超市值已達(dá)125億,西甲僅漲3億,五大聯(lián)賽墊底

奧拜爾
2025-12-31 19:20:17
解放軍圍臺軍演后,國民黨內(nèi)5個“內(nèi)鬼”現(xiàn)形,鄭麗文一句話亮了

解放軍圍臺軍演后,國民黨內(nèi)5個“內(nèi)鬼”現(xiàn)形,鄭麗文一句話亮了

李博世財(cái)經(jīng)
2025-12-31 14:12:27
安德魯王子玩的有多花:有過1000多個女朋友,豪宅里進(jìn)出美女無數(shù)

安德魯王子玩的有多花:有過1000多個女朋友,豪宅里進(jìn)出美女無數(shù)

豐譚筆錄
2025-12-31 12:27:41
天津一麥當(dāng)勞門店被砸,店內(nèi)桌椅散落一地,警方已介入處理...

天津一麥當(dāng)勞門店被砸,店內(nèi)桌椅散落一地,警方已介入處理...

全接觸狐狐
2025-12-31 15:12:02
2026-01-01 02:04:49
蒼何
蒼何
前大廠工程師,努力分享AI干貨知識
38文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

老羅,演砸了,也封神了?

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

頭條要聞

日企代表團(tuán)推遲原定訪華行程 外交部回應(yīng)

體育要聞

吉達(dá)聯(lián)合3-1新未來城體育,艾哈邁德-加姆迪破門,貝爾溫傳射

娛樂要聞

官宣才兩天就翻車?七七被連環(huán)爆料

財(cái)經(jīng)要聞

高培勇:分配制度改革是提振消費(fèi)的抓手

汽車要聞

凱迪拉克純電中型SUV 售價(jià)不足24萬/33寸曲面屏

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
本地
健康
家居

靈感集結(jié),能量共振

手機(jī)要聞

三星Galaxy S26 Ultra:藥丸相機(jī)島+圓角邊框,配置細(xì)節(jié)也清晰了

本地新聞

即將過去的2025年,對重慶的影響竟然如此深遠(yuǎn)

元旦舉家出行,注意防流感

家居要聞

無形有行 自然與靈感詩意

無障礙瀏覽 進(jìn)入關(guān)懷版