国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè)豆包新上線視覺大模型1.6-vision,OpenAI GPT5要失眠了

0
分享至

內(nèi)測(cè)了快三周的豆包-Seed-1.6-vision,

用了上百?gòu)垐D片,


我覺得是時(shí)候分享一下了,

大家平時(shí)會(huì)好奇現(xiàn)在主流模型里有哪幾個(gè)是帶圖像理解的嗎?

我好奇。用多了OpenAI感覺這都是常規(guī)功能了,盤了一圈下來,GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能識(shí)別圖片里的文字的了。

那把范圍縮小一點(diǎn)呢?在圖片理解的基礎(chǔ)上帶圖片工具的,


這個(gè)很好理解,縮放、裁剪、旋轉(zhuǎn)、劃線都是圖片工具的一種。

當(dāng)下真的幻視我七八年前用OpenCV打比賽,不知道還有沒有人記得這張包漿照片,當(dāng)年但凡是做圖像處理的都應(yīng)該用過來改色、或者丟給CNN(卷積神經(jīng)網(wǎng)絡(luò))來識(shí)別。


所以我也是拿出了OpenAI o3的成名作,通過放大圖片的細(xì)節(jié)來找地點(diǎn)。

I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?


這次能分析出地點(diǎn)的大模型數(shù)量下降到1.5個(gè)了,

從Gemini-2.5-Pro的思考過程來看它似乎有放大焦點(diǎn)的操作,但是看不到圖片預(yù)覽,所以算0.5個(gè)。


有了對(duì)照組之后,豆包這次Seed-1.6-vision更新的含金量就拉滿了,

它內(nèi)置了4種圖像處理工具:


  • POINT:在圖上繪制一系列點(diǎn),以及將點(diǎn)連成線
  • GROUNDING:框選關(guān)鍵區(qū)域,或裁剪關(guān)鍵區(qū)域
  • ZOOM:縮放全圖,或縮放指定關(guān)鍵區(qū)域
  • ROTATE:旋轉(zhuǎn)圖片

不跟GPT5-Thinking來場(chǎng)1對(duì)1 SOLO可惜了,于是我跟我的錢包一拍即合,給兩家都充了套餐,來一場(chǎng)超全面圖像測(cè)評(píng),同時(shí)這也可能是第一篇做分類做圖像推理case比較全的文章了,我在找案例的時(shí)候就很希望能遇到一篇這樣的文章。

老樣子,這次測(cè)試所有圖片和對(duì)話記錄我都打包好啦,公眾號(hào)回復(fù)“豆包V”就行

因?yàn)槟壳癝eed-1.6-vision需要通過respinse_api格式要調(diào)用圖像工具,

所以我基于好朋友@蒼何的doubao-image-process項(xiàng)目,改了一版支持火山引擎對(duì)象存儲(chǔ)TOS的,

https://github.com/freestylefly/doubao-image-process

縮放|ZOOM

先來個(gè)縮放熱熱身,判斷圖里是什么車,


Seed-1.6-vision:

上來就精確找到了車牌的位置,我甚至都沒有讓它通過車牌判斷是什么車,而且得到了車牌信息后,會(huì)通過聯(lián)網(wǎng)搜索確定車身上的細(xì)節(jié)是不是就跟小米SU7 Ultra能不能一一匹配。



GPT5-thinking:

同樣是通過車牌來補(bǔ)充信息,沒有縮放或者裁剪原圖。


再來一個(gè)惡夢(mèng)難度的,只有一艘船,船上也沒信息,

加了點(diǎn)濾鏡,所以天氣信息不多


Seed-1.6-vision:

它還可以基于已經(jīng)裁剪放大的圖片后進(jìn)行2次放大,看看他的思考過程就知道有多難了,前后盤點(diǎn)了八個(gè)地點(diǎn),中間也提到了正確答案山東威海



GPT5-thinking:

它說的那么篤定,我都有點(diǎn)質(zhì)疑我自己了,


所以伊朗基什島(Kish Island)西岸的"希臘沉船"到底長(zhǎng)得有多像,不能說一模一樣,只能說毫無關(guān)系。


旋轉(zhuǎn)|ROTATE

再來提點(diǎn)難度,就算是我自己把屏幕轉(zhuǎn)180度后也有點(diǎn)看不清,


Seed-1.6-vision:

所幸它還可以兩次三次方法圖片細(xì)節(jié),單次就是2倍放大,也就是可以提升到iphone17 pro max同款的八倍鏡。



GPT5-thinking:

這邊的選手表現(xiàn)咋樣呢?可算舍得用PIL工具了,同樣是旋轉(zhuǎn)、裁剪、圖像增強(qiáng)一條龍。


我還有點(diǎn)好奇能不能做到180?鏡像反轉(zhuǎn),


講道理這個(gè)case我真的看了半天,

Seed-1.6-vision也被我騙到了,第三輪終于意識(shí)到字本身還要翻轉(zhuǎn)才看,最終識(shí)別的準(zhǔn)確率有54%


隔壁GPT5-thinking的識(shí)別準(zhǔn)確率只有15.4%,能看出來它已經(jīng)在努力放大細(xì)節(jié)了,但是每個(gè)字的劃分區(qū)域不夠準(zhǔn)確導(dǎo)致的錯(cuò)誤。


左邊是豆包,右邊是GPT5



框選|GROUNDING

有什么比找不同更適合框選呢


該說不說,Seed-1.6-vision找的是真準(zhǔn),沒有圈多余的地方


有對(duì)照組后,GPT5-thinking畫的圈圈就有點(diǎn)不太準(zhǔn)了,


再來一個(gè)日常的,這時(shí)候有框選的話就可以一個(gè)個(gè)排除問題了


Seed-1.6-vision(上)畫的紅框又比GPT5-thinking(下)準(zhǔn)了不少,從Seed-1.6-vision的思考過程能看出來點(diǎn)細(xì)節(jié),



看到這圖里的藍(lán)色點(diǎn)嗎?用的是point功能,先標(biāo)注出了物體的中心再畫框,能不準(zhǔn)嗎。。。


繪線幾何|POINT

剛好提到point,我還給模型們準(zhǔn)備了數(shù)學(xué)幾何題,


Seed-1.6-vision在單次思考的過程也不是只會(huì)在固定的兩點(diǎn)畫線的,

point可以隨意移動(dòng),超長(zhǎng)的上下文讓它可以一次輸出十幾張過程圖。



GPT5-thinking這波屬于是“虛空畫線“了,

看來是用的PIL沒有定點(diǎn)和連線的功能,


當(dāng)然,這道題他們兩個(gè)都答對(duì)了。

最后再來兩個(gè)我測(cè)試過程中遇到的小彩蛋,

Seed-1.6-vision在回答圖像邏輯題和圖像里主體之間的邏輯關(guān)系也有很高的準(zhǔn)確率。





一句話總結(jié)就是好用,

實(shí)打?qū)嵉暮糜茫?/p>

默認(rèn)開啟的圖像工具降低了寫提示語的成本,

兩兩組合還可以完成畫線,準(zhǔn)點(diǎn)畫框、旋轉(zhuǎn)+八倍放大的操作,

求趕緊同步發(fā)布到可以直接使用的網(wǎng)頁端,

降低使用門檻,

這樣我們都可以用上我們自己的,

最好的模型。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點(diǎn)贊|在看|轉(zhuǎn)發(fā)|評(píng)論

如果想要第一時(shí)間收到推送,不妨給我個(gè)星標(biāo)

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
法國(guó)、英國(guó)、德國(guó)、加拿大、日本等14國(guó)發(fā)表聯(lián)合聲明

法國(guó)、英國(guó)、德國(guó)、加拿大、日本等14國(guó)發(fā)表聯(lián)合聲明

政知新媒體
2025-12-25 08:12:04
馬斯克預(yù)測(cè)美國(guó)經(jīng)濟(jì)18個(gè)月內(nèi)實(shí)現(xiàn)兩位數(shù)增長(zhǎng),AI成關(guān)鍵驅(qū)動(dòng)力

馬斯克預(yù)測(cè)美國(guó)經(jīng)濟(jì)18個(gè)月內(nèi)實(shí)現(xiàn)兩位數(shù)增長(zhǎng),AI成關(guān)鍵驅(qū)動(dòng)力

華爾街見聞官方
2025-12-25 05:42:06
17歲差算個(gè)球?姆巴佩牽手伊萬卡,空窗期緋聞比進(jìn)球還吸金

17歲差算個(gè)球?姆巴佩牽手伊萬卡,空窗期緋聞比進(jìn)球還吸金

羅氏八卦
2025-12-25 11:45:55
闞清子車停醫(yī)院2天!3個(gè)細(xì)節(jié)戳破早產(chǎn)謠言,怎么判斷爆料真假?

闞清子車停醫(yī)院2天!3個(gè)細(xì)節(jié)戳破早產(chǎn)謠言,怎么判斷爆料真假?

可樂談情感
2025-12-25 00:55:18
烤雞少年承認(rèn)用“肉寶王”來調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

烤雞少年承認(rèn)用“肉寶王”來調(diào)味,廠家人員:是已生產(chǎn)25年的合法調(diào)味料,不是添加劑

極目新聞
2025-12-22 19:57:51
王彥霖投票肖戰(zhàn),東北式直球引爆全網(wǎng)社死!

王彥霖投票肖戰(zhàn),東北式直球引爆全網(wǎng)社死!

犀利辣椒
2025-12-25 06:42:18
官宣!上海史上“最貴地鐵”19號(hào)線正式開疆拓土

官宣!上海史上“最貴地鐵”19號(hào)線正式開疆拓土

普陀動(dòng)物世界
2025-12-25 10:18:58
女子不明原因拉肚子,丈夫:我不是有錢人,但傾家蕩產(chǎn)都要她活著出來!

女子不明原因拉肚子,丈夫:我不是有錢人,但傾家蕩產(chǎn)都要她活著出來!

聽李醫(yī)生說
2025-12-24 09:06:09
徐湖平背后貴人被曝光,父親是老軍人,在當(dāng)?shù)仃P(guān)系網(wǎng)很大、人脈廣

徐湖平背后貴人被曝光,父親是老軍人,在當(dāng)?shù)仃P(guān)系網(wǎng)很大、人脈廣

觀星賞月
2025-12-25 12:06:58
美媒:爵士拒絕交易1.2億美元的凱斯勒讓湖人躲過一劫

美媒:爵士拒絕交易1.2億美元的凱斯勒讓湖人躲過一劫

懂球帝
2025-12-25 11:38:08
張?jiān)⒋笸群瞄L(zhǎng)

張?jiān)⒋笸群瞄L(zhǎng)

情感大頭說說
2025-12-25 09:56:07
高圓圓小學(xué)六年級(jí)照片曝光!從小就是美人坯子!趙又廷撿了大便宜

高圓圓小學(xué)六年級(jí)照片曝光!從小就是美人坯子!趙又廷撿了大便宜

小娛樂悠悠
2025-12-25 09:53:22
臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

臺(tái)灣其實(shí)根本就不用打,打它干什么?只要把臺(tái)灣海峽劃成戰(zhàn)區(qū)

百態(tài)人間
2025-12-24 16:46:46
錯(cuò)換人生38年:被富養(yǎng)的女孩拒絕認(rèn)親,養(yǎng)父母逼著她見親生父母

錯(cuò)換人生38年:被富養(yǎng)的女孩拒絕認(rèn)親,養(yǎng)父母逼著她見親生父母

漢史趣聞
2025-12-24 09:57:53
盧比奧痛斥歐洲領(lǐng)導(dǎo)人的高高在上!

盧比奧痛斥歐洲領(lǐng)導(dǎo)人的高高在上!

西樓飲月
2025-12-24 21:43:47
鬧起來了!某光伏公司放大假,員工開車堵門抗議!

鬧起來了!某光伏公司放大假,員工開車堵門抗議!

黯泉
2025-12-24 20:49:18
狂掃1000噸黃金,美聯(lián)儲(chǔ)慌了,金價(jià)殺到4400,中國(guó)暗藏底牌

狂掃1000噸黃金,美聯(lián)儲(chǔ)慌了,金價(jià)殺到4400,中國(guó)暗藏底牌

夢(mèng)史
2025-12-25 10:07:23
中美俄戰(zhàn)機(jī)飛行1小時(shí)成本對(duì)比:F22要60萬,蘇27需18萬,殲20多少

中美俄戰(zhàn)機(jī)飛行1小時(shí)成本對(duì)比:F22要60萬,蘇27需18萬,殲20多少

阿器談史
2025-12-21 23:20:57
美媒預(yù)測(cè)西部奪冠概率最高的5支球隊(duì):馬刺10%,升至第四超湖人!

美媒預(yù)測(cè)西部奪冠概率最高的5支球隊(duì):馬刺10%,升至第四超湖人!

你的籃球頻道
2025-12-25 11:02:06
監(jiān)視員工的電腦軟件被公開叫賣!記者實(shí)測(cè):微信聊天就像在“裸奔”,殺毒軟件卻“失明”

監(jiān)視員工的電腦軟件被公開叫賣!記者實(shí)測(cè):微信聊天就像在“裸奔”,殺毒軟件卻“失明”

每日經(jīng)濟(jì)新聞
2025-12-25 00:48:23
2025-12-25 16:32:49
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
183文章數(shù) 62關(guān)注度
往期回顧 全部

科技要聞

屠龍少年被"招安"!英偉達(dá)平安夜豪擲200億

頭條要聞

男子信訪被勸返收鎮(zhèn)干部4300元路費(fèi)獲罪 二審駁回上訴

頭條要聞

男子信訪被勸返收鎮(zhèn)干部4300元路費(fèi)獲罪 二審駁回上訴

體育要聞

單賽季11冠,羽壇“安洗瑩時(shí)代”真的來了

娛樂要聞

金莎小19歲男友求婚成功!兩人雪地?fù)砦?/h3>

財(cái)經(jīng)要聞

時(shí)隔15月,人民幣升破7,三大推手曝光

汽車要聞

預(yù)售31.3萬元起 全新奧迪Q5L將于1月內(nèi)上市

態(tài)度原創(chuàng)

教育
藝術(shù)
本地
游戲
家居

教育要聞

孩子第一次有組織的撒謊,往往就始于語文作文

藝術(shù)要聞

緬懷 | 著名油畫家宮立龍逝世,享年73歲

本地新聞

云游安徽|亳州晨暮皆成史,街巷縱橫印春秋

玩家討厭游戲教程!填鴨式教程如何消磨熱情?

家居要聞

經(jīng)典彌新 品味浪漫居所

無障礙瀏覽 進(jìn)入關(guān)懷版