国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)開源模型卷贏Gemini 3 Pro、GPT-5.2,最強多模態(tài)推理大模型易主?

0
分享至


智東西
作者 程茜
編輯 云鵬

智東西1月30日報道,1月29日,商湯正式開源多模態(tài)自主推理模型SenseNova-MARS-8B和SenseNova-MARS-32B。該系列模型在多模態(tài)搜索與推理的核心基準測試中性能超越Gemini 3 Pro、GPT-5.2。

商湯指出,SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的Agentic VLM模型。

該框架能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,如通過放大、裁剪圖片尋找細節(jié),然后調(diào)用文本、圖片搜索工具查詢背景信息,且這一過程無需人工干預。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準測試中,SenseNova-MARS取得開源模型中的SOTA成績。


商湯日日新SenseNova-MARS模型、代碼、數(shù)據(jù)集全開源。


GitHub地址:

https://github.com/OpenSenseNova/SenseNova-MARS

一、自動放大圖片看細節(jié),調(diào)用外部工具進行文字、圖片搜索

盡管視覺語言模型(VLM)能夠通過智能推理解決復雜任務,但其主要局限于面向文本的思維鏈或孤立的工具調(diào)用。尤其是在需要協(xié)調(diào)外部工具(例如搜索和圖像裁剪)的知識密集型和視覺復雜場景中,它們無法展現(xiàn)出人類所需的熟練程度,無法將動態(tài)工具操作與連續(xù)推理無縫銜接。

基于此,商湯研究團隊推出了SenseNova-MARS。SenseNova-MARS能在生活和工作的場景,解決需要“多步驟推理+多工具協(xié)作”的問題,如可以通過裁剪放大圖片的細節(jié)、進行圖像搜索、進行文本搜索。

下方模型需要完成識別賽車服微小Logo、查詢公司成立年份、匹配車手出生年月、計算差值的復雜任務,SenseNova-MARS可自主調(diào)用圖像裁剪、文本/圖像搜索工具,無需人工干預完成解答。


其還能從產(chǎn)品和行業(yè)峰會的照片中,如根據(jù)下面的汽車圖片識別出汽車品牌的標志、確認車型,然后結(jié)合文本和圖像搜索給出答案。


SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息,追溯比賽或人員背景信息,快速補充重要細節(jié)。


該模型還能處理超長步驟的多模態(tài)推理,和超過三種工具調(diào)用,自動裁剪分析細節(jié)、搜索相關研究數(shù)據(jù),快速驗證假設,得出關鍵判斷。例如根據(jù)下方圖片,其能快速抓取精準信息,包括公司成立年份、人物出生年月等。


二、搜索能力超Gemini-3-Pro、GPT-5.2,跨任務調(diào)用工具強過Qwen3-VL-8B

為了全面評估智能視覺學習模型(VLM)在復雜視覺任務上的性能,研究團隊引入了HR-MMSearch基準測試。

作為評估VLM智能體細粒度感知和搜索推理能力的基準測試。該數(shù)據(jù)集包含305張4K分辨率的圖像,這些圖像來自8個不同的、具有高影響力的領域,涵蓋體育、休閑文化以及科學技術(shù)等。


▲HR-MMSearch測試集的數(shù)據(jù)包含情況

實驗表明,SenseNova-MARS在開源搜索和細粒度圖像理解基準測試中均表現(xiàn)較優(yōu)。在面向搜索的基準測試中,SenseNova-MARS-32B在MMSearch和HR-MMSearch上的得分分別為74.3和54.4,超越了Gemini-3-Pro和GPT-5.2等專有模型。

在知識密集型MMSearch基準測試中,SenseNova-MARS主要依賴圖像和文本搜索工具來獲取外部信息,對基于裁剪的感知依賴性極低。相比之下,在既需要高分辨率感知,也需要復雜的推理的HR-MMSearch測試中,SenseNova-MARS展現(xiàn)出更為均衡的工具使用,表明其能夠有效地整合局部視覺線索和外部知識。

與Qwen3-VL-8B相比,SenseNova-MARS-8B通過動態(tài)地為每種任務場景選擇最有效的工具,展現(xiàn)出更強的跨任務適應性。


▲SenseNova-MARS-8B的自適應工具使用行為

SenseNova-MARS-32B在六項基準測試中與其他模型的整體性能對比顯示,MMSearch、HR-MMSearch和FVQA等搜索導向型基準測試中,該模型超越了Gemini-3-Pro和GPT-5.2等專有模型。


面向視覺理解,在V Bench和HR-Bench等高分辨率感知基準測試中,SenseNova-MARS-32B性能優(yōu)于Qwen3-VL-235B-A22B等模型。


三、系統(tǒng)框架+強化學習,采用雙階段流水線并行訓練策略

SenseNova-MARS基于Qwen2.5-VL-7B-Instruct,采用兩階段流水線進行訓練,先進行系統(tǒng)框架訓練(SFT),再進行強化學習(RL)訓練。

第一階段,其針對跨模態(tài)搜索推理訓練數(shù)據(jù)稀缺的痛點,的提出了基于多模智能體的自動化數(shù)據(jù)合成引擎,采用細粒度視覺錨點與多跳深度關聯(lián)檢索的機制,動態(tài)挖掘并關聯(lián)跨網(wǎng)頁實體的邏輯,自動化構(gòu)建高復雜度的多跳推理鏈路,同時引入閉環(huán)自洽性校驗來去除幻覺數(shù)據(jù),構(gòu)造出具備嚴密邏輯鏈條與高知識密度的多跳搜索問答數(shù)據(jù)。

其篩選的高難度案例中,每個案例都標注了“該用什么工具、步驟是什么”,讓AI先學會基本的解題邏輯,確保AI一開始就接觸真實復雜場景。

第二階段訓練采用強化學習,AI每做對一次決策,比如選對工具、步驟合理就會獲得獎勵,做錯了就調(diào)整策略。

此外,為了避免AI“學偏”,研究團隊還引入了BN-GSPO算法,讓模型在處理簡單題和復雜題時都能保持穩(wěn)定進步,不會出現(xiàn)“偏科”。


這種基于雙階段歸一化的機制可以平滑動態(tài)工具調(diào)用返回分布多樣性帶來的優(yōu)化波動并確保學習信號分布的一致性,從而解決跨模態(tài)多步多工具智能體訓練過程中的收斂性難題。

經(jīng)過這樣的訓練,AI不僅學會了用工具,還能知道在什么情況下應該使用哪些工具,以及如何將不同工具的結(jié)果有機結(jié)合起來。

結(jié)語:多模態(tài)AI能自主解題,或加速產(chǎn)業(yè)端AI應用

商湯提出了新型的多模態(tài)智能推理與搜索模型,該模型能夠在多輪推理過程中主動運用圖像搜索、文本搜索和圖像裁剪工具,提升了AI從被動響應指令到主動規(guī)劃步驟、調(diào)用工具解決復雜問題的能力。

聚焦到真實的業(yè)務場景,在工業(yè)質(zhì)檢、金融風控、傳媒內(nèi)容分析、賽事數(shù)據(jù)挖掘、科研輔助等領域,模型此前受限于看不清細節(jié)、不會查背景、無法處理復雜多步驟任務的落地痛點。SenseNova-MARS無需人工干預的閉環(huán)解題能力,或大幅提升產(chǎn)業(yè)端的AI應用效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
突然,降息50個基點

突然,降息50個基點

中國基金報
2026-01-29 21:33:09
美國總統(tǒng)特朗普已聽取針對伊朗的多種打擊方案

美國總統(tǒng)特朗普已聽取針對伊朗的多種打擊方案

極目新聞
2026-01-30 10:50:13
連續(xù)兩年,穆里尼奧書寫相同故事,讓曼城馬賽緊張,創(chuàng)歐冠兩紀錄

連續(xù)兩年,穆里尼奧書寫相同故事,讓曼城馬賽緊張,創(chuàng)歐冠兩紀錄

嗨皮看球
2026-01-29 18:59:44
朱媛媛最后影像!殺青合影時強撐微笑,辛柏青全程陪護成最后守候

朱媛媛最后影像!殺青合影時強撐微笑,辛柏青全程陪護成最后守候

樂悠悠娛樂
2026-01-30 11:06:13
“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

“流氓有文化更可怕”,退休老干部頻繁聯(lián)系女幼師,聊天記錄曝光

妍妍教育日記
2026-01-27 19:58:28
這是倆新秀?堪比超巨對轟!弗拉格轟49+10,難耐4號秀8三分+絕殺

這是倆新秀?堪比超巨對轟!弗拉格轟49+10,難耐4號秀8三分+絕殺

你的籃球頻道
2026-01-30 12:21:14
站在中國領土上,英首相的一句話震動歐洲,美國直接對中國攤牌了

站在中國領土上,英首相的一句話震動歐洲,美國直接對中國攤牌了

墨蘭史書
2026-01-30 00:00:03
伊朗貨幣崩盤!里亞爾兌美元沖破167萬,經(jīng)濟恐慌加劇

伊朗貨幣崩盤!里亞爾兌美元沖破167萬,經(jīng)濟恐慌加劇

桂系007
2026-01-29 22:00:12
新華社2025年的十佳名單一公布,不少球迷都發(fā)現(xiàn)

新華社2025年的十佳名單一公布,不少球迷都發(fā)現(xiàn)

小光侃娛樂
2026-01-30 13:20:03
警惕!尼帕病毒殺瘋了!緊急喊停3種飯,提前做好4件事能救命

警惕!尼帕病毒殺瘋了!緊急喊停3種飯,提前做好4件事能救命

現(xiàn)代小青青慕慕
2026-01-29 14:16:18
董卿父親董善祥:我這輩子最后悔的事,就是讓寶貝女兒嫁給密春雷

董卿父親董善祥:我這輩子最后悔的事,就是讓寶貝女兒嫁給密春雷

時光在作祟
2026-01-29 19:58:49
華人自曝: 中國手機在澳洲不能用了!? 已收到通知, 即將變板磚, 剛買的也不行

華人自曝: 中國手機在澳洲不能用了!? 已收到通知, 即將變板磚, 剛買的也不行

澳微Daily
2026-01-30 11:25:50
人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

人在醫(yī)院能愚蠢到啥程度?網(wǎng)友:完美詮釋了不作不死的真義

帶你感受人間冷暖
2026-01-27 00:10:05
保命還是保飯碗?5萬種中成藥強制退市!是要毀了中醫(yī)還是救中醫(yī)

保命還是保飯碗?5萬種中成藥強制退市!是要毀了中醫(yī)還是救中醫(yī)

李將平老師
2026-01-29 14:58:04
有色暴跌7%!資金反向大舉加倉,短短15分鐘凈申購超1.4億份

有色暴跌7%!資金反向大舉加倉,短短15分鐘凈申購超1.4億份

每日經(jīng)濟新聞
2026-01-30 09:54:36
一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

一嫁日本,二嫁美國,三嫁法國,絕不嫁中國人的李勤勤,咋樣了?

心靈的觸動a
2026-01-30 00:04:59
請注意!大范圍雨雪天氣將至,上海將迎入秋以來最大降雨

請注意!大范圍雨雪天氣將至,上海將迎入秋以來最大降雨

縱相新聞
2026-01-29 16:57:03
42歲范佩西心碎!19歲兒子在眼前重傷+哭著被抬走 攔下?lián)芩桶参?>
    </a>
        <h3>
      <a href=風過鄉(xiāng)
2026-01-30 07:10:47
金晨代言評論區(qū)淪陷!警方介入調(diào)查品牌開始切割,已刪除直播預告

金晨代言評論區(qū)淪陷!警方介入調(diào)查品牌開始切割,已刪除直播預告

萌神木木
2026-01-29 15:37:44
被判違規(guī)!國安遭扣分后“硬剛”足協(xié),媒體人曝光“罪證”來源

被判違規(guī)!國安遭扣分后“硬剛”足協(xié),媒體人曝光“罪證”來源

體壇鑒春秋
2026-01-29 16:58:21
2026-01-30 13:55:02
智東西 incentive-icons
智東西
聚焦智能變革,服務產(chǎn)業(yè)升級。
11154文章數(shù) 116945關注度
往期回顧 全部

科技要聞

單季狂賺3000億;iPhone 17 全球賣瘋了!

頭條要聞

美駐華大使挑事:中方出口管制措施不合規(guī)

頭條要聞

美駐華大使挑事:中方出口管制措施不合規(guī)

體育要聞

敢揍多爾特,此子必成大器?

娛樂要聞

金晨出事前 曾靈魂發(fā)問未收到春晚邀請

財經(jīng)要聞

血鉛超標工人,擋在“勞動關系”門檻外

汽車要聞

全面科技化 新款梅賽德斯-奔馳S級發(fā)布

態(tài)度原創(chuàng)

健康
數(shù)碼
旅游
藝術(shù)
公開課

耳石癥分類型,癥狀大不同

數(shù)碼要聞

最高省4000元!華為開啟春節(jié)感恩回饋季活動,覆蓋手機手表平板多品類

旅游要聞

2026“歡樂春節(jié)”音樂會暨“你好!中國”旅游推介系列活動在美國舉行

藝術(shù)要聞

風景畫選刊 | 中國油畫學會三十年藝術(shù)展

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版