国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

書生·萬象3.5開源,實現(xiàn)多模態(tài)大模型從被動感知到主動執(zhí)行

0
分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。

上海人工智能實驗室正式向全球開源其新一代多模態(tài)大模型——書生·萬象InternVL 3.5。本次開源的模型實現(xiàn)了從單純感知理解到實體交互能力的重大跨越,標(biāo)志著多模態(tài)人工智能進入了新的發(fā)展階段。

該模型通過創(chuàng)新的訓(xùn)練架構(gòu)和算法突破,在通用多模態(tài)感知、復(fù)雜情境推理和文本理解等核心能力方面均展現(xiàn)出卓越性能。其旗艦?zāi)P驮诙鄬W(xué)科綜合推理評估中表現(xiàn)突出,位列全球開源模型領(lǐng)先地位。

更值得關(guān)注的是,新一代模型在多項特色能力上取得顯著進展:

  • 具備先進的圖形用戶界面理解與操作能力,支持跨平臺自動化任務(wù)執(zhí)行

  • 在具身空間感知方面展現(xiàn)出色表現(xiàn),為智能體導(dǎo)航與交互提供強大支撐

  • 在矢量圖形理解與生成任務(wù)中實現(xiàn)突破性進展

這些突破使InternVL 3.5不再是傳統(tǒng)意義上的"觀察者",而是能夠真正理解環(huán)境、進行實體交互的智能體。該模型可自主完成文件管理、文檔處理等日常辦公任務(wù),還能為機器人提供強大的視覺感知與決策能力,在智能制造、智能辦公等領(lǐng)域展現(xiàn)出廣闊應(yīng)用前景。目前已上線始智AI-wisemodel開源社區(qū)-應(yīng)用空間,歡迎大家進行體驗。

https://wisemodel.cn/apps/der5pgpdsis4t7s01k4kf39td

模型地址

https://wisemodel.cn/organization/Intern

01.

實現(xiàn)從“理解”到“行動”的跨越

本次升級,上海AI實驗室研究團隊重點強化了InternVL3.5面向?qū)嶋H應(yīng)用的智能體與文本思考能力,在GUI交互、具身空間推理和矢量圖形處理等多個關(guān)鍵場景實現(xiàn)從“理解”到“行動”的跨越,并得到多項權(quán)威評測驗證。

在GUI交互部分,InternVL3.5在ScreenSpot-v2元素定位任務(wù)以92.9分超越同類模型,同時支持Windows/Ubuntu自動化操作,并在WindowsAgentArena任務(wù)大幅領(lǐng)先Claude-3.7-Sonnet;在具身智能體測試中,InternVL3.5表現(xiàn)出理解物理空間關(guān)系并規(guī)劃導(dǎo)航路徑的能力,在VSI-Bench以69.5分超過Gemini-2.5-Pro;在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench以70.7分刷新開源紀(jì)錄,生成任務(wù)FID值也優(yōu)于GPT-4o和Claude-3.7-Sonnet。

不只是評測成績亮眼,InternVL3.5在智能辦公、機器人訓(xùn)練、AI for Science等實際場景中也展示出強勁實力。具體實例如下:

GUI智能體

InternVL3.5可跨Windows、Mac、Ubuntu、Android等多個平臺,精確識別界面元素并自主執(zhí)行鼠標(biāo)、鍵盤操作,實現(xiàn)恢復(fù)已刪除文件、導(dǎo)出PDF、郵件添加附件等任務(wù)的自動化,有效提升辦公效率。

具身空間推理

InternVL3.5具備更強的grounding能力,可以泛化到全新的復(fù)雜大量小樣本的具身場景,配合抓取算法,支持可泛化的長程物體抓取操作,助力機器人更高效地完成物品識別、路徑規(guī)劃與物理交互。

(視頻由錄制視角記錄)

矢量圖生成與編輯

基于InternVL3.5 8B專有SVG模型,用戶能夠在發(fā)出自然語言指令后,讓模型生成或編輯SVG矢量圖形。本項能力可有效應(yīng)用于網(wǎng)頁圖形生成與工程圖紙解析等專業(yè)場景。

示例1:根據(jù)文字指令生成矢量圖文件

指令示例:

一個帶有黃色和橙色三角形切面的幾何鉆石形狀;

一個帶有扳手和錘子圖標(biāo)的紅色工具箱;

一個帶有深色底座和屏幕的藍色電腦顯示器圖標(biāo)。

效果:

示例2:根據(jù)文字指令編輯矢量圖文件

指令示例:

在番茄的臉上涂一滴眼淚。

輸入:

輸出:

通用推理能力

從數(shù)學(xué)物理考研題到國考圖形推理邏輯測試,再到桌游策略推演,InternVL3.5以領(lǐng)先的通用推理能力實現(xiàn)多場景認知遷移。例如,在AI for Science場景中,模型可協(xié)助科研人員進行分子結(jié)構(gòu)解析、材料性能預(yù)測等復(fù)雜推導(dǎo)。

示例1:數(shù)學(xué)物理考研題

問題

解答這道題

回答

(中間思考過程略)

示例2:國考圖形推理邏輯測試

問題:上面大方框中的紙折疊成一個正方形盒子之后,形成的箭頭的形狀,應(yīng)該是下面A B C D中的哪個

示例3:桌游策略推演

問題:這是什么桌游?給出判斷依據(jù),分析場上局勢,給出下一步的行動建議

InternVL3.5實現(xiàn)全場景能力提升并非源于單一維度的突破,而是架構(gòu)、訓(xùn)練、部署“三位一體”的系統(tǒng)性優(yōu)化的成果。

02.

破解視覺模塊效率瓶頸

在架構(gòu)方面,InternVL3.5的基礎(chǔ)架構(gòu)遵循了業(yè)界成熟的 “ViT-MLP-LLM”范式,并創(chuàng)新提出視覺分辨率路由(Visual Resolution Router,ViR),有效解決多模態(tài)模型的視覺模塊因高分辨率輸入導(dǎo)致的效率瓶頸這一普遍性難題。

ViR的創(chuàng)新之處在于它能基于圖像語義內(nèi)容進行自適應(yīng)計算。在實際工作中,ViR基于視覺一致性學(xué)習(xí)(ViCO)智能化評估每個圖像塊的語義豐富度,并根據(jù)評估結(jié)果,選擇不同的壓縮路徑:對于語義密集區(qū)域(如文字、圖表),ViR會將其路由至高分辨率通路(保留更多Token);而對于語義信息較少的背景區(qū)域,則路由至低分辨率通路(保留更少Token)。

實測數(shù)據(jù)顯示,輕量化的InternVL3.5-Flash在將視覺序列長度減少50%的情況下,仍能保持接近100%的性能水平;在DocVQA、OCRBench等高分辨率任務(wù)上,InternVL3.5在保持高性能的同時推理速度顯著提升。

03.

創(chuàng)新多模態(tài)強化學(xué)習(xí)框架

傳統(tǒng)強化學(xué)習(xí)在多模態(tài)模型中常面臨“效率低”或“性能上限低”的兩難困境:在線強化學(xué)習(xí)效果好,但通常計算成本較高且訓(xùn)練過程不穩(wěn)定;離線強化學(xué)習(xí)訓(xùn)練快,但其性能上限往往受到離線數(shù)據(jù)質(zhì)量的限制。

因此,研究團隊提出了級聯(lián)式強化學(xué)習(xí)(Cascade Reinforcement Learning,Cascade RL)框架,通過“離線預(yù)熱-在線精調(diào)”兩個階段,逐步提升多模態(tài)模型的推理能力。

通過Cascade RL,InternVL3.5將離線強化學(xué)習(xí)的高效率、穩(wěn)定性和在線強化學(xué)習(xí)的高性能潛力相結(jié)合,構(gòu)建了一條高效、穩(wěn)定且可擴展的推理能力提升路徑:在離線強化學(xué)習(xí)階段,采用混合偏好優(yōu)化(MPO)算法快速讓模型達到基礎(chǔ)推理水平,為后續(xù)訓(xùn)練提供高質(zhì)量輸出樣本;在在線強化學(xué)習(xí)階段,主要基于GSPO算法,以模型自身生成的樣本為基礎(chǔ),動態(tài)調(diào)整輸出分布,無需依賴外部參考模型,進一步提升其推理的上限。

對比單階段強化學(xué)習(xí),級聯(lián)式強化學(xué)習(xí)僅通過50%的GPU訓(xùn)練時間即可達到更優(yōu)的綜合性能,同時在1B到241B全參數(shù)規(guī)模中均實現(xiàn)穩(wěn)定性能增益,實現(xiàn)InternVL3.5全系列模型推理性能相較上一代平均提升16.0分。

其中,InternVL3.5-241B-A28B綜合推理性能達到66.9分,超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分,在數(shù)學(xué)推理、邏輯推理等復(fù)雜任務(wù)中表現(xiàn)更為突出。

04.

高效部署實現(xiàn)超4倍的推理加速

在傳統(tǒng)的多模態(tài)模型推理部署方案中,視覺編碼器(如 ViT)和語言模型(LLM)通常串行執(zhí)行,部署在同一個或同一組 GPU 上。然而,這兩部分的計算特性截然不同,視覺編碼器的計算會阻塞語言模型的執(zhí)行,導(dǎo)致GPU資源利用率低下。

基于這一背景,研究團隊提出視覺-語言解耦部署(Decoupled Vision-Language Deployment,DvD)方案:將視覺編碼器(ViT+MLP)與語言模型(LLM)分置于不同GPU,并結(jié)合BF16精度特征傳輸與異步流水線設(shè)計,使視覺計算與語言生成能夠并行執(zhí)行。

DvD帶來了顯著的推理加速,實測數(shù)據(jù)顯示:InternVL3.5-38B模型在處理1344x1344分辨率的圖像時,若僅使用DvD可以將吞吐量提升1.97倍;若結(jié)合使用DvD與ViR,加速效果更為顯著,最高可達4.05倍。這一突破不僅意味著性能上的飛躍,更成為推動高分辨率、強推理能力的多模態(tài)大模型在實際場景中落地應(yīng)用的關(guān)鍵工程成果。

----- END -----

wisemodel相關(guān):



系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
太可恨!飛機一落地上海,女孩立馬報案!更多年輕受害人浮出水面……

太可恨!飛機一落地上海,女孩立馬報案!更多年輕受害人浮出水面……

環(huán)球網(wǎng)資訊
2026-03-26 21:48:04
調(diào)查發(fā)現(xiàn):堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

調(diào)查發(fā)現(xiàn):堅持走路鍛煉的老人,過不了半個月,會迎來4大改善

39健康網(wǎng)
2026-03-02 12:30:48
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會這么火

極目新聞
2026-03-25 19:37:57
驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

火山詩話
2026-03-26 11:40:00
出大事了,特朗普通報全球,美頭號敵人已亮相,擔(dān)心的事即將發(fā)生

出大事了,特朗普通報全球,美頭號敵人已亮相,擔(dān)心的事即將發(fā)生

策略述
2026-03-26 13:45:17
日均接診1.5萬人次、手術(shù)500臺,廣東這家華南醫(yī)療航母火遍全省

日均接診1.5萬人次、手術(shù)500臺,廣東這家華南醫(yī)療航母火遍全省

健身狂人
2026-03-27 00:11:10
即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉(zhuǎn)手

即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉(zhuǎn)手

貓叔東山再起
2026-03-26 09:10:08
勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫明加換波神真賺了?

司峰阿道
2026-03-26 14:45:09
中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

中國軍事專家送日本3句話,太絕了,真不是嚇唬他們

安安說
2026-03-26 11:21:19
14.99萬!“史上最便宜”特斯拉來了

14.99萬!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
中國公布喜訊

中國公布喜訊

楊興文
2026-03-26 21:08:26
“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗證

“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗證

動物奇奇怪怪
2026-03-26 01:52:14
中土敲定合作,一根管道連通兩國,這是對俄羅斯的警告?

中土敲定合作,一根管道連通兩國,這是對俄羅斯的警告?

近史博覽
2026-03-27 02:18:27
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動?

項鵬飛
2026-03-24 20:28:43
毛新宇參觀祖宅時突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會醬
2026-03-23 17:34:19
強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

強闖中國駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

澎湃新聞
2026-03-26 14:34:04
300元搶紅薯葉,國內(nèi)僅2元一斤!美國高校:抑制96%肺部異變

300元搶紅薯葉,國內(nèi)僅2元一斤!美國高校:抑制96%肺部異變

果殼
2026-03-26 09:29:42
女同主播出軌大哥 被"正宮"直播對質(zhì)!真實長相曝光

女同主播出軌大哥 被"正宮"直播對質(zhì)!真實長相曝光

游民星空
2026-03-25 20:08:13
浙江男子馬達加斯加開“手機網(wǎng)吧”爆火:全天候營業(yè),收費1.5元/小時,每天約200人次來玩

浙江男子馬達加斯加開“手機網(wǎng)吧”爆火:全天候營業(yè),收費1.5元/小時,每天約200人次來玩

極目新聞
2026-03-26 19:21:35
2026-03-27 03:27:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

房產(chǎn)
數(shù)碼
家居
親子
教育

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補償方案出爐!

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

家居要聞

傍海而居 靜觀蝴蝶海

親子要聞

試工育兒嫂被查出傳染病,寶媽崩潰!家政服務(wù)“健康關(guān)”如何保障?

教育要聞

精準(zhǔn)研判,提質(zhì)增效丨我校召開2026屆畢業(yè)生就業(yè)工作研判會

無障礙瀏覽 進入關(guān)懷版