国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

復(fù)旦Game-RL用游戲數(shù)據(jù)解鎖增強(qiáng)VLM通用推理新路徑

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

現(xiàn)有工作利用RL提升了視覺語言模型(VLM)的推理能力,但其任務(wù)場(chǎng)景往往是幾何或者圖表推理。這種領(lǐng)域上的局限,制約了VLM的探索和學(xué)習(xí)。如何拓展VLM的RL訓(xùn)練領(lǐng)域呢?

電子游戲視覺元素豐富,且規(guī)則明確而可驗(yàn)證,因而是理想的多模態(tài)推理數(shù)據(jù)源。由此,復(fù)旦大學(xué)NLP實(shí)驗(yàn)室的研究團(tuán)隊(duì)提出了Game-RL——構(gòu)造多模態(tài)可驗(yàn)證的游戲任務(wù)來強(qiáng)化訓(xùn)練VLM。為獲得訓(xùn)練數(shù)據(jù)(如圖1的示例),研究人員還提出了新穎的Code2Logic方法,通過游戲代碼系統(tǒng)化合成數(shù)據(jù)。


圖1:GameQA數(shù)據(jù)集中各游戲類別的代表性游戲:3D重建、七巧板(變體)、數(shù)獨(dú)和推箱子。各游戲展示兩個(gè)視覺問答示例,包含當(dāng)前游戲狀態(tài)圖片,相應(yīng)的問題,以及逐步推理過程和答案。

Code2Logic方法創(chuàng)新性地基于游戲代碼合成多模態(tài)可驗(yàn)證游戲任務(wù)數(shù)據(jù)。如圖2,利用強(qiáng)LLM生成游戲代碼、設(shè)計(jì)任務(wù)及其模板、構(gòu)建數(shù)據(jù)引擎代碼,最后只要執(zhí)行代碼便能自動(dòng)生成數(shù)據(jù)。


圖2:Code2Logic方法,借助LLM通過三個(gè)核心步驟將游戲代碼轉(zhuǎn)換為推理數(shù)據(jù)。第一步:游戲代碼構(gòu)建;第二步:游戲任務(wù)及其QA模板設(shè)計(jì);第三步:數(shù)據(jù)引擎構(gòu)建,基于前兩步構(gòu)建自動(dòng)化程序,然后只要執(zhí)行代碼就能自動(dòng)批量生成數(shù)據(jù)。

目前研究成果均已上線始智AI-wisemodel開源社區(qū),歡迎體驗(yàn)。


模型和數(shù)據(jù)集地址

https://www.wisemodel.cn/organization/Code2Logic

01.

GameQA豐富的游戲任務(wù)數(shù)據(jù)集

利用Code2Logic方法構(gòu)建了GameQA數(shù)據(jù)集,這些多模態(tài)可驗(yàn)證游戲數(shù)據(jù)可以用于VLM推理能力的訓(xùn)練和評(píng)測(cè)。

GameQA有:4大認(rèn)知能力類別、30個(gè)游戲(如圖3)、158個(gè)推理任務(wù)、14萬個(gè)問答對(duì)。

難度分級(jí):任務(wù)按難度分三級(jí);樣本按視覺輸入復(fù)雜度分三級(jí)。


圖3:GameQA的30個(gè)游戲,分為4個(gè)認(rèn)知能力類別,涵蓋3D空間推理、模式識(shí)別與匹配、多步推理、策略規(guī)劃。20個(gè)域內(nèi)游戲用于訓(xùn)練和測(cè)試,而10個(gè)域外游戲不參與訓(xùn)練,用于測(cè)試模型在未見游戲場(chǎng)景下的泛化能力。

02.

Game-RL可提升VLM的通用推理

在GameQA上使用GRPO訓(xùn)練,4個(gè)開源VLM在7個(gè)完全域外的通用視覺語言推理基準(zhǔn)上均取得提升(Qwen2.5-VL-7B平均提升2.33%),展現(xiàn)出跨領(lǐng)域泛化,如表1。


表1:通用視覺語言推理基準(zhǔn)上的評(píng)測(cè)結(jié)果

03.

GameQA匹敵幾何數(shù)據(jù)集

研究團(tuán)隊(duì)用GameQA和幾何與圖表推理數(shù)據(jù)集進(jìn)行對(duì)比訓(xùn)練,發(fā)現(xiàn)GameQA可與之匹敵

如表2,盡管訓(xùn)練數(shù)據(jù)量更少且領(lǐng)域不匹配,但GameQA訓(xùn)的模型在通用基準(zhǔn)上總體表現(xiàn)很有競(jìng)爭(zhēng)力。而且在MathVista與MathVerse這兩個(gè)和幾何與函數(shù)推理有關(guān)的基準(zhǔn)上,Game竟能匹敵更「對(duì)口」的幾何推理數(shù)據(jù)訓(xùn)練。

這表明游戲中的認(rèn)知多樣性和推理復(fù)雜性,具有通用性和遷移能力。


表2:對(duì)比訓(xùn)練,5K GameQA樣本 vs. 8K MAVIS(幾何與函數(shù)視覺推理)vs. 8K Multimodal-Open-R1(以幾何推理為主)vs. 8K MultiMath(綜合的數(shù)學(xué)領(lǐng)域多模態(tài)推理),GameQA訓(xùn)練的模型總體很有競(jìng)爭(zhēng)力,實(shí)驗(yàn)也顯示混合訓(xùn)練(MultiMath中加入GameQA數(shù)據(jù))能助力模型提得更多。

04.

訓(xùn)練數(shù)據(jù)量和游戲個(gè)數(shù)的影響

數(shù)據(jù)量的Scaling Effect:加大訓(xùn)練的GameQA數(shù)據(jù)量至20K,實(shí)驗(yàn)顯示,模型在通用推理基準(zhǔn)上的表現(xiàn)總體呈持續(xù)提升,如圖4。


圖4:訓(xùn)練數(shù)據(jù)量的Scaling Effect

游戲個(gè)數(shù)的Scaling Effect:隨著訓(xùn)練的游戲種類變多,域外泛化效果增強(qiáng),如圖5。


圖5:使用20種游戲的任務(wù)訓(xùn)練,模型在域外通用基準(zhǔn)上的提升優(yōu)于使用4種或10種游戲的配置。

05.

Game-RL后模型能力提升在哪?

為更好理解Game-RL對(duì)VLM推理能力的提升,研究團(tuán)隊(duì)隨機(jī)采樣了案例進(jìn)行了細(xì)致的人工分析。結(jié)果顯示,Game-RL后,模型在視覺感知和文本推理兩個(gè)方面都有提升,如圖6。


圖6:人工定性分析得知模型的視覺感知和文本推理能力均有提升。上方的兩個(gè)餅圖分別是域外通用基準(zhǔn)上,視覺感知和文本推理能力的變化情況,下方是視覺感知能力提升的一個(gè)案例。

研究提出了Game-RL以及游戲數(shù)據(jù)合成方法Code2Logic,構(gòu)建了GameQA數(shù)據(jù)集,將VLM強(qiáng)化訓(xùn)練領(lǐng)域拓展到游戲場(chǎng)景。通過實(shí)驗(yàn),研究團(tuán)隊(duì)驗(yàn)證了Game-RL能提升VLM的通用推理。進(jìn)一步而言,也揭示了游戲場(chǎng)景可以提供多模態(tài)、可控、可驗(yàn)證數(shù)據(jù),具有重要價(jià)值。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

太可恨!飛機(jī)一落地上海,女孩立馬報(bào)案!更多年輕受害人浮出水面……

環(huán)球網(wǎng)資訊
2026-03-26 21:48:04
調(diào)查發(fā)現(xiàn):堅(jiān)持走路鍛煉的老人,過不了半個(gè)月,會(huì)迎來4大改善

調(diào)查發(fā)現(xiàn):堅(jiān)持走路鍛煉的老人,過不了半個(gè)月,會(huì)迎來4大改善

39健康網(wǎng)
2026-03-02 12:30:48
連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會(huì)這么火

連蔡依林都在玩,“雪山救狐貍”到底是什么梗?對(duì)話視頻原創(chuàng)作者:最初只是為了賣醬板鴨,特意設(shè)置反轉(zhuǎn)劇情,沒想到會(huì)這么火

極目新聞
2026-03-25 19:37:57
驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

驚呆了!網(wǎng)傳某婦產(chǎn)醫(yī)院一少婦哭求醫(yī)生,改她兒子的血型鑒定書…

火山詩話
2026-03-26 11:40:00
出大事了,特朗普通報(bào)全球,美頭號(hào)敵人已亮相,擔(dān)心的事即將發(fā)生

出大事了,特朗普通報(bào)全球,美頭號(hào)敵人已亮相,擔(dān)心的事即將發(fā)生

策略述
2026-03-26 13:45:17
日均接診1.5萬人次、手術(shù)500臺(tái),廣東這家華南醫(yī)療航母火遍全省

日均接診1.5萬人次、手術(shù)500臺(tái),廣東這家華南醫(yī)療航母火遍全省

健身狂人
2026-03-27 00:11:10
即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉(zhuǎn)手

即將淪為“窮人房”的5種房子,不好住不好賣,聰明人已逐漸轉(zhuǎn)手

貓叔東山再起
2026-03-26 09:10:08
勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫(kù)明加換波神真賺了?

勇士雙殺籃網(wǎng)鎖定附加賽,桑托斯生涯之夜,庫(kù)明加換波神真賺了?

司峰阿道
2026-03-26 14:45:09
中國(guó)軍事專家送日本3句話,太絕了,真不是嚇唬他們

中國(guó)軍事專家送日本3句話,太絕了,真不是嚇唬他們

安安說
2026-03-26 11:21:19
14.99萬!“史上最便宜”特斯拉來了

14.99萬!“史上最便宜”特斯拉來了

首席品牌觀察
2026-03-24 16:18:39
中國(guó)公布喜訊

中國(guó)公布喜訊

楊興文
2026-03-26 21:08:26
“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗(yàn)證

“面相騙不了人”這句話,在他身上,以一種讓人揪心的方式被驗(yàn)證

動(dòng)物奇奇怪怪
2026-03-26 01:52:14
中土敲定合作,一根管道連通兩國(guó),這是對(duì)俄羅斯的警告?

中土敲定合作,一根管道連通兩國(guó),這是對(duì)俄羅斯的警告?

近史博覽
2026-03-27 02:18:27
俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動(dòng)?

俄羅斯宣傳三天攻占愛沙尼亞!炮制公投,又是特別軍事行動(dòng)?

項(xiàng)鵬飛
2026-03-24 20:28:43
毛新宇參觀祖宅時(shí)突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時(shí)突然發(fā)現(xiàn)家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

奴顏媚骨具象化,高市早苗三十年前照片被扒出,原來她從未變過!

社會(huì)醬
2026-03-23 17:34:19
強(qiáng)闖中國(guó)駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

強(qiáng)闖中國(guó)駐日使館不法之徒照片曝光,3月15日剛晉升三等陸尉

澎湃新聞
2026-03-26 14:34:04
300元搶紅薯葉,國(guó)內(nèi)僅2元一斤!美國(guó)高校:抑制96%肺部異變

300元搶紅薯葉,國(guó)內(nèi)僅2元一斤!美國(guó)高校:抑制96%肺部異變

果殼
2026-03-26 09:29:42
女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

女同主播出軌大哥 被"正宮"直播對(duì)質(zhì)!真實(shí)長(zhǎng)相曝光

游民星空
2026-03-25 20:08:13
浙江男子馬達(dá)加斯加開“手機(jī)網(wǎng)吧”爆火:全天候營(yíng)業(yè),收費(fèi)1.5元/小時(shí),每天約200人次來玩

浙江男子馬達(dá)加斯加開“手機(jī)網(wǎng)吧”爆火:全天候營(yíng)業(yè),收費(fèi)1.5元/小時(shí),每天約200人次來玩

極目新聞
2026-03-26 19:21:35
2026-03-27 03:27:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

游戲
旅游
房產(chǎn)
家居
數(shù)碼

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

旅游要聞

河南開封萬歲山武俠城,游客買300元門票:給妻子拍照被保安阻攔

房產(chǎn)要聞

突發(fā),三亞又有大批征遷補(bǔ)償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動(dòng),支持B70 / B65顯卡

無障礙瀏覽 進(jìn)入關(guān)懷版