国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

從「會(huì)畫(huà)畫(huà)」到「會(huì)思考」:快手可靈團(tuán)隊(duì)提出 T2I-CoReBench,最強(qiáng)模型也難逃推理瓶頸

0
分享至

文章來(lái)源:我愛(ài)計(jì)算機(jī)視覺(jué)(ID:aicvml)

當(dāng)前文本生成圖像(T2I)技術(shù)早已不是畫(huà)出來(lái)就行。從 Stable Diffusion 到最新的 Nano Banana,模型能輕松生成指令一致的簡(jiǎn)單畫(huà)面,但要生成繁忙廚房中的 30 余種物品繩索斷裂后特技演員引發(fā)連鎖反應(yīng)這類(lèi)復(fù)雜場(chǎng)景,卻常犯漏東西邏輯錯(cuò)的毛病。問(wèn)題出在哪?

近日,快手可靈團(tuán)隊(duì)提出 T2I-CoReBench。首個(gè)同時(shí)覆蓋 “構(gòu)圖能力” 與 “推理能力” 的全面性、高復(fù)雜度基準(zhǔn),用 1080 個(gè)挑戰(zhàn)性 prompt 和 13,500+ 個(gè)精細(xì)評(píng)測(cè)問(wèn)題,戳破了當(dāng)前 T2I 模型的 “能力假象”。



  • 論文標(biāo)題: Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

  • 論文地址: https://arxiv.org/abs/2509.03516

  • 代碼地址: https://github.com/KwaiVGI/T2I-CoReBench

  • 項(xiàng)目主頁(yè): https://t2i-corebench.github.io/

一、研究背景與動(dòng)機(jī)

T2I 模型要生成 “靠譜” 的圖像,靠?jī)纱蠛诵哪芰Γ?strong>(1)構(gòu)圖能力(Composition):把 prompt 里明確提到的元素(比如冰箱、菜板、島臺(tái)等)全部畫(huà)對(duì),包括物體、屬性、位置關(guān)系。(2)推理能力(Reasoning):把 prompt 里隱含的結(jié)果(比如用力擠壓一個(gè)番茄 → 番茄擠出汁)推斷出來(lái),生成合理畫(huà)面。

但當(dāng)前的評(píng)測(cè)基準(zhǔn)仍然存在兩個(gè)關(guān)鍵問(wèn)題:(1)不全面:要么只評(píng)構(gòu)圖,要么只考推理,沒(méi)法整體評(píng)估模型又能畫(huà)全、又能想對(duì)的能力。且推理維度也相對(duì)局限,多集中在常識(shí)或簡(jiǎn)單因果,缺乏對(duì)邏輯、歸納、溯因等推理維度的全面覆蓋。(2)太簡(jiǎn)單:構(gòu)圖場(chǎng)景一般只包含少量的視覺(jué)元素,且推理只考察單步的簡(jiǎn)單推理(比如擠番茄 → 出汁),完全達(dá)不到真實(shí)世界多物體、多因果的復(fù)雜度。

為了解決這兩個(gè)問(wèn)題,研究團(tuán)隊(duì)提出了 T2I-CoReBench,聚焦于評(píng)估 T2I 模型兩種基本能力:構(gòu)圖(Composition)推理(Reasoning)。不僅要 “測(cè)全”,還要 “測(cè)難”,讓基準(zhǔn)的評(píng)估結(jié)果真正反映 T2I 模型在實(shí)際場(chǎng)景中的表現(xiàn)。


二、T2I-CoReBench: 12 維評(píng)估體系 + 高復(fù)雜度場(chǎng)景

T2I-CoReBench 聚焦于評(píng)估 T2I 模型兩種基本能力:構(gòu)圖(Composition)推理(Reasoning)。不同于過(guò)去工作靠 “主觀經(jīng)驗(yàn)” 設(shè)計(jì)評(píng)測(cè)維度,研究團(tuán)隊(duì)從兩個(gè)經(jīng)典分類(lèi)框架出發(fā),構(gòu)建了嚴(yán)謹(jǐn)?shù)脑u(píng)估體系,共計(jì)12 個(gè)維度,把 “構(gòu)圖” 和 “推理” 拆解得明明白白。


構(gòu)圖能力基于場(chǎng)景圖理論:物體、屬性、關(guān)系是共同構(gòu)成畫(huà)面的核心要素。同時(shí)考慮到文本內(nèi)容在 T2I 應(yīng)用中的重要性(如包裝文字與商標(biāo)),因而一共定義了多實(shí)例(MI)、多屬性(MA)、多關(guān)系(MR)以及文本渲染(TR)四個(gè)維度。


推理能力基于哲學(xué)領(lǐng)域經(jīng)典的 “三大推理框架”:演繹推理、歸納推理、溯因推理,細(xì)分出 T2I 場(chǎng)景下的關(guān)鍵任務(wù):

演繹推理的核心邏輯是前提為真,則結(jié)論必為真。在 T2I 場(chǎng)景中表現(xiàn)為模型需嚴(yán)格依據(jù) prompt 給定的規(guī)則、狀態(tài)或步驟,生成確定性的視覺(jué)畫(huà)面。具體定義了邏輯推理(LR)、行為推理(BR)、假設(shè)推理(HR)以及過(guò)程推理(PR)四個(gè)維度。


歸納推理的核心是從具體例子中提煉通用規(guī)則,再將規(guī)則應(yīng)用到新場(chǎng)景。在 T2I 中表現(xiàn)為模型需先從 prompt 給出的示例中學(xué)會(huì)規(guī)律,再基于規(guī)律生成未被明確描述的視覺(jué)元素。具體定義了泛化推理(GR)類(lèi)比推理(AR)兩個(gè)維度。


溯因推理的核心是從已知觀察出發(fā),重建最可能的隱含原因或背景。在 T2I 中表現(xiàn)為 prompt 僅描述 “結(jié)果狀態(tài)” 或 “局部線索”,模型需調(diào)用常識(shí)、物理規(guī)律或因果邏輯,補(bǔ)全畫(huà)面中 “未被提及但必須存在的元素”。包括常識(shí)推理(CR)重構(gòu)推理(RR)兩個(gè)維度。


為避免模型在簡(jiǎn)單場(chǎng)景中 “刷分”,T2I-CoReBench 在 prompt 設(shè)計(jì)上特意 “加難度”,使其更貼近真實(shí)世界,從而倒逼模型暴露短板:

  1. 構(gòu)圖更密集: 構(gòu)圖類(lèi) prompt 平均包含 20 個(gè)實(shí)例/屬性/關(guān)系。例如“擁擠教室”需呈現(xiàn)鉛筆、剪刀、膠棒等 35 個(gè)實(shí)例。

  2. 推理更復(fù)雜: 推理類(lèi) prompt 均為“密集推理場(chǎng)景”。如 火柴燒斷彈性繩 → 繩子彈倒多米諾骨牌 → 彈珠滾進(jìn)紅水燒杯,需同時(shí)呈現(xiàn) 8 個(gè)結(jié)果,而非“一因一果”的簡(jiǎn)單邏輯。

  3. 評(píng)測(cè)更精細(xì): 每個(gè) prompt 配套 checklist,例如“擁擠教室”含 35 個(gè)是/否問(wèn)題(如“圖中有鉛筆嗎?”、“圖中有剪刀嗎?”),逐項(xiàng)獨(dú)立評(píng)分,避免粗粒度評(píng)估帶來(lái)的模糊性。

最終,T2I-CoReBench 形成 1080 個(gè) prompt 與 13536 個(gè)評(píng)測(cè)問(wèn)題的規(guī)模,平均 prompt 長(zhǎng)度為 170 tokens,checklist 中平均有 12.5 個(gè)問(wèn)題,足夠全面考驗(yàn)?zāi)P驮趶?fù)雜場(chǎng)景中的真實(shí)能力。

三、評(píng)測(cè)結(jié)果:構(gòu)圖有進(jìn)步,推理仍是 “致命短板”

研究團(tuán)隊(duì)在 T2I-CoReBench 上評(píng)測(cè)了 28 個(gè)主流 T2I 模型(21 個(gè)開(kāi)源 + 7 個(gè)閉源,涵蓋擴(kuò)散、自回歸、統(tǒng)一架構(gòu)),結(jié)果既暴露了行業(yè)現(xiàn)狀,也給出了明確方向。


關(guān)鍵發(fā)現(xiàn) 1:T2I 模型構(gòu)圖能力穩(wěn)步提升,但復(fù)雜構(gòu)圖仍遠(yuǎn)未解決

在 T2I-CoReBench 的測(cè)試中,各模型的構(gòu)圖能力整體穩(wěn)步提升:閉源最優(yōu)模型 Seedream 4.0 得分 86.1,開(kāi)源最優(yōu) Qwen-Image 亦達(dá)到 78.0,已接近先進(jìn)閉源水平。然而在復(fù)雜場(chǎng)景下,即便是 Seedream 4.0,在多屬性綁定(MA:84.5)和多關(guān)系生成(MR:75.0)方面仍顯吃力,復(fù)雜構(gòu)圖控制依舊是亟待突破的難題。

關(guān)鍵發(fā)現(xiàn) 2:推理能力仍是 T2I 模型的主要瓶頸

盡管構(gòu)圖能力穩(wěn)步提升,但推理仍顯薄弱:Imagen 4 Ultra 推理得分最高,但也僅為 72.9,比構(gòu)圖低 9.5 分,在邏輯與行為推理等維度表現(xiàn)不佳;開(kāi)源模型差距更為明顯,Qwen-Image 構(gòu)圖達(dá) 78.0,卻僅在推理上得 49.3(落后 28.7 分)。這表明當(dāng)前模型仍難以從提示詞中正確推斷隱含的視覺(jué)元素。

關(guān)鍵發(fā)現(xiàn) 3:擴(kuò)散模型略占優(yōu)勢(shì),指令理解是關(guān)鍵

在開(kāi)源模型中,擴(kuò)散模型整體表現(xiàn)略優(yōu)于自回歸和統(tǒng)一范式,但差異不大。更強(qiáng)的指令編碼器顯著提升模型在構(gòu)圖與推理上的表現(xiàn),例如 Qwen-Image 借助 Qwen2.5-VL 編碼器取得最佳成績(jī)。這表明未來(lái)應(yīng)優(yōu)先強(qiáng)化編碼器端的指令理解與文本–圖像對(duì)齊,同時(shí)保持解碼范式的靈活性。

關(guān)鍵發(fā)現(xiàn) 4:提示詞重寫(xiě)能緩解推理瓶頸,但仍不足以解決多模態(tài)難題

研究團(tuán)隊(duì)評(píng)估了提示詞重寫(xiě)(prompt rewriting)對(duì) T2I 推理的作用,來(lái)補(bǔ)償 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重寫(xiě)提示詞,顯式補(bǔ)充屬性變化、動(dòng)作結(jié)果與隱含線索。結(jié)果顯示重寫(xiě)確可提升推理,原生推理能力較弱的模型受益更大;但僅靠文本推理仍不足:強(qiáng)模型(如 GPT-Image)在多項(xiàng)推理維度依然未過(guò) 80。鑒于 T2I 本質(zhì)為多模態(tài)任務(wù),文本重寫(xiě)難以克服視覺(jué)偏差與文本–圖像耦合(如生成方形輪子的汽車(chē)),未來(lái)應(yīng)探索更緊密的多模態(tài)交互。


四、未來(lái)方向:讓 T2I 模型從 “會(huì)畫(huà)畫(huà)” 到 “會(huì)思考”

基于評(píng)測(cè)結(jié)果,研究團(tuán)隊(duì)提出四個(gè)關(guān)鍵研究方向,為后續(xù)發(fā)展指明路徑:

  1. 補(bǔ)充復(fù)雜場(chǎng)景數(shù)據(jù): 現(xiàn)有訓(xùn)練集多為簡(jiǎn)單場(chǎng)景,亟需增加 “高密度物體 + 多步推理” 的標(biāo)注數(shù)據(jù),以拓展模型的見(jiàn)識(shí)與泛化能力;

  2. 深度融合 LLM/MLLM: 將大模型的文本理解與推理能力嵌入 T2I 流程,例如先解析 prompt 的邏輯,再驅(qū)動(dòng)圖像生成;

  3. 引入 LLM 式推理范式: 借鑒 CoT 思想,讓模型逐步推演邏輯鏈(如 “水杯掉地 → 水漬 → 杯子傾斜”),再生成對(duì)應(yīng)畫(huà)面;

  4. 探索多模態(tài)交錯(cuò)推理機(jī)制: 在生成過(guò)程中交替利用文本與視覺(jué)模態(tài)的推理能力,實(shí)現(xiàn)跨模態(tài)信息的相互補(bǔ)充與一致性推理,從而提升生成結(jié)果的邏輯性與逼真度。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
50歲伺候兒媳坐月子,聽(tīng)到她罵我像驢,第二天我的做法絕了

50歲伺候兒媳坐月子,聽(tīng)到她罵我像驢,第二天我的做法絕了

木子言故事
2025-12-21 14:43:07
27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

27分6記三分!赴美特訓(xùn)4個(gè)月 能成中國(guó)男籃進(jìn)攻荒的解藥?

你看球呢
2025-12-21 13:00:15
33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

33歲厄瓜多爾國(guó)腳在肉店被槍殺:跪地求饒?jiān)饩?3個(gè)月5名球員被殺

風(fēng)過(guò)鄉(xiāng)
2025-12-20 16:43:14
打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

打麻將十打九勝的秘訣,掌握這些小技巧,贏牌簡(jiǎn)直是易如反掌!

洞鑒歷史
2024-03-08 15:03:16
打虎!尹建業(yè)被查

打虎!尹建業(yè)被查

極目新聞
2025-12-21 16:57:43
龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

龐叔令點(diǎn)名徐湖平,曾任南博副院長(zhǎng),曾經(jīng)和宋美齡干兒子一同服役

王鶔吃吃喝喝
2025-12-20 10:54:15
結(jié)婚14年,她被打了13年

結(jié)婚14年,她被打了13年

中國(guó)新聞周刊
2025-12-20 10:52:37
訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

訪日不到48小時(shí),托卡耶夫犯了“大忌”,37億美元投資只是導(dǎo)火線

嫹筆牂牂
2025-12-21 14:39:11
信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

信號(hào)!滬媒首曝國(guó)乒教練職責(zé):據(jù)此秦志戩當(dāng)總教練,馬琳副總教練

籃球看比賽
2025-12-21 13:19:00
細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

細(xì)思極恐!一份90年代報(bào)紙的報(bào)道,又暴露出南博的“習(xí)慣性借出”

火山詩(shī)話
2025-12-20 06:43:20
我家水費(fèi)每月四萬(wàn),關(guān)掉閘門(mén)后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

我家水費(fèi)每月四萬(wàn),關(guān)掉閘門(mén)后,物業(yè)發(fā)來(lái)消息:今天整棟樓停水

船長(zhǎng)與船1
2025-12-20 10:39:50
江暢同志突發(fā)心梗,不幸逝世

江暢同志突發(fā)心梗,不幸逝世

新京報(bào)政事兒
2025-12-20 22:27:40
腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛(ài)又性感

腰細(xì)臀翹的高挑女生怎么穿?運(yùn)動(dòng)背心搭粉色瑜伽褲,可愛(ài)又性感

小喬古裝漢服
2025-12-21 19:10:18
烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

烏克蘭一夜摧毀克里米亞的米格31戰(zhàn)機(jī)!打掉4套防空系統(tǒng)

項(xiàng)鵬飛
2025-12-19 16:41:29
轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱(chēng)發(fā)生了爆炸

轉(zhuǎn)發(fā)野三坡隧道事故視頻被要求刪除,還有網(wǎng)友稱(chēng)發(fā)生了爆炸

映射生活的身影
2025-12-20 19:18:13
袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

袁紹麾下3支超級(jí)精銳,其中兩支是雇傭兵,如何被曹操輕松打垮?

大千世界觀
2025-12-20 19:08:34
袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

袁世凱坐龍椅的真實(shí)老照片,接受群臣朝拜,“妃子們”也非常漂亮

文史微鑒
2025-12-13 22:13:15
黎智英女兒叫囂,如果她父親能夠獲釋?zhuān)麜?huì)把重心放在家庭上

黎智英女兒叫囂,如果她父親能夠獲釋?zhuān)麜?huì)把重心放在家庭上

百態(tài)人間
2025-12-20 05:25:03
保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

保羅無(wú)法正常進(jìn)食,只能喝流食,下顎手術(shù)拔掉牙齒,嵌入兩塊鈦板

越嶺尋蹤
2025-12-21 10:06:14
明星下場(chǎng)了,贊一個(gè)!

明星下場(chǎng)了,贊一個(gè)!

西樓飲月
2025-12-20 22:23:26
2025-12-21 20:44:49
算法與數(shù)學(xué)之美 incentive-icons
算法與數(shù)學(xué)之美
分享知識(shí),交流思想
5273文章數(shù) 64595關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬(wàn)個(gè)應(yīng)用

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

頭條要聞

妻兒三人被發(fā)小入室殺害 家屬:兇手還假裝毫不知情

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂(lè)要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車(chē)要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

手機(jī)
親子
家居
房產(chǎn)
軍事航空

手機(jī)要聞

華為Mate80系列迎雙喜:18天銷(xiāo)量破百萬(wàn),同比前代大幅增長(zhǎng)!

親子要聞

Who can resist the piano romance from a 3-year-old...

家居要聞

高端私宅 理想隱居圣地

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

軍事要聞

石破茂:擁核絕不會(huì)給日本帶來(lái)正面影響

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版