国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

南大聯(lián)合LibLib.ai、中科院自動化所,共同提出PosterCopilot

0
分享至



來自南京大學 PRLab 的魏佳哲、李墾,在準聘助理教授司晨陽的指導下,提出專業(yè)級海報設計與編輯大模型PosterCopilot。本研究聯(lián)合了LibLib.ai、中國科學院自動化研究所等多家頂尖機構,共同完成了首個解耦布局推理與多輪可控編輯的圖形設計框架研發(fā)。PosterCopilot 能夠?qū)崿F(xiàn)專業(yè)設計級的版式生成、語義一致的多輪編輯,并具備高度可控的創(chuàng)作能力。



此外,受華為-南京大學鯤鵬昇騰科教創(chuàng)新孵化中心支持,該模型已完成對國產(chǎn)昇騰算力平臺的適配與部署,進一步推動了國產(chǎn) AI 設計技術的發(fā)展與落地。



  • 論文標題:Poster Copilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
  • 論文地址:https://arxiv.org/abs/2512.04082
  • 項目主頁:https://postercopilot.github.io/

行業(yè)痛點:

從生成式失控到多模態(tài)「盲推」

平面設計是視覺傳達的基石,但要實現(xiàn)真正的自動化專業(yè)設計,目前仍面臨巨大挑戰(zhàn)。盡管以Stable Diffusion為代表的文生圖(T2I)模型在圖像合成上表現(xiàn)強勁,但在實際的工業(yè)設計流中,它們因無法處理分層結構,往往導致用戶素材失真且無法進行精細化控制。

為了解決這一問題,業(yè)界開始嘗試利用多模態(tài)大模型(LMMs)進行布局規(guī)劃,然而研究團隊發(fā)現(xiàn),現(xiàn)有的 LMMs 方案反而暴露出了四大致命短板:

  • 幾何布局的「先天缺陷」:現(xiàn)有的多模態(tài)布局模型通常將連續(xù)的空間坐標量化為離散的文本 Token。這種將數(shù)值視為文本的處理方式,從根本上破壞了歐幾里得空間的幾何連續(xù)性,導致模型難以理解真實的物理距離與空間關系,生成的布局頻頻出現(xiàn)對齊錯誤與比例失調(diào)。
  • 視覺反饋的「盲區(qū)」:這是現(xiàn)有模型最嚴重的缺失之一。目前的布局模型在訓練過程中僅進行純粹的坐標回歸,卻從未「看」到過布局渲染后的實際圖像。由于缺乏對渲染結果的視覺反饋(Visual Feedback),模型無法像人類設計師一樣基于審美直覺和視覺規(guī)律來審視并優(yōu)化構圖,只能處于「盲人摸象」的狀態(tài)。
  • 單一真值的「回歸陷阱」:海報設計屬于高度主觀的創(chuàng)意領域,符合人類審美的布局方案往往是多樣的、非唯一的。然而,傳統(tǒng)的監(jiān)督訓練強迫模型死板地向單一的Ground Truth回歸。這種刻板的訓練方式不僅導致生成的布局喪失多樣性,更扼殺了模型的探索潛力,使其錯失了涌現(xiàn)超越訓練數(shù)據(jù)、比原始真值更具美學表現(xiàn)力的創(chuàng)新設計的機會。
  • 圖層級編輯的「斷層」:專業(yè)設計師的工作流本質(zhì)上是迭代的(Iterative),需要對特定圖層進行反復微調(diào)。而目前的端到端模型往往是「一錘子買賣」,面對「只改一個圖層」的需求時往往束手無策——要么無法支持,要么「牽一發(fā)而動全身」,在修改時破壞了用戶原有的素材或非編輯區(qū)域。

在 PosterCopilot 的對比測試中,這些弱點暴露無遺:



現(xiàn)有模型在處理復雜多素材場景時,常出現(xiàn)嚴重的元素重疊、文字遮擋以及美學災難。這反映了現(xiàn)有模型在細粒度布局推理和美學對齊上的根本不足。

同時,如圖所示:



基于完全相同的元素可以有眾多符合人類審美的布局方案,按照單一真值進行回歸的訓練方式容易扼殺模型的創(chuàng)造力。

核心成果:

構建專業(yè)級設計的「智能工作流」

為填補現(xiàn)有單步生成與專業(yè)工作流之間的鴻溝,研究團隊提出了一套系統(tǒng)性的解決方案 PosterCopilot,并通過漸進式三階段訓練策略賦予模型設計推理能力。

獨創(chuàng)三階段訓練:從幾何糾偏到美學對齊

這是首個將布局生成任務從簡單的回歸問題轉(zhuǎn)化為分布學習與強化學習結合的范式。

  • 階段一:擾動監(jiān)督微調(diào)(PSFT):針對 Token 坐標導致的幾何空間扭曲問題,團隊提出引入高斯噪聲擾動,迫使模型學習坐標的分布而非死記硬背離散點,修復了優(yōu)化空間的幾何結構。
  • 階段二:視覺-現(xiàn)實對齊強化學習(RL-VRA):引入基于 DIoU 和元素保真的驗證性獎勵信號,專門修正「幻覺」導致的重疊和比例失調(diào)。
  • 階段三:美學反饋強化學習(RLAF):利用美學獎勵模型進行偏好對齊,鼓勵模型探索超出 Ground Truth 但更具視覺沖擊力的布局方案。



生成式智能體(Generative Agent):打通迭代編輯閉環(huán)

PosterCopilot 不僅僅是一個布局生成器,更是一個全能設計助手。團隊設計了一個包含「接待模型」和「T2I 模型」的智能體,支持從靈感到素材的無縫轉(zhuǎn)化:用戶僅需輸入抽象的設計構思,內(nèi)置的接待模型(Reception Model)即可充當「創(chuàng)意策劃」,自動將用戶意圖拆解為前景主體與背景氛圍的詳細規(guī)劃。

隨后,模型會生成精準的工程級提示詞(Prompts),驅(qū)動 T2I 模型即時生成風格契合的高質(zhì)量素材,實現(xiàn)從「抽象靈感」到「具體物料」的自動化落地。

通過將具備精密布局推理能力的設計模型與支持多輪交互的生成式智能體(Generative Agent)深度耦合,團隊構建了 PosterCopilot 的完整框架,其從素材規(guī)劃到最終成稿的推理流水線如下所示:



全能設計助手 PosterCopilot:覆蓋專業(yè)設計的全鏈路需求

基于 Generative Agent 的強大賦能,PosterCopilot 能夠完美勝任從「從零構建」到「后期精修」的多種專業(yè)場景:

  • 全素材海報生成(Generation from Fully-provided Assets):當用戶提供完整素材時,模型專注于「布局推理」,能夠?qū)⒍嗄B(tài)元素在畫布上進行符合美學規(guī)律的精準排列,同時嚴格保障用戶原有素材零失真、無篡改。



  • 缺素材智能補全(Generation from Insufficient Assets):針對素材缺失的冷啟動場景,智能體能夠理解設計意圖,自動生成風格統(tǒng)一的背景或前景裝飾層,實現(xiàn)從「抽象想法」到「完整海報」的無縫落地。



  • 多輪精細化編輯(Multi-round Fine-grained Edit):打破了傳統(tǒng)模型「無法精準局部修改」的魔咒,支持多種專業(yè)級操作:
  • 精準單層編輯:支持僅修改特定圖層(如更換模特發(fā)色、改變物體材質(zhì)),同時完美「凍結」其他非編輯區(qū)域。在「相機廣告」案例中,模型能夠僅修改相機鏡頭的特效(如巖漿、大理石、水晶),而背景文字和排版紋絲不動。



  • 全局主題遷移:能夠?qū)⒑髲摹赴舭籼谴黉N」無縫切換為「冰淇淋推廣」,自動替換主體并調(diào)整相關元素,且保留原有排版骨架。



  • 智能尺寸重構(Poster Reframe):只需更改畫布尺寸參數(shù),模型即可根據(jù)新的長寬比,智能重新推理布局,實現(xiàn)一鍵適配不同媒體版面。



PosterCopilot 數(shù)據(jù)集:高質(zhì)量分層海報庫

為解決數(shù)據(jù)匱乏問題,團隊構建了包含 16 萬張專業(yè)海報、總計 260 萬個圖層的高質(zhì)量數(shù)據(jù)集。通過 OCR 輔助的細粒度圖層融合技術,解決了傳統(tǒng)數(shù)據(jù)集中圖層過度碎片化(Over-segmentation)的難題,為社區(qū)提供了寶貴的數(shù)據(jù)資源。





實驗結果:

全面超越商業(yè)競品與 SOTA 模型

PosterCopilot 以Qwen-2.5-VL-7B-Instruct為 backbone,在多項指標上實現(xiàn)了對現(xiàn)有頂尖模型的超越。

在涵蓋布局合理性、文本可讀性、素材保真度等六大維度的評測中,PosterCopilot 展現(xiàn)了統(tǒng)治級表現(xiàn)。

  • 綜合勝率:在人工評測中,PosterCopilot 對比微軟Microsoft DesignerNano-Banana以及學術界 SOTA(如CreatiPosterLaDeCo),平均勝率超過 74%。



  • GPT-5 評測:在 GPT-5 的打分中,PosterCopilot 在布局合理性(Layout Rationality)和風格一致性(Style Consistency)上均大幅領先Qwen-VL-2.5-72BGemini 2.5 Pro



結論與展望

對于平面設計這樣兼具嚴謹幾何約束感性美學追求的領域,簡單的端到端生成并非最優(yōu)解。

PosterCopilot 通過解耦「布局推理」與「生成式編輯」,并引入強化學習對齊人類美學,成功讓大模型掌握了專業(yè)設計師的「圖層思維」。這不僅為智能設計工具樹立了新的基準,也為未來 AI 輔助創(chuàng)意工作流提供了新的范式。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

成都私人影院被曝涉“有償陪侍” 記者探訪:涉事門店已暫停經(jīng)營,警方介入調(diào)查

封面新聞
2025-12-20 19:21:27
貝林厄姆2025年為皇馬打進13球,隊內(nèi)僅次于姆巴佩

貝林厄姆2025年為皇馬打進13球,隊內(nèi)僅次于姆巴佩

懂球帝
2025-12-21 05:00:08
誰會是下一個國乒總教練?已有3人報名,馬琳王皓之爭成關注焦點

誰會是下一個國乒總教練?已有3人報名,馬琳王皓之爭成關注焦點

十點街球體育
2025-12-20 23:19:21
“春節(jié)冷不冷,就看冬至”,今日冬至,26年春節(jié)冷到抖嗎?早了解

“春節(jié)冷不冷,就看冬至”,今日冬至,26年春節(jié)冷到抖嗎?早了解

阿龍美食記
2025-12-21 03:05:20
黑色幽默!電詐園區(qū)辦公室中文標語,簡直是天大的諷刺

黑色幽默!電詐園區(qū)辦公室中文標語,簡直是天大的諷刺

麥大人
2025-11-06 08:32:30
俄體操冠軍卡巴耶娃:與普京傳17年緋聞,三孩生父成謎

俄體操冠軍卡巴耶娃:與普京傳17年緋聞,三孩生父成謎

孫縭北漂拍客
2025-12-20 19:16:21
出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

出大事了,托卡耶夫犯了大忌,參拜日本明治神宮,還要給日稀土?

科普100克克
2025-12-21 02:38:52
性能力與壽命關系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風險越低

性能力與壽命關系被發(fā)現(xiàn)!男性40歲后,睪酮越高,死亡風險越低

藥師說健康
2025-12-05 09:47:10
不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

不是迷信!今日冬至,晚上最不能做的5件事,別忘了告訴家人!

阿龍美食記
2025-12-21 03:51:06
火箭恥辱輸球后爆發(fā)內(nèi)訌:申京迷戀單打杜蘭特震怒,烏度卡很為難

火箭恥辱輸球后爆發(fā)內(nèi)訌:申京迷戀單打杜蘭特震怒,烏度卡很為難

姜大叔侃球
2025-12-20 11:53:08
賴清德再度胡作非為!“大法官”違規(guī)裁決,動搖臺灣法治根基

賴清德再度胡作非為!“大法官”違規(guī)裁決,動搖臺灣法治根基

海峽導報社
2025-12-20 07:52:03
光頭大戰(zhàn):韋克林6-4險勝塞爾特晉級決賽,常冰玉能否一黑到底?

光頭大戰(zhàn):韋克林6-4險勝塞爾特晉級決賽,常冰玉能否一黑到底?

金木原創(chuàng)
2025-12-21 01:00:47
班花參加同學會,超高顏值驚艷全場,男同學太激動沒抱穩(wěn)雙雙倒地

班花參加同學會,超高顏值驚艷全場,男同學太激動沒抱穩(wěn)雙雙倒地

梅子的小情緒
2025-12-20 15:36:42
震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

震驚!有茅臺經(jīng)銷商單批出貨虧損超30萬,網(wǎng)傳浙江有黃牛開始掃樓

火山詩話
2025-12-20 12:02:08
長谷川秋子:被身高封印的「業(yè)界大魔王」

長谷川秋子:被身高封印的「業(yè)界大魔王」

素然追光
2025-12-21 04:40:09
拿600萬!4中0就得1分,北京揪出最大軟蛋,他打的真差啊

拿600萬!4中0就得1分,北京揪出最大軟蛋,他打的真差啊

籃球?qū)^(qū)
2025-12-20 23:19:41
雷軍高調(diào)宣布,小米YU7獲“五星健康車”認證,遙遙領先

雷軍高調(diào)宣布,小米YU7獲“五星健康車”認證,遙遙領先

胡嚴亂語
2025-12-20 16:16:55
12月20日金價:大家要有心理準備了,下周起,黃金或?qū)⒂瓉泶箫L暴

12月20日金價:大家要有心理準備了,下周起,黃金或?qū)⒂瓉泶箫L暴

生活新鮮市
2025-12-20 05:30:23
兩條流氓新聞,每個字都寫滿了無恥!

兩條流氓新聞,每個字都寫滿了無恥!

胖胖說他不胖
2025-12-20 11:00:14
“彈劾賴清德”網(wǎng)絡連署結果驚人,藍白營重磅聯(lián)手,鄭麗文被打臉

“彈劾賴清德”網(wǎng)絡連署結果驚人,藍白營重磅聯(lián)手,鄭麗文被打臉

就像當初啊
2025-12-19 23:11:31
2025-12-21 05:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11957文章數(shù) 142515關注度
往期回顧 全部

科技要聞

許四清:具身智能的"ChatGPT時刻"還未到來

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

頭條要聞

高市早苗擔心被邊緣化 要趕在特朗普訪華前行動

體育要聞

我開了20年大巴,現(xiàn)在是一名西甲主帥

娛樂要聞

2026央視跨年晚會陣容曝光,豪華陣仗

財經(jīng)要聞

求解“地方財政困難”

汽車要聞

嵐圖推進L3量產(chǎn)測試 已完成11萬公里實際道路驗證

態(tài)度原創(chuàng)

游戲
藝術
親子
教育
軍事航空

逆天!LCK頒獎Faker無緣獎項,LPL解說炮轟開罵直播間差點被封

藝術要聞

中國老香煙品牌,你知道多少?

親子要聞

張柏芝小兒子罕見露臉,網(wǎng)友驚呼太像媽媽,三個兒子各有千秋

教育要聞

中產(chǎn)留學家庭起飛三件套!

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關懷版