中科院把研究員和設(shè)計師都塞進了一個PPT AI系統(tǒng)

2026-03-10 22:35:05　來源: 至頂AI實驗室

北京舉報

分享至

你有沒有遇到過這種崩潰時刻：要匯報的PPT明天就要交，你折騰到半夜，一邊查資料一邊排版，做出來的東西還是字體不統(tǒng)一、排版亂七八糟，而整體風(fēng)格呢，毫無美感可言。這種痛苦幾乎是打工人的共同記憶。PPT本身不難，難的是同時要做好兩件事：一是把內(nèi)容研究透徹，二是把視覺設(shè)計做得好看。這兩件事單獨拿出來都要花不少時間，合在一起更是要命。

中科院軟件所的研究團隊注意到了這個問題，開發(fā)了一個叫做DEEPPRESENTER的AI系統(tǒng)，能夠自動完成從研究資料到生成精美演示文稿的全流程。更關(guān)鍵的是，這個系統(tǒng)有一個別的同類工具都不具備的能力：它會把自己生成的PPT"看一遍"，發(fā)現(xiàn)哪里不對勁，然后自己改掉。這就好像系統(tǒng)里住著一個會"挑剔自己作品"的設(shè)計師，而不是生成完就拍屁股走人。

PPT生成器為什么以前總是做出"電子垃圾"

要理解DEEPPRESENTER的厲害之處，我們得先聊聊它的前輩們?yōu)槭裁床缓糜谩?/p>

想象一下，你雇了一個秘書幫你做PPT，但這個秘書的工作方式是這樣的：他事先背好了幾套固定的PPT模板，然后不管你給他什么主題，他都往模板里塞文字。做完之后，他不會去翻開PPT看實際效果如何，而是假設(shè)"我打完字了，應(yīng)該就沒問題了吧"。

這就是以前大多數(shù)AI生成工具的工作方式。它們依賴預(yù)設(shè)好的模板，按照固定流程填充內(nèi)容，生成完就結(jié)束。具體來說，有兩個核心問題讓這些工具做出來的東西差強人意。

第一個問題是"內(nèi)容浮于表面"。這些工具大多不會主動去查資料，只能把用戶提供的文字重新排布一下。如果你讓它做一個關(guān)于"注意力機制"的AI入門科普PPT，它不會去讀論文、找圖片、整理關(guān)鍵信息，而是把你隨手給它的幾句話拆開塞進不同的幻燈片里。結(jié)果自然是內(nèi)容單薄，看著像是初中生做的報告。

第二個問題更隱蔽，叫做"只在腦子里自檢，不用眼睛看結(jié)果"。以前的AI工具在檢查自己的輸出時，只能分析自己生成的代碼或者文字，也就是"中間狀態(tài)"，而不是用戶真正看到的那個渲染出來的畫面。打個比方，這就像一個畫家畫完一幅畫，評價好壞時不是看實際畫布，而是去回想自己用了哪幾種顏色、畫了幾筆，這能判斷出"文字溢出邊框"或者"兩個元素疊在一起"嗎？顯然不行。結(jié)果就是，AI覺得自己生成的代碼沒問題，但渲染出來的PPT里文字擠成一團、背景和字色太接近根本看不清、圖片路徑寫錯了顯示一片空白，這些毛病它全部發(fā)現(xiàn)不了。

DEEPPRESENTER要解決的，正是這兩個根本問題。

一個研究員、一個設(shè)計師，外加一雙會"看PPT"的眼睛

DEEPPRESENTER的核心設(shè)計思路是把做PPT這件事拆給兩個專門的AI"角色"來完成，同時給它們配備了一個關(guān)鍵工具，能真正"看到"PPT渲染效果的檢查能力。

先說第一個角色，叫做"研究員"（Researcher）。這個AI的職責(zé)是在你提出需求之后，主動去搜索、閱讀和整理相關(guān)資料。如果你說"我要做一個給初學(xué)者看的、關(guān)于Transformer模型的PPT"，研究員會真的去查相關(guān)論文，下載資料，生成配套圖表，整理成一份結(jié)構(gòu)清晰的"講稿文檔"，就像你給演講者準備的那種提綱加素材的文檔，而不是直接上手畫幻燈片。

更聰明的地方在于，研究員的工作深度會根據(jù)主題自動調(diào)整。如果是技術(shù)性話題，它會去深挖相關(guān)研究；如果是面向普通大眾的科普，它會優(yōu)先找通俗的例子和易懂的插圖。它不是按照一套死板的流程走，而是"理解了你的需求"之后靈活規(guī)劃自己的工作路徑。

第二個角色叫做"演示者"（Presenter）。它接過研究員準備好的講稿文檔，從零開始設(shè)計幻燈片。注意是從零開始，不是套模板，而是先給整個演示文稿定一個視覺主題：選配色、定字體、規(guī)劃布局風(fēng)格。比如，如果主題是環(huán)保，可能會用綠色和大地色系；如果是學(xué)術(shù)匯報，會偏向簡潔的白底黑字風(fēng)格。然后再逐頁生成幻燈片，把講稿內(nèi)容轉(zhuǎn)化成視覺設(shè)計。

這兩個角色分工協(xié)作，通過一個共享的"工作臺"傳遞文件和信息，就像一個辦公室里研究員把報告遞給設(shè)計師，設(shè)計師再基于報告做出PPT。

但真正讓這套系統(tǒng)與眾不同的，是第三個關(guān)鍵設(shè)計：一個叫做inspect（檢查）的工具。

這個工具的工作原理很直接：把生成的幻燈片HTML文件放進一個"無頭瀏覽器"（就是沒有界面的瀏覽器），讓它真正渲染出圖片，然后把這張圖片"給AI看"。AI看完后，如果發(fā)現(xiàn)"這里的標題字太淺，跟背景幾乎融為一體"，或者"這一頁的圖片路徑錯了，顯示空白"，就會立刻記錄下來，計劃修改，然后真的去修改代碼。

這種"先看渲染結(jié)果，再反思，再修改"的循環(huán)，研究團隊稱之為"環(huán)境感知反思"（Environment-Grounded Reflection）。與之相對的，是以前那種只能"自言自語"反思自己代碼的"自我反思"方式。兩者的區(qū)別，就像你評價一道菜是"看著食譜說應(yīng)該很好吃"，還是"真的先吃一口再說"。顯然后者要靠譜得多。

同樣，研究員那邊也有一個inspect工具，不過功能有所不同，它會檢查講稿文檔里有沒有圖片引用路徑寫錯、語言是否符合用戶要求、幻燈片數(shù)量有沒有滿足指定條件等。這樣整條流水線的每一個環(huán)節(jié)都有真實的觀察和糾錯能力，而不是盲目往前走。

訓(xùn)練一個"會獨立工作的小模型"：讓AI教AI

DEEPPRESENTER用大型模型（比如谷歌的Gemini-3-Pro）跑得很好，但有一個現(xiàn)實問題：這些頂級大模型調(diào)用費用不便宜，每次生成PPT的成本在真實使用中會顯得有些高。研究團隊的思路是：能不能用一個小得多、便宜得多的模型，訓(xùn)練它"學(xué)會"DEEPPRESENTER的工作方式，讓它也能有樣學(xué)樣地做出高質(zhì)量的PPT？

于是他們開發(fā)了DeepPresenter-9B，一個參數(shù)量為90億的專用小模型（相比之下，頂級大模型的參數(shù)量往往是其幾十倍甚至更多）。訓(xùn)練這個小模型的過程，有點像培養(yǎng)一個新手設(shè)計師的方式，給他看大量"優(yōu)秀作品的完整制作過程"，讓他學(xué)習(xí)每一步的思路和操作。

這些"制作過程"叫做"軌跡"（trajectory），每一條軌跡記錄了從接到任務(wù)到完成PPT的所有中間步驟：查了什么資料、寫了什么內(nèi)容、生成了哪些幻燈片、發(fā)現(xiàn)了什么問題、做了什么修改。研究團隊用大模型跑了1024個不同主題的PPT任務(wù)，收集這些完整的工作軌跡，再拿來訓(xùn)練小模型。

但這里有一個棘手的問題，研究團隊把它叫做"自我驗證偏見"。簡單說就是：同一個AI既當運動員又當裁判，容易出現(xiàn)"自我感覺良好"的錯覺。AI在生成PPT之后自己檢查，很可能會說"這一頁做得很棒！"，因為檢查這個動作和生成這個動作都來自同一套思維狀態(tài)，容易產(chǎn)生先入為主的判斷，對自己已經(jīng)做出的東西保持莫名的信任。

為了解決這個問題，研究團隊引入了一個獨立的"外部批評者"（Extrinsic Verification）。每次AI用inspect工具看完自己生成的幻燈片之后，不是讓它自己寫反思，而是把渲染圖片單獨交給另一個獨立的AI來評審。這個獨立批評者和生成過程完全隔離，不知道之前發(fā)生了什么，只對著眼前的圖片做出評判：這里對比度太低，那里文字溢出，請改進。這個評判意見會被插入到訓(xùn)練軌跡中，作為"正確的反思應(yīng)該長什么樣"的示范。

打個比方，這就像一個學(xué)生寫完作文之后，不是自己改自己的文章，而是把作文交給另一個老師來批改，再把批改意見帶回來。這樣學(xué)到的"如何自我糾錯"的能力，會比自己看自己要可靠得多。

在這個獨立批評者的幫助下，研究團隊發(fā)現(xiàn)，同樣的300個訓(xùn)練樣本，加入外部驗證的那組模型性能提升是沒有外部驗證組的1.67倍（平均分提升0.20對比0.12）。差距不算小，說明"獨立批評"這個機制確實有效地打破了AI的自我幻覺。

最終，1024個訓(xùn)練任務(wù)跑完之后，經(jīng)過三輪嚴格的質(zhì)量篩選，先檢查有沒有滿足用戶指定的約束條件，再檢查AI有沒有真正按照批評意見去修改，最后再檢查最終PPT有沒有明顯的視覺缺陷，篩出了802條高質(zhì)量軌跡，用來訓(xùn)練DeepPresenter-9B。

數(shù)字會說話：它到底有多強？

研究團隊拿128個不同主題、不同格式要求的PPT生成任務(wù)做了測試，橫跨中英文、16:9寬屏和4:3標準比例、限定幻燈片數(shù)量和自由發(fā)揮等各種情形。評估維度有三個：內(nèi)容質(zhì)量（你說的話有沒有做到）、視覺風(fēng)格（PPT好不好看）、約束滿足度（有沒有按用戶要求的幻燈片數(shù)、語言、比例來做）。

結(jié)果用平均分來看（滿分5分），DEEPPRESENTER用Gemini-3-Pro作為底層模型時，拿到了4.44分，超過了商業(yè)產(chǎn)品Gamma的4.36分，也把其他所有開源框架甩在了身后。其中最顯著的提升來自內(nèi)容質(zhì)量，因為研究員會自主搜集資料，內(nèi)容豐富度遠超那些只能靠用戶自己提供材料的工具。

另一個有意思的指標叫做"多樣性分數(shù)"（Diversity Score），用來衡量同一個系統(tǒng)做出來的不同PPT之間長得有多不一樣。這個指標滿分1分，那些依賴固定模板的工具普遍在0.17到0.35之間，而DEEPPRESENTER拿到了0.79，相當于"從零設(shè)計"帶來的風(fēng)格自由度是"套模板"方式的兩倍多。就連商業(yè)產(chǎn)品Gamma也只有0.52，不如DEEPPRESENTER。

而那個"經(jīng)濟實惠的小弟"DeepPresenter-9B，平均分達到了4.19，超過所有開源基線模型，基本和GPT-5打平（GPT-5在DEEPPRESENTER框架下是4.22），但使用成本要低得多。從"性價比"角度看，DeepPresenter-9B在同等成本下的表現(xiàn)遠優(yōu)于其他競爭對手。

此外，研究團隊還做了專門的消融實驗，就是把系統(tǒng)的某個部件拆掉，看會發(fā)生什么。拆掉"環(huán)境感知反思"（讓AI無法真正看到渲染后的PPT）之后，Gemini版本的平均分從4.44跌到4.32，小模型版本從4.19跌到3.82，跌幅更為明顯。拆掉"雙智能體分工"（把研究員和演示者合并成一個）之后，小模型的平均分直接跌到3.23，說明這個分工設(shè)計是系統(tǒng)能維持高水準的重要基礎(chǔ)。

AI也會"犯錯的地方"：失敗案例告訴我們什么

研究團隊沒有只展示好的數(shù)據(jù)，他們也認真分析了系統(tǒng)在哪里會出問題。

在收集訓(xùn)練軌跡的過程中，未能通過質(zhì)量篩選的軌跡里，問題來自四個方向：最多的是"輸出質(zhì)量不達標"，占43%，說明在自由發(fā)揮的生成模式下，保持穩(wěn)定的高質(zhì)量并不容易；其次是"環(huán)境運行問題"，占32.3%，主要是上下文窗口裝不下那么多內(nèi)容（因為生成PPT的過程步驟很長，需要記住的中間狀態(tài)非常多），或者底層基礎(chǔ)設(shè)施出故障；剩下的是約束沒滿足（13.5%）和行為不一致（11.2%）。

這說明這類長步驟的AI工作流對穩(wěn)定性要求很高，一旦中間哪個環(huán)節(jié)出了差錯，整條鏈可能就斷了。研究團隊坦承這是目前還沒有完全解決的挑戰(zhàn)。

另外，DEEPPRESENTER的"外部批評者"目前只在訓(xùn)練階段用，真正跑起來生成PPT的時候并不使用，因為實時引入外部批評者會讓運行成本更高、速度更慢，而且有時候批評者提的意見和AI的實際修改方向?qū)Σ簧?，反而帶來新的問題。研究團隊認為，如何在真實推理時也有效解決"自我驗證偏見"，是未來值得繼續(xù)研究的方向。

至頂AI實驗室洞見

DEEPPRESENTER做了一件聽起來簡單但以前沒人做好的事：讓AI在生成PPT的過程中，真的去"看"它自己做出來的東西長什么樣，而不是假裝看了。這個小小的改變，背后是對"AI如何自我糾錯"這件事的重新理解，你不能在腦子里想象一道菜好不好吃，你得先嘗一口。

對于普通人來說，這個系統(tǒng)最直接的意義是：你可以把一篇論文、一個主題、一個演講需求扔給它，然后去倒杯水，等回來就有一份真正認真做過的PPT，不是模板填充，是有調(diào)研、有設(shè)計、有自我檢查過的作品。當然，目前這套系統(tǒng)還不是可以直接下載使用的產(chǎn)品，更多是學(xué)術(shù)層面的框架和驗證。但隨著技術(shù)的成熟，這類工具走入普通辦公場景只是時間問題。

你會不會讓AI幫你把下一份重要的演示文稿做好？如果AI真的能做到"看著改、改完再看"，你還會坐在電腦前熬夜調(diào)字號嗎？

論文地址：https://arxiv.org/abs/2602.22839v1

END本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破，挖掘其潛在的應(yīng)用場景，為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1：DEEPPRESENTER和普通的AI生成PPT工具有什么不同？

A：最大的不同在于兩點：一是它有專門的"研究員"會主動搜集資料，而不是只靠用戶提供內(nèi)容；二是它會把生成的幻燈片真正渲染成圖片"看一遍"，發(fā)現(xiàn)視覺問題后自己修改，而不是生成完就結(jié)束。

Q2：DeepPresenter-9B是什么，和主系統(tǒng)有什么關(guān)系？

A：DeepPresenter-9B是研究團隊基于DEEPPRESENTER框架訓(xùn)練出來的一個小型專用模型，參數(shù)量約90億，運行成本遠低于GPT-5等大模型，但在PPT生成質(zhì)量上接近甚至超過了大部分開源競爭對手，是"經(jīng)濟實惠版"的DEEPPRESENTER。

Q3：這個系統(tǒng)現(xiàn)在可以直接用嗎？

A：目前DEEPPRESENTER以學(xué)術(shù)研究框架的形式發(fā)布，項目代碼在GitHub上開源（https://github.com/icip-cas/PPTAgent），有技術(shù)背景的用戶可以嘗試部署，但尚未以成品應(yīng)用的形式面向普通用戶。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.