国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

中科院把研究員和設(shè)計師都塞進了一個PPT AI系統(tǒng)

0
分享至

你有沒有遇到過這種崩潰時刻:要匯報的PPT明天就要交,你折騰到半夜,一邊查資料一邊排版,做出來的東西還是字體不統(tǒng)一、排版亂七八糟,而整體風(fēng)格呢,毫無美感可言。這種痛苦幾乎是打工人的共同記憶。PPT本身不難,難的是同時要做好兩件事:一是把內(nèi)容研究透徹,二是把視覺設(shè)計做得好看。這兩件事單獨拿出來都要花不少時間,合在一起更是要命。


中科院軟件所的研究團隊注意到了這個問題,開發(fā)了一個叫做DEEPPRESENTER的AI系統(tǒng),能夠自動完成從研究資料到生成精美演示文稿的全流程。更關(guān)鍵的是,這個系統(tǒng)有一個別的同類工具都不具備的能力:它會把自己生成的PPT"看一遍",發(fā)現(xiàn)哪里不對勁,然后自己改掉。這就好像系統(tǒng)里住著一個會"挑剔自己作品"的設(shè)計師,而不是生成完就拍屁股走人。

PPT生成器為什么以前總是做出"電子垃圾"

要理解DEEPPRESENTER的厲害之處,我們得先聊聊它的前輩們?yōu)槭裁床缓糜谩?/p>

想象一下,你雇了一個秘書幫你做PPT,但這個秘書的工作方式是這樣的:他事先背好了幾套固定的PPT模板,然后不管你給他什么主題,他都往模板里塞文字。做完之后,他不會去翻開PPT看實際效果如何,而是假設(shè)"我打完字了,應(yīng)該就沒問題了吧"。

這就是以前大多數(shù)AI生成工具的工作方式。它們依賴預(yù)設(shè)好的模板,按照固定流程填充內(nèi)容,生成完就結(jié)束。具體來說,有兩個核心問題讓這些工具做出來的東西差強人意。

第一個問題是"內(nèi)容浮于表面"。這些工具大多不會主動去查資料,只能把用戶提供的文字重新排布一下。如果你讓它做一個關(guān)于"注意力機制"的AI入門科普PPT,它不會去讀論文、找圖片、整理關(guān)鍵信息,而是把你隨手給它的幾句話拆開塞進不同的幻燈片里。結(jié)果自然是內(nèi)容單薄,看著像是初中生做的報告。

第二個問題更隱蔽,叫做"只在腦子里自檢,不用眼睛看結(jié)果"。以前的AI工具在檢查自己的輸出時,只能分析自己生成的代碼或者文字,也就是"中間狀態(tài)",而不是用戶真正看到的那個渲染出來的畫面。打個比方,這就像一個畫家畫完一幅畫,評價好壞時不是看實際畫布,而是去回想自己用了哪幾種顏色、畫了幾筆,這能判斷出"文字溢出邊框"或者"兩個元素疊在一起"嗎?顯然不行。結(jié)果就是,AI覺得自己生成的代碼沒問題,但渲染出來的PPT里文字擠成一團、背景和字色太接近根本看不清、圖片路徑寫錯了顯示一片空白,這些毛病它全部發(fā)現(xiàn)不了。

DEEPPRESENTER要解決的,正是這兩個根本問題。

一個研究員、一個設(shè)計師,外加一雙會"看PPT"的眼睛

DEEPPRESENTER的核心設(shè)計思路是把做PPT這件事拆給兩個專門的AI"角色"來完成,同時給它們配備了一個關(guān)鍵工具,能真正"看到"PPT渲染效果的檢查能力。

先說第一個角色,叫做"研究員"(Researcher)。這個AI的職責(zé)是在你提出需求之后,主動去搜索、閱讀和整理相關(guān)資料。如果你說"我要做一個給初學(xué)者看的、關(guān)于Transformer模型的PPT",研究員會真的去查相關(guān)論文,下載資料,生成配套圖表,整理成一份結(jié)構(gòu)清晰的"講稿文檔",就像你給演講者準備的那種提綱加素材的文檔,而不是直接上手畫幻燈片。

更聰明的地方在于,研究員的工作深度會根據(jù)主題自動調(diào)整。如果是技術(shù)性話題,它會去深挖相關(guān)研究;如果是面向普通大眾的科普,它會優(yōu)先找通俗的例子和易懂的插圖。它不是按照一套死板的流程走,而是"理解了你的需求"之后靈活規(guī)劃自己的工作路徑。

第二個角色叫做"演示者"(Presenter)。它接過研究員準備好的講稿文檔,從零開始設(shè)計幻燈片。注意是從零開始,不是套模板,而是先給整個演示文稿定一個視覺主題:選配色、定字體、規(guī)劃布局風(fēng)格。比如,如果主題是環(huán)保,可能會用綠色和大地色系;如果是學(xué)術(shù)匯報,會偏向簡潔的白底黑字風(fēng)格。然后再逐頁生成幻燈片,把講稿內(nèi)容轉(zhuǎn)化成視覺設(shè)計。

這兩個角色分工協(xié)作,通過一個共享的"工作臺"傳遞文件和信息,就像一個辦公室里研究員把報告遞給設(shè)計師,設(shè)計師再基于報告做出PPT。

但真正讓這套系統(tǒng)與眾不同的,是第三個關(guān)鍵設(shè)計:一個叫做inspect(檢查)的工具。

這個工具的工作原理很直接:把生成的幻燈片HTML文件放進一個"無頭瀏覽器"(就是沒有界面的瀏覽器),讓它真正渲染出圖片,然后把這張圖片"給AI看"。AI看完后,如果發(fā)現(xiàn)"這里的標題字太淺,跟背景幾乎融為一體",或者"這一頁的圖片路徑錯了,顯示空白",就會立刻記錄下來,計劃修改,然后真的去修改代碼。


這種"先看渲染結(jié)果,再反思,再修改"的循環(huán),研究團隊稱之為"環(huán)境感知反思"(Environment-Grounded Reflection)。與之相對的,是以前那種只能"自言自語"反思自己代碼的"自我反思"方式。兩者的區(qū)別,就像你評價一道菜是"看著食譜說應(yīng)該很好吃",還是"真的先吃一口再說"。顯然后者要靠譜得多。

同樣,研究員那邊也有一個inspect工具,不過功能有所不同,它會檢查講稿文檔里有沒有圖片引用路徑寫錯、語言是否符合用戶要求、幻燈片數(shù)量有沒有滿足指定條件等。這樣整條流水線的每一個環(huán)節(jié)都有真實的觀察和糾錯能力,而不是盲目往前走。

訓(xùn)練一個"會獨立工作的小模型":讓AI教AI

DEEPPRESENTER用大型模型(比如谷歌的Gemini-3-Pro)跑得很好,但有一個現(xiàn)實問題:這些頂級大模型調(diào)用費用不便宜,每次生成PPT的成本在真實使用中會顯得有些高。研究團隊的思路是:能不能用一個小得多、便宜得多的模型,訓(xùn)練它"學(xué)會"DEEPPRESENTER的工作方式,讓它也能有樣學(xué)樣地做出高質(zhì)量的PPT?


于是他們開發(fā)了DeepPresenter-9B,一個參數(shù)量為90億的專用小模型(相比之下,頂級大模型的參數(shù)量往往是其幾十倍甚至更多)。訓(xùn)練這個小模型的過程,有點像培養(yǎng)一個新手設(shè)計師的方式,給他看大量"優(yōu)秀作品的完整制作過程",讓他學(xué)習(xí)每一步的思路和操作。

這些"制作過程"叫做"軌跡"(trajectory),每一條軌跡記錄了從接到任務(wù)到完成PPT的所有中間步驟:查了什么資料、寫了什么內(nèi)容、生成了哪些幻燈片、發(fā)現(xiàn)了什么問題、做了什么修改。研究團隊用大模型跑了1024個不同主題的PPT任務(wù),收集這些完整的工作軌跡,再拿來訓(xùn)練小模型。

但這里有一個棘手的問題,研究團隊把它叫做"自我驗證偏見"。簡單說就是:同一個AI既當運動員又當裁判,容易出現(xiàn)"自我感覺良好"的錯覺。AI在生成PPT之后自己檢查,很可能會說"這一頁做得很棒!",因為檢查這個動作和生成這個動作都來自同一套思維狀態(tài),容易產(chǎn)生先入為主的判斷,對自己已經(jīng)做出的東西保持莫名的信任。

為了解決這個問題,研究團隊引入了一個獨立的"外部批評者"(Extrinsic Verification)。每次AI用inspect工具看完自己生成的幻燈片之后,不是讓它自己寫反思,而是把渲染圖片單獨交給另一個獨立的AI來評審。這個獨立批評者和生成過程完全隔離,不知道之前發(fā)生了什么,只對著眼前的圖片做出評判:這里對比度太低,那里文字溢出,請改進。這個評判意見會被插入到訓(xùn)練軌跡中,作為"正確的反思應(yīng)該長什么樣"的示范。

打個比方,這就像一個學(xué)生寫完作文之后,不是自己改自己的文章,而是把作文交給另一個老師來批改,再把批改意見帶回來。這樣學(xué)到的"如何自我糾錯"的能力,會比自己看自己要可靠得多。

在這個獨立批評者的幫助下,研究團隊發(fā)現(xiàn),同樣的300個訓(xùn)練樣本,加入外部驗證的那組模型性能提升是沒有外部驗證組的1.67倍(平均分提升0.20對比0.12)。差距不算小,說明"獨立批評"這個機制確實有效地打破了AI的自我幻覺。

最終,1024個訓(xùn)練任務(wù)跑完之后,經(jīng)過三輪嚴格的質(zhì)量篩選,先檢查有沒有滿足用戶指定的約束條件,再檢查AI有沒有真正按照批評意見去修改,最后再檢查最終PPT有沒有明顯的視覺缺陷,篩出了802條高質(zhì)量軌跡,用來訓(xùn)練DeepPresenter-9B。

數(shù)字會說話:它到底有多強?

研究團隊拿128個不同主題、不同格式要求的PPT生成任務(wù)做了測試,橫跨中英文、16:9寬屏和4:3標準比例、限定幻燈片數(shù)量和自由發(fā)揮等各種情形。評估維度有三個:內(nèi)容質(zhì)量(你說的話有沒有做到)、視覺風(fēng)格(PPT好不好看)、約束滿足度(有沒有按用戶要求的幻燈片數(shù)、語言、比例來做)。


結(jié)果用平均分來看(滿分5分),DEEPPRESENTER用Gemini-3-Pro作為底層模型時,拿到了4.44分,超過了商業(yè)產(chǎn)品Gamma的4.36分,也把其他所有開源框架甩在了身后。其中最顯著的提升來自內(nèi)容質(zhì)量,因為研究員會自主搜集資料,內(nèi)容豐富度遠超那些只能靠用戶自己提供材料的工具。

另一個有意思的指標叫做"多樣性分數(shù)"(Diversity Score),用來衡量同一個系統(tǒng)做出來的不同PPT之間長得有多不一樣。這個指標滿分1分,那些依賴固定模板的工具普遍在0.17到0.35之間,而DEEPPRESENTER拿到了0.79,相當于"從零設(shè)計"帶來的風(fēng)格自由度是"套模板"方式的兩倍多。就連商業(yè)產(chǎn)品Gamma也只有0.52,不如DEEPPRESENTER。

而那個"經(jīng)濟實惠的小弟"DeepPresenter-9B,平均分達到了4.19,超過所有開源基線模型,基本和GPT-5打平(GPT-5在DEEPPRESENTER框架下是4.22),但使用成本要低得多。從"性價比"角度看,DeepPresenter-9B在同等成本下的表現(xiàn)遠優(yōu)于其他競爭對手。

此外,研究團隊還做了專門的消融實驗,就是把系統(tǒng)的某個部件拆掉,看會發(fā)生什么。拆掉"環(huán)境感知反思"(讓AI無法真正看到渲染后的PPT)之后,Gemini版本的平均分從4.44跌到4.32,小模型版本從4.19跌到3.82,跌幅更為明顯。拆掉"雙智能體分工"(把研究員和演示者合并成一個)之后,小模型的平均分直接跌到3.23,說明這個分工設(shè)計是系統(tǒng)能維持高水準的重要基礎(chǔ)。

AI也會"犯錯的地方":失敗案例告訴我們什么

研究團隊沒有只展示好的數(shù)據(jù),他們也認真分析了系統(tǒng)在哪里會出問題。


在收集訓(xùn)練軌跡的過程中,未能通過質(zhì)量篩選的軌跡里,問題來自四個方向:最多的是"輸出質(zhì)量不達標",占43%,說明在自由發(fā)揮的生成模式下,保持穩(wěn)定的高質(zhì)量并不容易;其次是"環(huán)境運行問題",占32.3%,主要是上下文窗口裝不下那么多內(nèi)容(因為生成PPT的過程步驟很長,需要記住的中間狀態(tài)非常多),或者底層基礎(chǔ)設(shè)施出故障;剩下的是約束沒滿足(13.5%)和行為不一致(11.2%)。

這說明這類長步驟的AI工作流對穩(wěn)定性要求很高,一旦中間哪個環(huán)節(jié)出了差錯,整條鏈可能就斷了。研究團隊坦承這是目前還沒有完全解決的挑戰(zhàn)。

另外,DEEPPRESENTER的"外部批評者"目前只在訓(xùn)練階段用,真正跑起來生成PPT的時候并不使用,因為實時引入外部批評者會讓運行成本更高、速度更慢,而且有時候批評者提的意見和AI的實際修改方向?qū)Σ簧?,反而帶來新的問題。研究團隊認為,如何在真實推理時也有效解決"自我驗證偏見",是未來值得繼續(xù)研究的方向。

至頂AI實驗室洞見

DEEPPRESENTER做了一件聽起來簡單但以前沒人做好的事:讓AI在生成PPT的過程中,真的去"看"它自己做出來的東西長什么樣,而不是假裝看了。這個小小的改變,背后是對"AI如何自我糾錯"這件事的重新理解,你不能在腦子里想象一道菜好不好吃,你得先嘗一口。

對于普通人來說,這個系統(tǒng)最直接的意義是:你可以把一篇論文、一個主題、一個演講需求扔給它,然后去倒杯水,等回來就有一份真正認真做過的PPT,不是模板填充,是有調(diào)研、有設(shè)計、有自我檢查過的作品。當然,目前這套系統(tǒng)還不是可以直接下載使用的產(chǎn)品,更多是學(xué)術(shù)層面的框架和驗證。但隨著技術(shù)的成熟,這類工具走入普通辦公場景只是時間問題。

你會不會讓AI幫你把下一份重要的演示文稿做好?如果AI真的能做到"看著改、改完再看",你還會坐在電腦前熬夜調(diào)字號嗎?

論文地址:https://arxiv.org/abs/2602.22839v1

END本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1:DEEPPRESENTER和普通的AI生成PPT工具有什么不同?

A:最大的不同在于兩點:一是它有專門的"研究員"會主動搜集資料,而不是只靠用戶提供內(nèi)容;二是它會把生成的幻燈片真正渲染成圖片"看一遍",發(fā)現(xiàn)視覺問題后自己修改,而不是生成完就結(jié)束。

Q2:DeepPresenter-9B是什么,和主系統(tǒng)有什么關(guān)系?

A:DeepPresenter-9B是研究團隊基于DEEPPRESENTER框架訓(xùn)練出來的一個小型專用模型,參數(shù)量約90億,運行成本遠低于GPT-5等大模型,但在PPT生成質(zhì)量上接近甚至超過了大部分開源競爭對手,是"經(jīng)濟實惠版"的DEEPPRESENTER。

Q3:這個系統(tǒng)現(xiàn)在可以直接用嗎?

A:目前DEEPPRESENTER以學(xué)術(shù)研究框架的形式發(fā)布,項目代碼在GitHub上開源(https://github.com/icip-cas/PPTAgent),有技術(shù)背景的用戶可以嘗試部署,但尚未以成品應(yīng)用的形式面向普通用戶。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
維尼修斯再成皇馬核心!西媒:姆巴佩拒出戰(zhàn)曼城,或遭老佛爺放棄

維尼修斯再成皇馬核心!西媒:姆巴佩拒出戰(zhàn)曼城,或遭老佛爺放棄

夏侯看英超
2026-03-11 02:55:19
74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

74比95慘敗丟冠!女籃霸主狂輸21分被掀翻:1年連丟三冠太慘了

籃球快餐車
2026-03-10 05:40:05
WTI原油期貨跌幅擴大至15%

WTI原油期貨跌幅擴大至15%

財聯(lián)社
2026-03-11 01:12:13
小米正式官宣:3月10日,新機正式開售

小米正式官宣:3月10日,新機正式開售

科技堡壘
2026-03-10 09:54:33
人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

人民日報怒批!炫富、偷稅749萬、跑國外,現(xiàn)又來“割內(nèi)地韭菜”

小熊侃史
2026-01-18 07:20:09
獨家調(diào)查:消失在 08:10 —穆杰塔巴的“生存奇跡”與暗黑交易

獨家調(diào)查:消失在 08:10 —穆杰塔巴的“生存奇跡”與暗黑交易

卷卷百事通
2026-03-07 09:20:44
2026年最新規(guī)定:嫖娼處罰定性,這4種情形,加重處罰

2026年最新規(guī)定:嫖娼處罰定性,這4種情形,加重處罰

齊魯大世界
2026-03-10 01:31:11
瑞幸被曝多家門店使用鮮果做咖啡 涉及檸檬、草莓、橙子……

瑞幸被曝多家門店使用鮮果做咖啡 涉及檸檬、草莓、橙子……

飲界
2026-03-09 09:57:03
鬧大了!鄭州8歲女孩買了5支鮮花送給媽媽,爸爸拉著女孩憤怒退款

鬧大了!鄭州8歲女孩買了5支鮮花送給媽媽,爸爸拉著女孩憤怒退款

火山詩話
2026-03-10 05:41:34
張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

張藝謀:第一次見她,我對她說,你等著我們來找你,不要亂演電影

秀語千尋
2026-02-22 19:28:42
為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

為什么有人會信命?網(wǎng)友講述神奇遭遇,讓我也不得不信了

侃神評故事
2026-03-09 11:15:03
原來她是孫千媽媽,全國開70家店,舅舅更不一般,難怪女兒這么紅

原來她是孫千媽媽,全國開70家店,舅舅更不一般,難怪女兒這么紅

以茶帶書
2026-03-10 16:19:47
伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

伊朗軍艦在被擊沉前幾分鐘,一水兵致電父親,稱美軍兩次命令棄船

看盡人間百態(tài)
2026-03-09 06:54:40
價值5億的深圳同安大廈,為何被黑惡勢力長期霸占長達10年?

價值5億的深圳同安大廈,為何被黑惡勢力長期霸占長達10年?

微評社
2026-03-10 10:58:37
官宣北京北汽離隊第2人!2水貨外援被裁,許利民迎幫手沖冠穩(wěn)了?

官宣北京北汽離隊第2人!2水貨外援被裁,許利民迎幫手沖冠穩(wěn)了?

老吳說體育
2026-03-11 00:04:11
臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M入倒計時?

臺灣即將有望統(tǒng)一!五大信號正在釋放:武力統(tǒng)一或?qū)⑦M入倒計時?

南宗歷史
2026-03-08 22:36:31
兩會數(shù)說中國|一組數(shù)據(jù)看糧食安全“壓艙石”更堅實

兩會數(shù)說中國|一組數(shù)據(jù)看糧食安全“壓艙石”更堅實

新華社
2026-03-10 00:43:07
文旅部部長:7名外國游客到上海旅游,買了40箱中國貨

文旅部部長:7名外國游客到上海旅游,買了40箱中國貨

中國日報
2026-03-07 16:52:36
王毅通告全球,拒絕脫離聯(lián)合國,中美已無法共治,沙利文判斷沒錯

王毅通告全球,拒絕脫離聯(lián)合國,中美已無法共治,沙利文判斷沒錯

曉徙娛樂
2026-03-09 21:42:48
網(wǎng)友曝張藝興多個活動被取消,疑被國家話劇院開除,本人發(fā)聲明!

網(wǎng)友曝張藝興多個活動被取消,疑被國家話劇院開除,本人發(fā)聲明!

小娛樂悠悠
2026-03-10 08:35:31
2026-03-11 03:08:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室。
2196文章數(shù) 163關(guān)注度
往期回顧 全部

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

頭條要聞

伊朗新最高領(lǐng)袖在襲擊中受傷未公開發(fā)表講話 官方回應(yīng)

體育要聞

加蘭沒那么差,但鱸魚會用嗎?

娛樂要聞

《逐玉》注水風(fēng)波升級!315評論區(qū)淪陷

財經(jīng)要聞

“龍蝦補貼”密集出爐 最高1000萬!

科技要聞

全民"養(yǎng)蝦"背后:大廠集體下場瘋狂賣Token

汽車要聞

MG4有SUV衍生 上汽乘用車多款新車規(guī)劃曝光

態(tài)度原創(chuàng)

家居
藝術(shù)
房產(chǎn)
數(shù)碼
公開課

家居要聞

自然肌理 溫度質(zhì)感婚房

藝術(shù)要聞

震撼!美國油畫家約書亞·拉洛克的作品讓人驚嘆不已!

房產(chǎn)要聞

信號!千億巨頭入局,三亞開啟新一輪大征拆!

數(shù)碼要聞

M5 Max 版 16 英寸 MacBook Pro 體驗:算力巔峰與專業(yè)視界

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版