![]()
本項目為AI Geeks、澳洲人工智能研究所、利物浦大學、拉籌伯大學的聯(lián)合工作。
我們提出了 PresentAgent,一個能夠將長篇文檔轉化為帶解說的演示視頻、多模態(tài)智能體。現有方法大多局限于生成靜態(tài)幻燈片或文本摘要,而我們的方案突破了這些限制,能夠生成高度同步的視覺內容和語音解說,逼真模擬人類風格的演示。
![]()
論文標題:PresentAgent: Multimodal Agent for Presentation Video Generation論文地址:https://arxiv.org/abs/2507.04036代碼:https://github.com/AIGeeksGroup/PresentAgent
為了實現這一整合,PresentAgent 采用了模塊化流程,如圖 1 所示,包括以下步驟:1. 系統(tǒng)性地對輸入文檔進行分段;2. 規(guī)劃并渲染幻燈片風格的視覺幀;3. 利用大型語言模型與文本轉語音模型生成具有上下文的語音解說;4. 最終將音頻與視覺內容精確對齊,無縫組合成完整視頻。
![]()
圖 1 PresentAgent 概覽。該系統(tǒng)以文檔(如網頁)為輸入,經過以下生成流程:(1)文檔處理、(2)結構化幻燈片生成、(3)同步字幕創(chuàng)建,以及(4) 語音合成。最終輸出為一個結合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關鍵中間輸出。
考慮到這種多模態(tài)輸出的評估難度,我們引入了 Presenteval,一個由視覺-語言模型驅動的統(tǒng)一評估框架,從以下三個關鍵維度全面打分:內容忠實度(Content Fidelity)、視覺清晰度(Visual Clarity)和觀眾理解度(Audience Comprehension)。
評估采用基于提示的方式進行。我們在一個精心整理的包含 30 對「文檔-演示」樣本的數據集上進行了實驗驗證,結果表明,PresentAgent 在所有評估指標上接近人類水平的表現。
這些結果展示了可控多模態(tài)智能體在將靜態(tài)文本材料轉化為動態(tài)、有效、易獲取的演示格式方面的巨大潛力。
我們的主要貢獻如下:
提出新任務:首次提出「文檔到演示視頻生成」這一新任務,旨在從各類長文本自動生成結構化的幻燈片視頻,并配有語音解說。
設計 PresentAgent 系統(tǒng):提出一個模塊化生成框架,涵蓋文檔解析、布局感知幻燈片構建、講稿生成及音視同步,實現可控、可解釋的視頻生成過程。
提出 Presenteval 評估框架:構建一個由視覺語言模型驅動的多維度評估機制,從內容、視覺與理解等維度對視頻進行提示式評分。
構建高質量評測數據集:我們制作了一個包含 30 對真實文檔與對應演示視頻的數據集。實驗和消融研究顯示,PresentAgent 不僅接近人類表現,且顯著優(yōu)于現有方案。
演示視頻評估基準(Presentation Benchmark)
![]()
圖 2 我們評估基準中的文檔多樣性
為了支持文檔到演示視頻生成的評估,我們構建了一個多領域、多文體的真實對照數據集——Doc2Present Benchmark,其中每對數據都包含一個文檔與一個配套的演示視頻。不同于以往只關注摘要或幻燈片的基準,我們的數據包括:
商業(yè)報告產品手冊政策簡報教程類文檔等
每篇文檔均配有人工制作的視頻講解,如圖 2 所示。
![]()
圖 3 我們的評測方法框架概覽
與 paper2poster 的方法類似,我們設計了一個測驗式評估框架,即通過視覺語言模型僅根據生成視頻(幻燈片+講解)回答內容問題,以模擬觀眾的理解水平,同時我們還引入人工制作的視頻作為參考標準,既用于評分校準,也作為性能上限對比。
該評估框架由兩部分組成:
客觀測驗評估:通過選擇題測量視頻傳遞信息的準確性;主觀評分評估:從內容質量、視覺/音頻設計與理解清晰度等維度,對視頻進行 1–5 分等級評分;這兩類指標共同構成了對生成視頻的全面質量評估體系,如圖 3 所示。
PresentAgent
![]()
圖 4 PresentAgent 框架概覽
本系統(tǒng)以多種類型的文檔(例如論文、網頁、PDF 等)為輸入,遵循模塊化的生成流程:
首先進行提綱生成;檢索出最適合的幻燈片模板;然后借助視覺-語言模型生成幻燈片和解說文稿;將解說文稿通過 TTS 轉換為音頻,并合成為完整的演示視頻;為了評估視頻質量,我們設計了多個維度的提示語;最后將提示輸入基于視覺語言模型(VLM)的評分模塊,輸出各個維度的指標結果。
為了將長文本文檔轉化為帶口語化講解的演示視頻,我們設計了一個多階段的生成框架,模擬人類準備幻燈片與演講內容的流程,如圖 4 所示。該方法分為四步:
語義分段;結構化幻燈片生成;口語化講解生成;可視與音頻組合為同步視頻。
該模塊化設計支持可控性、可解釋性和多模態(tài)對齊,兼顧高質量生成與細粒度評估。下文將分別介紹各模塊。
實驗
我們構建了一個包含 30 個長文檔的測試集,每個文檔配有人類手工制作的演示視頻作為參考。這些文檔涵蓋教育、產品說明、科研綜述與政策簡報等主題。
所有生成與人工視頻均使用 Presenteval 框架進行評估。由于當前尚無模型可完整評估超 2 分鐘的多模態(tài)視頻,我們采用分段評估策略:
客觀評估階段:使用 Qwen-VL-2.5-3B 回答固定的多項選擇題,評估內容理解;主觀評分階段:提取視頻與音頻片段,使用 Qwen-Omni-7B 針對內容質量、視覺/聽覺質量和理解難度分別打分。
主實驗結果
![]()
在測驗準確率方面,大多數 PresentAgent 的變體與人工基準結果(0.56)相當甚至更優(yōu)。其中 Claude-3.7-sonnet 取得了最高準確率 0.64,表明生成內容與源文檔之間具有較強的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事實對齊方面仍有提升空間。
在主觀質量方面,由人類制作的演示仍在視頻和音頻整體評分上保持領先。然而,一些 PresentAgent 變體表現出有競爭力的性能。例如,GPT-4o-Mini 在視頻內容和視覺吸引力方面獲得了最高分(均接近或達到 4.8),而 Claude-3.7-sonnet 則在音頻質量方面表現最為平衡(均分為 4.53)。
有趣的是,Gemini-2.5-flash 在視覺質量上取得了最高得分(5.0),但在理解性方面較低,這反映了美觀性與清晰度之間的權衡。這些結果突顯了我們模塊化生成流程的有效性,以及統(tǒng)一評估框架 Presenteval 在捕捉演示質量多個維度方面的實用價值。
案例分析
![]()
圖 5 PresentAgent 自動生成演示視頻示例
圖 5 體現了一個完整的 PresentAgent 自動生成演示視頻示例,其中一篇技術博客被轉化為帶解說的演示。系統(tǒng)識別出結構性片段(如引言、技術解釋等),并為其生成了包含口語風格字幕和同步語音的幻燈片,涵蓋了「并行化工作流」、「代理系統(tǒng)架構」等技術主題,展示了系統(tǒng)在保持技術準確性的同時,以清晰、對話式方式傳達信息的能力。





京公網安備 11011402013531號