當(dāng)前位置：首頁 ? 資訊 ? 新科技 ? 正文

一鍵實(shí)現(xiàn)PPT演講自由！「解說音頻+視頻」同步生成，效果逼近真人

IP屬地中國·北京 編輯：趙云飛新智元 時(shí)間：2025-07-16 22:19:15

新智元報(bào)道
編輯：LRST
PresentAgent可以把論文、報(bào)告等長文檔一鍵變成帶真人語音和同步幻燈片的演示視頻，流程像人寫提綱、做PPT、錄音并合成。實(shí)驗(yàn)使用30份文檔與人工視頻對比測試，PresentAgent在內(nèi)容準(zhǔn)確、視覺清晰和觀眾理解上都接近人類水準(zhǔn)，可幫老師、商務(wù)人士省去大量做PPT和錄音的時(shí)間。
演示是一種廣泛使用且行之有效的信息傳達(dá)方式。通過結(jié)合視覺元素、結(jié)構(gòu)化的講解和口頭解釋，它能夠使信息逐步展開，從而讓不同受眾更容易理解。
盡管效果顯著，但將長篇文檔（如商業(yè)報(bào)告、技術(shù)手冊、政策簡報(bào)或?qū)W術(shù)論文）制作成高質(zhì)量演示視頻通常需要耗費(fèi)大量人工精力。
這個(gè)過程涉及內(nèi)容篩選、幻燈片設(shè)計(jì)、講稿撰寫、語音錄制，以及將所有內(nèi)容整合成一個(gè)連貫的多模態(tài)輸出。
盡管近年來AI在文檔轉(zhuǎn)幻燈片和文本轉(zhuǎn)視頻等領(lǐng)域取得進(jìn)展，但仍存在一個(gè)關(guān)鍵問題：這些方法要么只能生成靜態(tài)的視覺摘要，要么僅能輸出無結(jié)構(gòu)的通用視頻片段，難以勝任需要結(jié)構(gòu)化講述的演示任務(wù)。
為彌補(bǔ)這一空白，澳大利亞人工智能研究所、英國利物浦大學(xué)的研究人員提出了一個(gè)新任務(wù)：文檔到演示視頻生成（document-to-Presentation Video Generation），旨在自動將結(jié)構(gòu)化或非結(jié)構(gòu)化文檔轉(zhuǎn)化為配有語音講解和同步幻燈片的視頻演示。

論文鏈接：https://arxiv.org/pdf/2507.04036
代碼鏈接：https://github.com/AIGeeksGroup/PresentAgent
該任務(wù)的挑戰(zhàn)遠(yuǎn)超傳統(tǒng)的摘要或文本轉(zhuǎn)語音系統(tǒng)，因?yàn)樗枰?strong>選擇性內(nèi)容抽象、基于布局的視覺規(guī)劃，以及視覺與語音的精確多模態(tài)對齊。

圖1：PresentAgent 概覽。該系統(tǒng)以文檔（如網(wǎng)頁）為輸入，經(jīng)過以下生成流程：（1）文檔處理、（2）結(jié)構(gòu)化幻燈片生成、（3）同步字幕創(chuàng)建，以及（4)語音合成。最終輸出為一個(gè)結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出

圖2：評估基準(zhǔn)中的文檔多樣性
與以往只關(guān)注靜態(tài)幻燈片/圖像生成或單一語音摘要的方法不同，研究人員的目標(biāo)是構(gòu)建一個(gè)完整集成的視頻體驗(yàn)，模擬現(xiàn)實(shí)中人類演講者的信息傳遞方式。

圖3：方法框架概覽
上圖左側(cè)給定多樣的輸入文檔（如論文、網(wǎng)站、博客、幻燈片或 PDF），PresentAgent 能生成帶講解的演示視頻，輸出為同步的幻燈片和音頻。
右側(cè)設(shè)計(jì)了Presenteval，一個(gè)雙路徑的評估框架：
（1）客觀測驗(yàn)評估（上），通過 Qwen-VL 進(jìn)行事實(shí)理解檢測；
（2）主觀打分評估（下)，借助視覺-語言模型從內(nèi)容質(zhì)量、視覺設(shè)計(jì)與語音理解等維度進(jìn)行評分。
為應(yīng)對上述挑戰(zhàn)，研究人員提出了一個(gè)模塊化生成框架——PresentAgent，如圖1所示。
其流程包括：
將輸入文檔語義分塊（通過大綱規(guī)劃）；
為每個(gè)語義塊生成具有布局指導(dǎo)的幻燈片視覺內(nèi)容；
將關(guān)鍵信息重寫為口語化解說文本；
語音合成后，與幻燈片進(jìn)行時(shí)間同步，最終生成一個(gè)結(jié)構(gòu)良好、講解清晰的視頻演示。
值得一提的是，整個(gè)流程具有可控性和領(lǐng)域適應(yīng)性，適用于多種文檔類型和演示風(fēng)格。
為有效評估此類復(fù)雜多模態(tài)系統(tǒng)，研究人員整理了一個(gè)涵蓋教育、金融、政策與科研等多個(gè)領(lǐng)域的30組人工制作的文檔-演示視頻對的測試集。
同時(shí)，研究人員設(shè)計(jì)了一個(gè)雙路徑評估策略：
一方面使用固定選擇題測試內(nèi)容理解；
另一方面通過視覺語言模型打分，評估視頻的內(nèi)容質(zhì)量、視覺呈現(xiàn)與觀眾理解程度。
實(shí)驗(yàn)結(jié)果表明，該方法生成的視頻流暢、結(jié)構(gòu)合理、信息充分，在內(nèi)容傳達(dá)和觀眾理解方面接近人類表現(xiàn)。
這表明將語言模型、視覺布局生成與多模態(tài)合成結(jié)合，能夠?qū)崿F(xiàn)可解釋、可擴(kuò)展的自動演示生成系統(tǒng)。
主要貢獻(xiàn)如下：
提出新任務(wù)：首次提出“文檔到演示視頻生成”這一新任務(wù)，旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻，并配有語音解說。
設(shè)計(jì)PresentAgent系統(tǒng)：提出一個(gè)模塊化生成框架，涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步，實(shí)現(xiàn)可控、可解釋的視頻生成過程。
提出Presenteval評估框架：構(gòu)建一個(gè)由視覺語言模型驅(qū)動的多維度評估機(jī)制，從內(nèi)容、視覺與理解等維度對視頻進(jìn)行提示式評分。
構(gòu)建高質(zhì)量評測數(shù)據(jù)集：制作了一個(gè)包含30對真實(shí)文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實(shí)驗(yàn)和消融研究顯示，PresentAgent不僅接近人類表現(xiàn)，且顯著優(yōu)于現(xiàn)有方案。
演示視頻評估基準(zhǔn)
該基準(zhǔn)不僅評估視頻的流暢性與信息準(zhǔn)確性，還支持對觀眾理解程度的評估。
借鑒Paper2Poster的方法，研究人員設(shè)計(jì)了一個(gè)測驗(yàn)式評估，即通過視覺語言模型僅根據(jù)生成視頻（幻燈片+講解）回答內(nèi)容問題，以模擬觀眾的理解水平。
研究人員還引入人工制作的視頻作為參考標(biāo)準(zhǔn)，既用于評分校準(zhǔn)，也作為性能上限對比。
如圖2所示，基準(zhǔn)涵蓋四種代表性文檔類型（學(xué)術(shù)論文、網(wǎng)頁、技術(shù)博客和幻燈片），均配有真實(shí)人工講解視頻，覆蓋教育、科研、商業(yè)報(bào)告等多種真實(shí)領(lǐng)域。
示例：客觀測驗(yàn)評估（Objective Quiz evaluation）
客觀測驗(yàn)評估中的提示樣例，每組選擇題均基于源文檔真實(shí)內(nèi)容手動設(shè)計(jì)，重點(diǎn)考查主題識別、結(jié)構(gòu)理解與核心觀點(diǎn)提取能力，用于評估生成視頻是否有效傳達(dá)原始信息。

示例：主觀評分維度（Subjective Scoring prompts）
主觀評分提示示例，其中每項(xiàng)提示關(guān)注一個(gè)特定維度，旨在指導(dǎo)視覺語言模型以“人類視角”對視頻進(jìn)行評分?？s寫說明：Narr. Coh. = 講解連貫性；Comp. Diff. = 理解難度。

研究人員采用一個(gè)「統(tǒng)一的模型驅(qū)動評估框架」來對生成的演示視頻進(jìn)行評分，所有評估均使用視覺語言模型，結(jié)合針對不同維度設(shè)計(jì)的提示進(jìn)行引導(dǎo)。
該評估框架由兩部分組成：
客觀測驗(yàn)評估：通過選擇題測量視頻傳遞信息的準(zhǔn)確性；
主觀評分評估：從內(nèi)容質(zhì)量、視覺/音頻設(shè)計(jì)與理解清晰度等維度，對視頻進(jìn) 1–5分等級評分。
這兩類指標(biāo)共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系。
Doc2Present數(shù)據(jù)集介紹
為了支持文檔到演示視頻生成的評估，研究人員構(gòu)建了一個(gè)多領(lǐng)域、多文體的真實(shí)對照數(shù)據(jù)集——Doc2Present Benchmark，其中每對數(shù)據(jù)都包含一個(gè)文檔與一個(gè)配套的演示視頻。
不同于以往只關(guān)注摘要或幻燈片的基準(zhǔn)，數(shù)據(jù)包括商業(yè)報(bào)告、產(chǎn)品手冊、政策簡報(bào)、教程類文檔等，每篇文檔均配有人工制作的視頻講解。
數(shù)據(jù)來源
研究人員從公開平臺、教育資源庫和專業(yè)演示存檔中收集了30個(gè)高質(zhì)量演示視頻樣本，每個(gè)視頻都具有清晰結(jié)構(gòu)，結(jié)合了幻燈片視覺呈現(xiàn)和同步語音講解。
研究人員手動對齊每個(gè)視頻與其源文檔，并確保視頻結(jié)構(gòu)與文檔內(nèi)容一致、幻燈片視覺信息緊湊且結(jié)構(gòu)化、講解與幻燈片在時(shí)間上良好同步。
數(shù)據(jù)統(tǒng)計(jì)信息
文檔長度：約3000–8000字
視頻長度：1–2分鐘
幻燈片數(shù)量：5–10頁
這一設(shè)置強(qiáng)調(diào)了任務(wù)的核心挑戰(zhàn)：如何將密集、領(lǐng)域?qū)俚奈臋n內(nèi)容轉(zhuǎn)化為簡明易懂的多模態(tài)演示內(nèi)容。
Presenteval
為了評估生成的演示視頻的質(zhì)量，研究人員采用了兩種互補(bǔ)的評估策略：客觀選擇題評估（Objective Quiz evaluation）和主觀評分（Subjective Scoring），如圖3所示。
對于每個(gè)視頻，將幻燈片圖像和完整的講解文本作為統(tǒng)一輸入提供給視覺-語言模型，模擬真實(shí)觀眾的觀看體驗(yàn)。
在客觀評估中，模型需回答一組固定的事實(shí)性問題，以判斷視頻是否準(zhǔn)確傳達(dá)了原始文檔中的關(guān)鍵信息。
在主觀評分中，模型從三個(gè)維度對視頻進(jìn)行打分：講解的連貫性、視覺設(shè)計(jì)的清晰度與美觀性，以及整體的易理解程度。所有評估都不依賴真實(shí)參考，而完全依靠模型對呈現(xiàn)內(nèi)容的理解。
客觀選擇題評估
為了評估生成的視頻是否有效傳達(dá)了原始文檔的核心內(nèi)容，采用固定問題的理解評估協(xié)議。
研究人員為每個(gè)文檔手動設(shè)計(jì)五道多項(xiàng)選擇題，側(cè)重于主題識別、結(jié)構(gòu)理解和論點(diǎn)提取等方面。
如表1所示，評估時(shí)，視覺-語言模型接收包含幻燈片和音頻轉(zhuǎn)錄的完整視頻，并回答五個(gè)問題。
每題有四個(gè)選項(xiàng)，僅有一個(gè)正確答案，正確答案基于人工制作的視頻標(biāo)注，最終理解得分（范圍0-5）反映模型答對了幾題，衡量視頻傳達(dá)原始信息的能力。
主觀評分
為評估生成視頻的質(zhì)量，研究人員采用基于提示的視覺-語言模型評估方式，不同于依賴人工參考或固定指標(biāo)的方法，要求模型從觀眾視角出發(fā)，用自身推理與偏好打分。
評分關(guān)注三個(gè)方面：講解連貫性、幻燈片視覺效果以及整體理解難度。
模型觀看視頻與音頻內(nèi)容后，分別為每個(gè)維度打分（1–5分）并簡要解釋。具體評分提示見表2，針對不同模態(tài)和任務(wù)設(shè)計(jì)了不同的提示語，以實(shí)現(xiàn)精準(zhǔn)評估。
PresentAgent

圖4：PresentAgent框架概覽
該系統(tǒng)以多種類型的文檔（例如論文、網(wǎng)頁、PDF等）為輸入，遵循模塊化的生成流程：
首先進(jìn)行提綱生成；
接著檢索出最適合的幻燈片模板；
然后借助視覺-語言模型生成幻燈片和解說文稿；
將解說文稿通過TTS轉(zhuǎn)換為音頻，并合成為完整的演示視頻；
為了評估視頻質(zhì)量，設(shè)計(jì)了多個(gè)維度的提示語；
最后將提示輸入基于視覺語言模型（VLM）的評分模塊，輸出各個(gè)維度的指標(biāo)結(jié)果。
為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻，設(shè)計(jì)了一個(gè)多階段的生成框架，模擬人類準(zhǔn)備幻燈片與演講內(nèi)容的流程。
該方法分為四步：語義分段、結(jié)構(gòu)化幻燈片生成、口語化講解生成、可視與音頻組合為同步視頻。
該模塊化設(shè)計(jì)支持可控性、可解釋性和多模態(tài)對齊，兼顧高質(zhì)量生成與細(xì)粒度評估。下文將分別介紹各模塊。
問題定義
傳統(tǒng)方法通常直接從文檔片段C生成幻燈片元素S，如下所示：
S={e1,e2,...,en}=f(C)
該方法則視整個(gè)文檔D為整體輸入，通過三步生成演示視頻：
基于大綱規(guī)劃生成語義段落序列{C1,...,CK}；
對每段生成幻燈片Sk與口語講稿Tk（再轉(zhuǎn)為音頻）；
合成帶時(shí)間對齊的視頻V：
V=Compose({(S1,T1),...,(SK,TK)})=g(D)
該流程不依賴固定模板，而是從高層結(jié)構(gòu)出發(fā)，自底向上生成幻燈片和講解內(nèi)容，支持多模態(tài)對齊與可控生成。
幻燈片規(guī)劃與生成
幻燈片模塊借鑒了PPTAgent的結(jié)構(gòu)化編輯范式，但目標(biāo)不同——不是輸出.pptx文件，而是為視頻合成生成視覺一致的靜態(tài)幻燈片幀。流程如下：
用輕量級語言模型解析文檔，劃分語義段；
為每段匹配合適的幻燈片類型（如：項(xiàng)目符號、圖文結(jié)合、標(biāo)題介紹等）；
使用規(guī)則和語義信息將內(nèi)容映射至HTML模板；
調(diào)用操作指令（如：replace_text, insert_image}）生成最終幻燈片；
使用python-pptx或HTML渲染器渲染為靜態(tài)圖像。

講解生成與語音合成
為使幻燈片更具吸引力，研究人員為每頁幻燈片生成講解，并將其合成為語音：
針對每個(gè)語義段落，提示語言模型生成自然、簡潔的口語化講稿；
控制長度在30–150秒之間；
使用文本轉(zhuǎn)語音（TTS）系統(tǒng)生成對應(yīng)音頻；
將音頻與幻燈片匹配，形成時(shí)間對齊的素材。

視頻合成
最后一步，將靜態(tài)幻燈片圖像與配音音頻合成為完整的視頻：
每頁幻燈片持續(xù)顯示，與其音頻同步；
可添加淡入淡出過渡；
使用ffmpeg等視頻處理工具合成視頻軌；
輸出標(biāo)準(zhǔn)格式（如.mp4），便于分享或編輯。
實(shí)驗(yàn)結(jié)果
研究人員設(shè)計(jì)實(shí)驗(yàn)以驗(yàn)證PresentAgent在生成高質(zhì)量講解視頻方面的有效性。重點(diǎn)不在與已有基線方法比較，而是評估系統(tǒng)在接近人類表現(xiàn)方面的能力，特別是在Presenteval評估任務(wù)中的理解能力。
評估設(shè)置
研究人員構(gòu)建了一個(gè)包含30個(gè)長文檔的測試集，每個(gè)文檔配有人類手工制作的演示視頻作為參考，涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報(bào)等主題。
所有生成與人工視頻均使用Presenteval框架進(jìn)行評估。由于當(dāng)前尚無模型可完整評估超2分鐘的多模態(tài)視頻，采用分段評估策略：
客觀評估階段：使用Qwen-VL-2.5-3B回答固定的多項(xiàng)選擇題，評估內(nèi)容理解；
主觀評分階段：提取視頻與音頻片段，使用Qwen-Omni-7B針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。
評分依賴維度提示語，覆蓋內(nèi)容完整性、視覺設(shè)計(jì)與語音可理解性。
實(shí)現(xiàn)細(xì)節(jié)
PresentAgent采用高度模塊化的多模態(tài)生成架構(gòu)，主要特征如下：
語言理解模塊支持GPT-4o、GPT-4o-mini、Qwen-VL-Max、Gemini-2.5 Flash/Pro、Claude-3.7-Sonnet，并通過動態(tài)路由策略選擇最優(yōu)模型；
VLM評估器使用輕量級Qwen-VL-2.5-3B-Instruct，評估布局合理性、圖表可讀性和跨模態(tài)一致性；
TTS使用MegaTTS3，支持24kHz高保真合成與節(jié)奏/情感控制；
完整流程包括：
結(jié)構(gòu)解析與重排：構(gòu)建主題–子主題樹；
逐頁生成：通過LLM生成含標(biāo)題、項(xiàng)目符號、圖像占位符和替代文本的幻燈片；
配音合成與合成輸出：支持中英文發(fā)音，最終通過ffmpeg腳本合成1080p視頻，含淡入淡出與字幕。

主實(shí)驗(yàn)結(jié)果

表3：五份測試文檔的詳細(xì)評估結(jié)果
表3展示了評估結(jié)果，涵蓋了事實(shí)理解能力（測驗(yàn)準(zhǔn)確率）以及基于偏好的視頻和音頻輸出質(zhì)量評分。
在測驗(yàn)準(zhǔn)確率方面，大多數(shù)PresentAgent的變體與人工基準(zhǔn)結(jié)果（0.56）相當(dāng)甚至更優(yōu)。其中Claude-3.7-sonnet取得了最高準(zhǔn)確率0.64，表明生成內(nèi)容與源文檔之間具有較強(qiáng)的一致性。其他模型如Qwen-VL-Max和Gemini-2.5-flash得分略低（0.52），表明在事實(shí)對齊方面仍有提升空間。
在主觀質(zhì)量方面，由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而，一些PresentAgent變體表現(xiàn)出有競爭力的性能。例如，GPT-4o-Mini在視頻內(nèi)容和視覺吸引力方面獲得了最高分（均接近或達(dá)到4.8），而Claude-3.7-sonnet則在音頻質(zhì)量方面表現(xiàn)最為平衡（均分為4.53）。
有趣的是，Gemini-2.5-flash在視覺質(zhì)量上取得了最高得分（5.0），但在理解性方面較低，這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了模塊化生成流程的有效性，以及統(tǒng)一評估框架Presenteval在捕捉演示質(zhì)量多個(gè)維度方面的實(shí)用價(jià)值。
案例分析

圖5：自動生成視頻示例
圖5展示了一個(gè)完整的PresentAgent自動生成演示視頻示例，其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。
系統(tǒng)識別出結(jié)構(gòu)性片段（如引言、技術(shù)解釋等），并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片，涵蓋了“并行化工作流”“代理系統(tǒng)架構(gòu)”等技術(shù)主題，展示了系統(tǒng)在保持技術(shù)準(zhǔn)確性的同時(shí)，以清晰、對話式方式傳達(dá)信息的能力。
研究人員合成了整合視覺幻燈片、文本解說和語音音頻的演示風(fēng)格視頻，模擬了現(xiàn)實(shí)中的多模態(tài)交流場景。目前的評估方法主要關(guān)注各模態(tài)的獨(dú)立質(zhì)量，例如視覺清晰度、文本相關(guān)性以及音頻可理解性，這些維度目前被分別對待。
然而，在現(xiàn)實(shí)應(yīng)用中，溝通的有效性往往取決于各模態(tài)之間的語義與時(shí)間上的協(xié)同一致性。
因此，未來的研究應(yīng)超越孤立評估，邁向融合感知（fusion-aware）的理解與評估，意味著不僅要建模圖像、音頻和文本模態(tài)之間的交互與對齊，還需賦予系統(tǒng)在多模態(tài)語義聯(lián)合下的推理能力。
現(xiàn)有模型如ImageBind提供了多模態(tài)的統(tǒng)一嵌入空間，但在高層推理與語義理解能力方面仍有所不足。
一個(gè)有前景的方向是：將表示對齊（representation alignment）與多模態(tài)推理能力（multimodal reasoning）結(jié)合起來，構(gòu)建融合對齊的模態(tài)編碼器與強(qiáng)大的語言模型。
這將使系統(tǒng)具備對復(fù)雜多模態(tài)輸入的聯(lián)合感知、理解與響應(yīng)能力——例如，基于語音解說與視覺線索解釋某個(gè)視覺概念，或識別模態(tài)間的不一致性。
開發(fā)此類具有推理能力的融合感知模型，將是推動多模態(tài)理解向真實(shí)世界應(yīng)用場景邁進(jìn)的關(guān)鍵。
局限性與未來工作
該工作目前面臨兩個(gè)主要限制：
由于使用商業(yè)LLM/VLM API（如 GPT-4o 和 Gemini-2.5-Pro）存在高計(jì)算成本，評估僅限于5篇學(xué)術(shù)論文，可能未能充分代表該基準(zhǔn)數(shù)據(jù)集中展示的文檔多樣性；
PresentAgent當(dāng)前生成的是靜態(tài)幻燈片，尚未支持動態(tài)動畫或轉(zhuǎn)場效果，這主要受到視頻合成架構(gòu)限制以及生成速度與視覺質(zhì)量之間的權(quán)衡約束（正如 ChronoMagic-Bench中關(guān)于時(shí)間一致性的研究所指出的）。
未來的研究工作將集中在三個(gè)方向：
第一，通過引入更多種類的開源大模型作為基礎(chǔ)，包括多種架構(gòu)設(shè)計(jì)、能力范圍和微調(diào)策略，拓展至更多類別的文檔，以支持更廣泛的生成與評估任務(wù)，覆蓋教育、政策、商業(yè)等實(shí)際場景，力求實(shí)現(xiàn)系統(tǒng)能力的全面評估；
第二，通過優(yōu)化視頻合成架構(gòu)，引入動態(tài)動畫能力，在保證生成效率的同時(shí)提升視覺表現(xiàn)，適配復(fù)雜的場景轉(zhuǎn)場；
第三，探索輕量級蒸餾方法與具備物理感知能力的渲染引擎，從而提升生成效率、寫實(shí)程度和對不同硬件環(huán)境的適應(yīng)性。
結(jié)論
研究人員提出了PresentAgent，一個(gè)用于將長篇文本文檔轉(zhuǎn)換為帶有語音講解的演示視頻的模塊化系統(tǒng)。通過系統(tǒng)性地處理幻燈片規(guī)劃、語音解說合成以及視音同步渲染等流程，PresentAgent 支持對多種類型文檔的可控生成與復(fù)用的多模態(tài)輸出。
為支持嚴(yán)格評估，研究人員構(gòu)建了文檔–視頻對齊的基準(zhǔn)數(shù)據(jù)集，并提出了雙重評估策略：事實(shí)問答與基于偏好的視覺語言評分。實(shí)驗(yàn)結(jié)果（包括消融實(shí)驗(yàn)與模型對比）表明，PresentAgent 能夠生成結(jié)構(gòu)清晰、表達(dá)生動且信息密集的演示內(nèi)容，整體效果接近人類水準(zhǔn)。
結(jié)果展示了融合語言模型與視覺模型在可解釋且面向觀眾的內(nèi)容生成方面的潛力，為未來在教育、商業(yè)、無障礙傳播等場景中的自動化、可控多模態(tài)生成研究奠定了基礎(chǔ)。
參考資料：
https://arxiv.org/pdf/2507.04036

免責(zé)聲明：本網(wǎng)信息來自于互聯(lián)網(wǎng)，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系我們，本站將會在24小時(shí)內(nèi)處理完畢。

同類資訊

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動與手機(jī)廠商合作，AI手機(jī)的“鴻蒙智行”時(shí)代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點(diǎn)待解

全站最新

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

熱門推薦

消息稱某廠新機(jī)將全系搭載1216雙揚(yáng)聲器等，或?yàn)闃s耀WIN

Altman直面1.4萬億美元質(zhì)疑：只要算力還短缺，OpenAI就必須繼續(xù)燒錢

閃電快訊｜摩爾線程GPU技術(shù)路線圖首次公開，展示全棧技術(shù)成果

奧爾特曼腦機(jī)公司分拆獨(dú)立，要用超聲波“聽”你的想法

谷歌仍是最大威脅！奧爾特曼坦言O(shè)penAI將常態(tài)化AI紅色警報(bào)

香港創(chuàng)科局張曼莉最新發(fā)聲！

「真還傳」后，首次開講科技春晚，羅永浩要祭出什么大招？

字節(jié)跳動與手機(jī)廠商合作，AI手機(jī)的“鴻蒙智行”時(shí)代要來了？

消息稱蘋果為iPhone Fold嘗試UFG玻璃，技術(shù)難點(diǎn)待解

QCY N20耳機(jī)開啟新品預(yù)約，129元享大動圈與50dB降噪

摩爾線程發(fā)布新一代GPU架構(gòu)，打造MUSA生態(tài)對標(biāo)英偉達(dá)CUDA

預(yù)售價(jià)9999元，摩爾線程發(fā)布AI算力筆記本

國產(chǎn)算力邁入“萬卡”時(shí)代：摩爾線程發(fā)布新一代GPU架構(gòu)，中科曙光發(fā)布萬卡超集群

全球首臺商用超臨界二氧化碳發(fā)電機(jī)組成功商運(yùn)

ESG戰(zhàn)略升級：AI與綠色金融賦能從成本壓力到全球競爭力

首頁

資訊

財(cái)經(jīng)號

智能車

專題

電商資訊

人物資訊

滾動資訊

首頁

新科技

新金融

新零售

智能車

房地產(chǎn)

科技探索

人物資訊

網(wǎng)絡(luò)游戲

人工智能

一鍵實(shí)現(xiàn)PPT演講自由！「解說音頻+視頻」同步生成，效果逼近真人

首頁

資訊

財(cái)經(jīng)號

智能車

專題

電商資訊

人物資訊

滾動資訊

一鍵實(shí)現(xiàn)PPT演講自由！「解說音頻+視頻」同步生成，效果逼近真人

同類資訊

一鍵實(shí)現(xiàn)PPT演講自由！「解說音頻+視頻」同步生成，效果逼近真人