亚洲狼人综合干_国产成人自拍网_97久草视频_日韩欧美在线网站_国产福利精品av综合导导航_粉嫩13p一区二区三区_成年人视频网站免费观看_国产亚洲综合久久_秋霞精品一区二区三区_国产精品99久久久久久久久_美女日韩在线中文字幕_久久免费在线观看

當(dāng)前位置: 首頁 ? 資訊 ? 新科技 ? 正文

一鍵實(shí)現(xiàn)PPT演講自由!「解說音頻+視頻」同步生成,效果逼近真人

IP屬地 中國·北京 編輯:趙云飛 新智元 時(shí)間:2025-07-16 22:19:15


新智元報(bào)道

編輯:LRST

PresentAgent可以把論文、報(bào)告等長文檔一鍵變成帶真人語音和同步幻燈片的演示視頻,流程像人寫提綱、做PPT、錄音并合成。實(shí)驗(yàn)使用30份文檔與人工視頻對比測試,PresentAgent在內(nèi)容準(zhǔn)確、視覺清晰和觀眾理解上都接近人類水準(zhǔn),可幫老師、商務(wù)人士省去大量做PPT和錄音的時(shí)間。

演示是一種廣泛使用且行之有效的信息傳達(dá)方式。通過結(jié)合視覺元素、結(jié)構(gòu)化的講解和口頭解釋,它能夠使信息逐步展開,從而讓不同受眾更容易理解。

盡管效果顯著,但將長篇文檔(如商業(yè)報(bào)告、技術(shù)手冊、政策簡報(bào)或?qū)W術(shù)論文)制作成高質(zhì)量演示視頻通常需要耗費(fèi)大量人工精力。

這個(gè)過程涉及內(nèi)容篩選、幻燈片設(shè)計(jì)、講稿撰寫、語音錄制,以及將所有內(nèi)容整合成一個(gè)連貫的多模態(tài)輸出。

盡管近年來AI在文檔轉(zhuǎn)幻燈片和文本轉(zhuǎn)視頻等領(lǐng)域取得進(jìn)展,但仍存在一個(gè)關(guān)鍵問題:這些方法要么只能生成靜態(tài)的視覺摘要,要么僅能輸出無結(jié)構(gòu)的通用視頻片段,難以勝任需要結(jié)構(gòu)化講述的演示任務(wù)。

為彌補(bǔ)這一空白,澳大利亞人工智能研究所、英國利物浦大學(xué)的研究人員提出了一個(gè)新任務(wù):文檔到演示視頻生成(document-to-Presentation Video Generation),旨在自動將結(jié)構(gòu)化或非結(jié)構(gòu)化文檔轉(zhuǎn)化為配有語音講解和同步幻燈片的視頻演示。


論文鏈接:https://arxiv.org/pdf/2507.04036

代碼鏈接:https://github.com/AIGeeksGroup/PresentAgent

該任務(wù)的挑戰(zhàn)遠(yuǎn)超傳統(tǒng)的摘要或文本轉(zhuǎn)語音系統(tǒng),因?yàn)樗枰?strong>選擇性內(nèi)容抽象、基于布局的視覺規(guī)劃,以及視覺與語音的精確多模態(tài)對齊。


圖1:PresentAgent 概覽。該系統(tǒng)以文檔(如網(wǎng)頁)為輸入,經(jīng)過以下生成流程:(1)文檔處理、(2)結(jié)構(gòu)化幻燈片生成、(3)同步字幕創(chuàng)建,以及(4)語音合成。最終輸出為一個(gè)結(jié)合幻燈片和同步講解的演示視頻。圖中紫色高亮部分表示生成過程中的關(guān)鍵中間輸出


圖2:評估基準(zhǔn)中的文檔多樣性

與以往只關(guān)注靜態(tài)幻燈片/圖像生成或單一語音摘要的方法不同,研究人員的目標(biāo)是構(gòu)建一個(gè)完整集成的視頻體驗(yàn),模擬現(xiàn)實(shí)中人類演講者的信息傳遞方式。


圖3:方法框架概覽

上圖左側(cè)給定多樣的輸入文檔(如論文、網(wǎng)站、博客、幻燈片或 PDF),PresentAgent 能生成帶講解的演示視頻,輸出為同步的幻燈片和音頻。

右側(cè)設(shè)計(jì)了Presenteval,一個(gè)雙路徑的評估框架:

(1)客觀測驗(yàn)評估(上),通過 Qwen-VL 進(jìn)行事實(shí)理解檢測;

(2)主觀打分評估(下),借助視覺-語言模型從內(nèi)容質(zhì)量、視覺設(shè)計(jì)與語音理解等維度進(jìn)行評分。

為應(yīng)對上述挑戰(zhàn),研究人員提出了一個(gè)模塊化生成框架——PresentAgent,如圖1所示。

其流程包括:

將輸入文檔語義分塊(通過大綱規(guī)劃);

為每個(gè)語義塊生成具有布局指導(dǎo)的幻燈片視覺內(nèi)容;

將關(guān)鍵信息重寫為口語化解說文本;

語音合成后,與幻燈片進(jìn)行時(shí)間同步,最終生成一個(gè)結(jié)構(gòu)良好、講解清晰的視頻演示。

值得一提的是,整個(gè)流程具有可控性和領(lǐng)域適應(yīng)性,適用于多種文檔類型和演示風(fēng)格。

為有效評估此類復(fù)雜多模態(tài)系統(tǒng),研究人員整理了一個(gè)涵蓋教育、金融、政策與科研等多個(gè)領(lǐng)域的30組人工制作的文檔-演示視頻對的測試集。

同時(shí),研究人員設(shè)計(jì)了一個(gè)雙路徑評估策略

一方面使用固定選擇題測試內(nèi)容理解;

另一方面通過視覺語言模型打分,評估視頻的內(nèi)容質(zhì)量、視覺呈現(xiàn)與觀眾理解程度。

實(shí)驗(yàn)結(jié)果表明,該方法生成的視頻流暢、結(jié)構(gòu)合理、信息充分,在內(nèi)容傳達(dá)和觀眾理解方面接近人類表現(xiàn)。

這表明將語言模型、視覺布局生成與多模態(tài)合成結(jié)合,能夠?qū)崿F(xiàn)可解釋、可擴(kuò)展的自動演示生成系統(tǒng)。

主要貢獻(xiàn)如下:

提出新任務(wù):首次提出“文檔到演示視頻生成”這一新任務(wù),旨在從各類長文本自動生成結(jié)構(gòu)化的幻燈片視頻,并配有語音解說。

設(shè)計(jì)PresentAgent系統(tǒng):提出一個(gè)模塊化生成框架,涵蓋文檔解析、布局感知幻燈片構(gòu)建、講稿生成及音視同步,實(shí)現(xiàn)可控、可解釋的視頻生成過程。

提出Presenteval評估框架:構(gòu)建一個(gè)由視覺語言模型驅(qū)動的多維度評估機(jī)制,從內(nèi)容、視覺與理解等維度對視頻進(jìn)行提示式評分。

構(gòu)建高質(zhì)量評測數(shù)據(jù)集:制作了一個(gè)包含30對真實(shí)文檔與對應(yīng)演示視頻的數(shù)據(jù)集。實(shí)驗(yàn)和消融研究顯示,PresentAgent不僅接近人類表現(xiàn),且顯著優(yōu)于現(xiàn)有方案。

演示視頻評估基準(zhǔn)

該基準(zhǔn)不僅評估視頻的流暢性與信息準(zhǔn)確性,還支持對觀眾理解程度的評估。

借鑒Paper2Poster的方法,研究人員設(shè)計(jì)了一個(gè)測驗(yàn)式評估,即通過視覺語言模型僅根據(jù)生成視頻(幻燈片+講解)回答內(nèi)容問題,以模擬觀眾的理解水平。

研究人員還引入人工制作的視頻作為參考標(biāo)準(zhǔn),既用于評分校準(zhǔn),也作為性能上限對比。

如圖2所示,基準(zhǔn)涵蓋四種代表性文檔類型(學(xué)術(shù)論文、網(wǎng)頁、技術(shù)博客和幻燈片),均配有真實(shí)人工講解視頻,覆蓋教育、科研、商業(yè)報(bào)告等多種真實(shí)領(lǐng)域。

示例:客觀測驗(yàn)評估(Objective Quiz evaluation)

客觀測驗(yàn)評估中的提示樣例,每組選擇題均基于源文檔真實(shí)內(nèi)容手動設(shè)計(jì),重點(diǎn)考查主題識別、結(jié)構(gòu)理解與核心觀點(diǎn)提取能力,用于評估生成視頻是否有效傳達(dá)原始信息。


示例:主觀評分維度(Subjective Scoring prompts)

主觀評分提示示例,其中每項(xiàng)提示關(guān)注一個(gè)特定維度,旨在指導(dǎo)視覺語言模型以“人類視角”對視頻進(jìn)行評分??s寫說明:Narr. Coh. = 講解連貫性;Comp. Diff. = 理解難度。


研究人員采用一個(gè)「統(tǒng)一的模型驅(qū)動評估框架」來對生成的演示視頻進(jìn)行評分,所有評估均使用視覺語言模型,結(jié)合針對不同維度設(shè)計(jì)的提示進(jìn)行引導(dǎo)。

該評估框架由兩部分組成:

客觀測驗(yàn)評估:通過選擇題測量視頻傳遞信息的準(zhǔn)確性;

主觀評分評估:從內(nèi)容質(zhì)量、視覺/音頻設(shè)計(jì)與理解清晰度等維度,對視頻進(jìn) 1–5分等級評分。

這兩類指標(biāo)共同構(gòu)成了對生成視頻的全面質(zhì)量評估體系

Doc2Present數(shù)據(jù)集介紹

為了支持文檔到演示視頻生成的評估,研究人員構(gòu)建了一個(gè)多領(lǐng)域、多文體的真實(shí)對照數(shù)據(jù)集——Doc2Present Benchmark,其中每對數(shù)據(jù)都包含一個(gè)文檔與一個(gè)配套的演示視頻。

不同于以往只關(guān)注摘要或幻燈片的基準(zhǔn),數(shù)據(jù)包括商業(yè)報(bào)告、產(chǎn)品手冊、政策簡報(bào)、教程類文檔等,每篇文檔均配有人工制作的視頻講解。

數(shù)據(jù)來源

研究人員從公開平臺、教育資源庫和專業(yè)演示存檔中收集了30個(gè)高質(zhì)量演示視頻樣本,每個(gè)視頻都具有清晰結(jié)構(gòu),結(jié)合了幻燈片視覺呈現(xiàn)和同步語音講解。

研究人員手動對齊每個(gè)視頻與其源文檔,并確保視頻結(jié)構(gòu)與文檔內(nèi)容一致、幻燈片視覺信息緊湊且結(jié)構(gòu)化、講解與幻燈片在時(shí)間上良好同步。

數(shù)據(jù)統(tǒng)計(jì)信息

文檔長度:約3000–8000字

視頻長度:1–2分鐘

幻燈片數(shù)量:5–10頁

這一設(shè)置強(qiáng)調(diào)了任務(wù)的核心挑戰(zhàn):如何將密集、領(lǐng)域?qū)俚奈臋n內(nèi)容轉(zhuǎn)化為簡明易懂的多模態(tài)演示內(nèi)容。

Presenteval

為了評估生成的演示視頻的質(zhì)量,研究人員采用了兩種互補(bǔ)的評估策略:客觀選擇題評估(Objective Quiz evaluation)和主觀評分(Subjective Scoring),如圖3所示。

對于每個(gè)視頻,將幻燈片圖像和完整的講解文本作為統(tǒng)一輸入提供給視覺-語言模型,模擬真實(shí)觀眾的觀看體驗(yàn)。

在客觀評估中,模型需回答一組固定的事實(shí)性問題,以判斷視頻是否準(zhǔn)確傳達(dá)了原始文檔中的關(guān)鍵信息。

在主觀評分中,模型從三個(gè)維度對視頻進(jìn)行打分:講解的連貫性、視覺設(shè)計(jì)的清晰度與美觀性,以及整體的易理解程度。所有評估都不依賴真實(shí)參考,而完全依靠模型對呈現(xiàn)內(nèi)容的理解。

客觀選擇題評估

為了評估生成的視頻是否有效傳達(dá)了原始文檔的核心內(nèi)容,采用固定問題的理解評估協(xié)議。

研究人員為每個(gè)文檔手動設(shè)計(jì)五道多項(xiàng)選擇題,側(cè)重于主題識別、結(jié)構(gòu)理解和論點(diǎn)提取等方面。

如表1所示,評估時(shí),視覺-語言模型接收包含幻燈片和音頻轉(zhuǎn)錄的完整視頻,并回答五個(gè)問題。

每題有四個(gè)選項(xiàng),僅有一個(gè)正確答案,正確答案基于人工制作的視頻標(biāo)注,最終理解得分(范圍0-5)反映模型答對了幾題,衡量視頻傳達(dá)原始信息的能力。

主觀評分

為評估生成視頻的質(zhì)量,研究人員采用基于提示的視覺-語言模型評估方式,不同于依賴人工參考或固定指標(biāo)的方法,要求模型從觀眾視角出發(fā),用自身推理與偏好打分。

評分關(guān)注三個(gè)方面:講解連貫性、幻燈片視覺效果以及整體理解難度。

模型觀看視頻與音頻內(nèi)容后,分別為每個(gè)維度打分(1–5分)并簡要解釋。具體評分提示見表2,針對不同模態(tài)和任務(wù)設(shè)計(jì)了不同的提示語,以實(shí)現(xiàn)精準(zhǔn)評估。

PresentAgent


圖4:PresentAgent框架概覽

該系統(tǒng)以多種類型的文檔(例如論文、網(wǎng)頁、PDF等)為輸入,遵循模塊化的生成流程:

首先進(jìn)行提綱生成;

接著檢索出最適合的幻燈片模板;

然后借助視覺-語言模型生成幻燈片和解說文稿;

將解說文稿通過TTS轉(zhuǎn)換為音頻,并合成為完整的演示視頻;

為了評估視頻質(zhì)量,設(shè)計(jì)了多個(gè)維度的提示語;

最后將提示輸入基于視覺語言模型(VLM)的評分模塊,輸出各個(gè)維度的指標(biāo)結(jié)果。

為了將長文本文檔轉(zhuǎn)化為帶口語化講解的演示視頻,設(shè)計(jì)了一個(gè)多階段的生成框架,模擬人類準(zhǔn)備幻燈片與演講內(nèi)容的流程。

該方法分為四步:語義分段、結(jié)構(gòu)化幻燈片生成、口語化講解生成、可視與音頻組合為同步視頻。

該模塊化設(shè)計(jì)支持可控性、可解釋性和多模態(tài)對齊,兼顧高質(zhì)量生成與細(xì)粒度評估。下文將分別介紹各模塊。

問題定義

傳統(tǒng)方法通常直接從文檔片段C生成幻燈片元素S,如下所示:

S={e1,e2,...,en}=f(C)

該方法則視整個(gè)文檔D為整體輸入,通過三步生成演示視頻:

基于大綱規(guī)劃生成語義段落序列{C1,...,CK};

對每段生成幻燈片Sk與口語講稿Tk(再轉(zhuǎn)為音頻);

合成帶時(shí)間對齊的視頻V:

V=Compose({(S1,T1),...,(SK,TK)})=g(D)

該流程不依賴固定模板,而是從高層結(jié)構(gòu)出發(fā),自底向上生成幻燈片和講解內(nèi)容,支持多模態(tài)對齊與可控生成。

幻燈片規(guī)劃與生成

幻燈片模塊借鑒了PPTAgent的結(jié)構(gòu)化編輯范式,但目標(biāo)不同——不是輸出.pptx文件,而是為視頻合成生成視覺一致的靜態(tài)幻燈片幀。流程如下:

用輕量級語言模型解析文檔,劃分語義段;

為每段匹配合適的幻燈片類型(如:項(xiàng)目符號、圖文結(jié)合、標(biāo)題介紹等);

使用規(guī)則和語義信息將內(nèi)容映射至HTML模板;

調(diào)用操作指令(如:replace_text, insert_image})生成最終幻燈片;

使用python-pptx或HTML渲染器渲染為靜態(tài)圖像。


講解生成與語音合成

為使幻燈片更具吸引力,研究人員為每頁幻燈片生成講解,并將其合成為語音:

針對每個(gè)語義段落,提示語言模型生成自然、簡潔的口語化講稿;

控制長度在30–150秒之間;

使用文本轉(zhuǎn)語音(TTS)系統(tǒng)生成對應(yīng)音頻;

將音頻與幻燈片匹配,形成時(shí)間對齊的素材。


視頻合成

最后一步,將靜態(tài)幻燈片圖像與配音音頻合成為完整的視頻:

每頁幻燈片持續(xù)顯示,與其音頻同步;

可添加淡入淡出過渡;

使用ffmpeg等視頻處理工具合成視頻軌;

輸出標(biāo)準(zhǔn)格式(如.mp4),便于分享或編輯。

實(shí)驗(yàn)結(jié)果

研究人員設(shè)計(jì)實(shí)驗(yàn)以驗(yàn)證PresentAgent在生成高質(zhì)量講解視頻方面的有效性。重點(diǎn)不在與已有基線方法比較,而是評估系統(tǒng)在接近人類表現(xiàn)方面的能力,特別是在Presenteval評估任務(wù)中的理解能力。

評估設(shè)置

研究人員構(gòu)建了一個(gè)包含30個(gè)長文檔的測試集,每個(gè)文檔配有人類手工制作的演示視頻作為參考,涵蓋教育、產(chǎn)品說明、科研綜述與政策簡報(bào)等主題。

所有生成與人工視頻均使用Presenteval框架進(jìn)行評估。由于當(dāng)前尚無模型可完整評估超2分鐘的多模態(tài)視頻,采用分段評估策略:

客觀評估階段:使用Qwen-VL-2.5-3B回答固定的多項(xiàng)選擇題,評估內(nèi)容理解;

主觀評分階段:提取視頻與音頻片段,使用Qwen-Omni-7B針對內(nèi)容質(zhì)量、視覺/聽覺質(zhì)量和理解難度分別打分。

評分依賴維度提示語,覆蓋內(nèi)容完整性、視覺設(shè)計(jì)與語音可理解性。

實(shí)現(xiàn)細(xì)節(jié)

PresentAgent采用高度模塊化的多模態(tài)生成架構(gòu),主要特征如下:

語言理解模塊支持GPT-4o、GPT-4o-mini、Qwen-VL-Max、Gemini-2.5 Flash/Pro、Claude-3.7-Sonnet,并通過動態(tài)路由策略選擇最優(yōu)模型;

VLM評估器使用輕量級Qwen-VL-2.5-3B-Instruct,評估布局合理性、圖表可讀性和跨模態(tài)一致性;

TTS使用MegaTTS3,支持24kHz高保真合成與節(jié)奏/情感控制;

完整流程包括:

結(jié)構(gòu)解析與重排:構(gòu)建主題–子主題樹;

逐頁生成:通過LLM生成含標(biāo)題、項(xiàng)目符號、圖像占位符和替代文本的幻燈片;

配音合成與合成輸出:支持中英文發(fā)音,最終通過ffmpeg腳本合成1080p視頻,含淡入淡出與字幕。


主實(shí)驗(yàn)結(jié)果


表3:五份測試文檔的詳細(xì)評估結(jié)果

表3展示了評估結(jié)果,涵蓋了事實(shí)理解能力(測驗(yàn)準(zhǔn)確率)以及基于偏好的視頻和音頻輸出質(zhì)量評分。

在測驗(yàn)準(zhǔn)確率方面,大多數(shù)PresentAgent的變體與人工基準(zhǔn)結(jié)果(0.56)相當(dāng)甚至更優(yōu)。其中Claude-3.7-sonnet取得了最高準(zhǔn)確率0.64,表明生成內(nèi)容與源文檔之間具有較強(qiáng)的一致性。其他模型如Qwen-VL-Max和Gemini-2.5-flash得分略低(0.52),表明在事實(shí)對齊方面仍有提升空間。

在主觀質(zhì)量方面,由人類制作的演示仍在視頻和音頻整體評分上保持領(lǐng)先。然而,一些PresentAgent變體表現(xiàn)出有競爭力的性能。例如,GPT-4o-Mini在視頻內(nèi)容和視覺吸引力方面獲得了最高分(均接近或達(dá)到4.8),而Claude-3.7-sonnet則在音頻質(zhì)量方面表現(xiàn)最為平衡(均分為4.53)。

有趣的是,Gemini-2.5-flash在視覺質(zhì)量上取得了最高得分(5.0),但在理解性方面較低,這反映了美觀性與清晰度之間的權(quán)衡。這些結(jié)果突顯了模塊化生成流程的有效性,以及統(tǒng)一評估框架Presenteval在捕捉演示質(zhì)量多個(gè)維度方面的實(shí)用價(jià)值。

案例分析


圖5:自動生成視頻示例

圖5展示了一個(gè)完整的PresentAgent自動生成演示視頻示例,其中一篇技術(shù)博客被轉(zhuǎn)化為帶解說的演示。

系統(tǒng)識別出結(jié)構(gòu)性片段(如引言、技術(shù)解釋等),并為其生成了包含口語風(fēng)格字幕和同步語音的幻燈片,涵蓋了“并行化工作流”“代理系統(tǒng)架構(gòu)”等技術(shù)主題,展示了系統(tǒng)在保持技術(shù)準(zhǔn)確性的同時(shí),以清晰、對話式方式傳達(dá)信息的能力。

研究人員合成了整合視覺幻燈片、文本解說和語音音頻的演示風(fēng)格視頻,模擬了現(xiàn)實(shí)中的多模態(tài)交流場景。目前的評估方法主要關(guān)注各模態(tài)的獨(dú)立質(zhì)量,例如視覺清晰度、文本相關(guān)性以及音頻可理解性,這些維度目前被分別對待。

然而,在現(xiàn)實(shí)應(yīng)用中,溝通的有效性往往取決于各模態(tài)之間的語義與時(shí)間上的協(xié)同一致性。

因此,未來的研究應(yīng)超越孤立評估,邁向融合感知(fusion-aware)的理解與評估,意味著不僅要建模圖像、音頻和文本模態(tài)之間的交互與對齊,還需賦予系統(tǒng)在多模態(tài)語義聯(lián)合下的推理能力。

現(xiàn)有模型如ImageBind提供了多模態(tài)的統(tǒng)一嵌入空間,但在高層推理與語義理解能力方面仍有所不足。

一個(gè)有前景的方向是:將表示對齊(representation alignment)多模態(tài)推理能力(multimodal reasoning)結(jié)合起來,構(gòu)建融合對齊的模態(tài)編碼器與強(qiáng)大的語言模型。

這將使系統(tǒng)具備對復(fù)雜多模態(tài)輸入的聯(lián)合感知、理解與響應(yīng)能力——例如,基于語音解說與視覺線索解釋某個(gè)視覺概念,或識別模態(tài)間的不一致性。

開發(fā)此類具有推理能力的融合感知模型,將是推動多模態(tài)理解向真實(shí)世界應(yīng)用場景邁進(jìn)的關(guān)鍵。

局限性與未來工作

該工作目前面臨兩個(gè)主要限制:

由于使用商業(yè)LLM/VLM API(如 GPT-4o 和 Gemini-2.5-Pro)存在高計(jì)算成本,評估僅限于5篇學(xué)術(shù)論文,可能未能充分代表該基準(zhǔn)數(shù)據(jù)集中展示的文檔多樣性;

PresentAgent當(dāng)前生成的是靜態(tài)幻燈片,尚未支持動態(tài)動畫或轉(zhuǎn)場效果,這主要受到視頻合成架構(gòu)限制以及生成速度與視覺質(zhì)量之間的權(quán)衡約束(正如 ChronoMagic-Bench中關(guān)于時(shí)間一致性的研究所指出的)。

未來的研究工作將集中在三個(gè)方向:

第一,通過引入更多種類的開源大模型作為基礎(chǔ),包括多種架構(gòu)設(shè)計(jì)、能力范圍和微調(diào)策略,拓展至更多類別的文檔,以支持更廣泛的生成與評估任務(wù),覆蓋教育、政策、商業(yè)等實(shí)際場景,力求實(shí)現(xiàn)系統(tǒng)能力的全面評估;

第二,通過優(yōu)化視頻合成架構(gòu),引入動態(tài)動畫能力,在保證生成效率的同時(shí)提升視覺表現(xiàn),適配復(fù)雜的場景轉(zhuǎn)場;

第三,探索輕量級蒸餾方法與具備物理感知能力的渲染引擎,從而提升生成效率、寫實(shí)程度和對不同硬件環(huán)境的適應(yīng)性。

結(jié)論

研究人員提出了PresentAgent,一個(gè)用于將長篇文本文檔轉(zhuǎn)換為帶有語音講解的演示視頻的模塊化系統(tǒng)。通過系統(tǒng)性地處理幻燈片規(guī)劃、語音解說合成以及視音同步渲染等流程,PresentAgent 支持對多種類型文檔的可控生成與復(fù)用的多模態(tài)輸出。

為支持嚴(yán)格評估,研究人員構(gòu)建了文檔–視頻對齊的基準(zhǔn)數(shù)據(jù)集,并提出了雙重評估策略:事實(shí)問答與基于偏好的視覺語言評分。實(shí)驗(yàn)結(jié)果(包括消融實(shí)驗(yàn)與模型對比)表明,PresentAgent 能夠生成結(jié)構(gòu)清晰、表達(dá)生動且信息密集的演示內(nèi)容,整體效果接近人類水準(zhǔn)。

結(jié)果展示了融合語言模型與視覺模型在可解釋且面向觀眾的內(nèi)容生成方面的潛力,為未來在教育、商業(yè)、無障礙傳播等場景中的自動化、可控多模態(tài)生成研究奠定了基礎(chǔ)。

參考資料:

https://arxiv.org/pdf/2507.04036


免責(zé)聲明:本網(wǎng)信息來自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其內(nèi)容真實(shí)性、完整性不作任何保證或承諾。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系我們,本站將會在24小時(shí)內(nèi)處理完畢。

全站最新
男女私大尺度视频| 青青草国产成人99久久| 欧美日韩精品高清| 中国黄色片免费看| 大桥未久av一区二区三区中文| 少妇久久久久久| 免费在线一级片| 欧美综合一区二区| 国产一级伦理片| 欧美视频不卡中文| 性感美女一区二区三区| 亚洲欧美日韩中文字幕一区二区三区 | 99久久亚洲精品日本无码| 欧洲成人免费aa| 少妇视频一区二区| 欧美美女直播网站| 国产第一页精品| 精品国产一区二区国模嫣然| 神马久久精品综合| 欧美精品www在线观看| 999免费视频| 国产一级特黄a大片99| a在线欧美一区| 咪咪色在线视频| 成人国产精品免费观看动漫 | 国产一区二区在线播放| 极品少妇xxxx偷拍精品少妇| 成人av资源网| 久久影院电视剧免费观看| 中文字幕乱码人妻综合二区三区| 一区二区三区免费| 欧美 国产 日本| 欧美精品在线观看播放| 毛片基地在线观看| 欧美激情在线播放| 精品一区二区三区免费观看| 亚洲视频电影| 亚洲一级二级在线| 久久福利免费视频| 成人情趣片在线观看免费| 捆绑紧缚一区二区三区视频| 国产高清精品在线观看| 精品国产91久久久久久久妲己| 韩国av中文字幕| 国产a∨精品一区二区三区不卡| 亚洲国产精品二区| 国产欧美综合一区| 亚洲午夜久久久久久久久久久 | 久久最新资源网| 国模私拍视频在线| 欧美黄色免费影院| 欧美日韩高清一区二区三区| 国产三级理论片| 成人网欧美在线视频| 亚洲少妇屁股交4| 日本午夜精品视频| 国产欧美一区二区视频| 色综合色狠狠综合色| 国产精品视频一区在线观看| 午夜欧美性电影| 五月激情综合网| 中国美女黄色一级片| 51国产成人精品午夜福中文下载| 亚洲图片一区二区| 亚洲AV无码成人精品区东京热| 成人午夜电影免费在线观看| 日韩欧美成人网| 少妇人妻丰满做爰xxx| 国产精品xxx视频| 亚洲综合在线五月| 激情综合网五月天| 91手机在线视频| 一区二区三区在线视频免费| 久久这里只有精品国产| 国产精品香蕉视屏| 精品国产凹凸成av人网站| 狠狠色综合色综合网络| 波多野结衣三级视频| 热草久综合在线| 亚洲免费看黄网站| 美女又爽又黄免费视频| 国产精品入口芒果| 亚洲美腿欧美激情另类| av一区二区三区| 伊人影院综合网| 国产二区一区| 欧美午夜精品伦理| 久久久精品毛片| 国产精品亚洲天堂| 亚洲福利视频网站| 国产欧美日韩卡一| 波多野结衣电车痴汉| 亚洲国内在线| 欧美激情精品久久久久久| 9l国产精品久久久久麻豆| 九九热在线免费观看| 美女少妇一区二区| 欧美性做爰毛片| 一区二区三区在线高清| 丝袜美腿亚洲综合| 性欧美一区二区| 毛片av在线播放| 国产精品久久久久久久久免费看| 欧美精品日韩综合在线| 99re成人在线| 国产一级18片视频| 男人添女荫道口图片| 国产激情999| 亚洲精品在线网站| 亚洲激情成人在线| 免费观看久久久4p| 在线永久看片免费的视频| 免费网站在线观看视频| 91精品国产91久久久| 精品国免费一区二区三区| 国产精品久久久久久久第一福利 | 在线中文字幕网站| 欧美激情国产精品日韩| 久久精品二区| 国产精品96久久久久久| 欧美日本在线播放| 亚洲欧美区自拍先锋| 成人av先锋影音| 一级黄在线观看| 人妻体内射精一区二区| 亚洲成人第一| 99久久无色码| 全球成人中文在线| 精品免费视频一区二区| 99久久精品免费看国产免费软件| www亚洲视频| 欧美性猛交乱大交| 男人添女人荫蒂免费视频| 久久riav二区三区| 成人在线小视频| 久久久久久有精品国产| 色狠狠综合天天综合综合| 中国av一区二区三区| 久久久亚洲一区| 99视频在线观看免费| 可以免费看的av毛片| 日本高清黄色片| 91丝袜超薄交口足| 黄色污污在线观看| 精品在线视频一区二区| 国产在线观看精品一区二区三区| 91国产精品91| 欧美一区三区三区高中清蜜桃| 日韩av网站在线| 亚洲精品一区二区久| 欧美高清视频一二三区| 欧美一级片免费看| 亚洲综合免费观看高清完整版在线 | 一级淫片在线观看| 91精品视频国产| 欧美熟妇另类久久久久久多毛| 欧洲熟妇精品视频| 日韩欧美国产综合在线| 久章草在线视频| 特级西西人体www高清大胆| 黄色小视频大全| 日韩精品一区二区三区不卡| 99久久国产综合精品五月天喷水| 久久久久久久久久久久久国产| 欧美日韩激情四射| 少妇一晚三次一区二区三区| 4444在线观看| 奇米视频888| 亚洲天堂网站在线| yy6080午夜| 久久免费手机视频| 日本成人午夜影院| 日韩手机在线观看| 中文字幕在线播出| 亚洲AV无码国产精品午夜字幕 | 午夜福利三级理论电影| 亚洲欧美日本一区二区| 日韩av无码一区二区三区不卡| 熟女少妇a性色生活片毛片| 精品小视频在线观看| 激情综合五月网| 亚洲熟妇av乱码在线观看| 老牛影视av牛牛影视av| 成人一道本在线| 国产午夜精品福利| 精品久久久久久久久久| 日韩av网站电影| 69av在线视频| 日本视频久久久| 国产日韩欧美精品| 一区二区三区我不卡| 好男人www社区| 天堂网avav| 色呦呦中文字幕| 国产美女视频一区| 狠狠久久亚洲欧美专区| 日韩中文字幕免费| 国产精品精品视频| www.午夜色| av电影中文字幕| 中文字幕精品视频在线观看| 日韩高清不卡一区二区三区| 欧美高清在线视频| 欧洲在线/亚洲| 久久亚洲影音av资源网| 国产日韩精品一区观看| 一级黄色免费毛片| 亚洲一区欧美在线| 日韩制服丝袜先锋影音| 亚洲va国产天堂va久久en| 俺去了亚洲欧美日韩| 国产日韩一区在线| 无码熟妇人妻av在线电影| 波多野结衣在线网址| 精品在线一区二区| 欧美日韩免费视频| 5252色成人免费视频| 人妻无码视频一区二区三区 | 欧美黄色激情视频| 日本在线不卡一区| 一区二区三区在线观看视频| 欧美成人亚洲成人| 欧美少妇一区| 日韩免费高清一区二区| 日韩在线视频第一页| 欧美日韩在线视频首页| 欧美激情一区二区三区在线视频观看| 亚洲免费视频一区| 日韩综合第一页| 国产精品伦一区二区三区| 18欧美乱大交hd1984| 久久成人人人人精品欧| 蜜桃传媒一区二区| 国精品无码一区二区三区| 久久狠狠婷婷| 日韩欧美一区中文| 日韩精品一区二区三区丰满| 熟女人妻在线视频| 国产一区二区三区四| 亚洲色图综合网| 麻豆av一区二区| 日韩免费观看一区二区| 国产美女久久久久| 亚洲第一网站免费视频| 国产日韩在线一区二区三区| 亚洲欧洲综合网| 国产精品2024| 中文字幕日韩欧美在线视频| 欧美成人三级在线视频| 中文字幕手机在线视频| 亚洲精品精品亚洲| 99久久无色码| 国产日韩精品中文字无码| 国产精品一区二区久久不卡| 国产一区二区三区中文 | 一区二区三区视频| 永久免费看片在线播放| 精品久久久久国产| 成人黄色免费在线观看| 国产a级片视频| 国产精品一级在线| 97成人精品区在线播放| 色婷婷激情视频| 91亚洲男人天堂| 国产精品青草久久久久福利99| 91精品人妻一区二区三区蜜桃2 | 三年中国国语在线播放免费| 国产又爽又黄免费软件| 日韩av综合网站| 亚洲熟女乱色一区二区三区| 亚洲性在线观看| 亚洲免费小视频| 亚洲精品成人无码毛片| 日韩成人激情视频| 久久精品女同亚洲女同13| 亚洲精品国产成人久久av盗摄 | 国产精品一区二区免费视频| 五月婷婷综合在线| 97视频免费在线观看| 欲求不满的岳中文字幕| aaa亚洲精品| 国产成人精品日本亚洲专区61| 久久国产高清视频| 午夜精品视频在线观看| 亚洲va韩国va欧美va精四季| 一区二区三区精| 久久在线观看视频| av在线播放中文字幕| 欧美中文字幕一区二区三区亚洲 | 亚洲一区二区在线看| 91麻豆精品在线| 日韩综合视频在线观看| 一本在线免费视频| 在线国产亚洲欧美| 亚洲精品久久久久久宅男| 一区二区视频免费在线观看| 五月天久久综合网| 国产传媒日韩欧美成人| 日韩在线观看视频网站| 欧美日韩精品一二三区| 日本xxxxxxxxxx75| 国产精品久久久久久久裸模| 天堂社区 天堂综合网 天堂资源最新版 | 老鸭窝一区二区久久精品| 亚洲va欧美va在线观看| 中文字幕日韩免费| 777777777亚洲妇女| 一级黄色av片| 亚洲色图日韩av| 国产精品无码一区二区三区免费 | 欧美人与z0zoxxxx视频| 999久久久精品视频| 亚洲免费三区一区二区| 啊啊啊国产视频| 一本大道久久a久久精二百| 亚洲成人激情小说| 日韩欧美国产激情| 男人网站在线观看| 日韩欧美视频一区| 精品国产视频在线观看| 欧美精品情趣视频| av中文在线观看| 国产精品高清在线观看| 日本va欧美va欧美va精品| 精品不卡在线| 中文字幕不卡在线| 日韩av福利在线观看| 动漫精品一区二区| 亚洲一区和二区| 一区二区成人av| 一级片一区二区三区| 国产成人精品一区二区三区| 久久午夜精品一区二区| 99免费在线观看视频| 国产一区二区不卡| 欧美日韩成人免费视频| 亚洲精品成人少妇| 丰满大乳奶做爰ⅹxx视频 | 欧美最猛性xxxxx直播| 一级片久久久久| 最近2019好看的中文字幕免费| 97超碰资源站| 日本一区二区在线视频| 91蝌蚪porny成人天涯| 国产又黄又嫩又滑又白| 亚洲第一页中文字幕| 国产免费高清av| 国产欧美韩日| 一区二区三区四区不卡在线| 日本黄色动态图| 久久影视免费观看| 久久国产乱子精品免费女| 精品国产成人av在线免| 日本久久电影网| 亚洲av无码一区二区三区在线| 国产人妖伪娘一区91| 国产欧美一区二区精品性色| 日韩在线免费观看av| 国产精品人成电影在线观看| 国产福利精品一区| 国产一级二级av| 久久影视电视剧免费网站清宫辞电视| 日韩一级免费视频| 国产av人人夜夜澡人人爽| 在线电影av不卡网址| 国内精品免费**视频| 国产精品69页| 亚洲精品视频二区| 寂寞少妇一区二区三区| 亚洲精品第三页| 97免费视频在线| 91一区在线观看| 少妇户外露出[11p]| 亚洲一区二区三区久久| 亚洲成人免费看| 亚洲国产美女视频| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 日本wwwcom| 精品视频一区在线视频| 午夜成人鲁丝片午夜精品| 国产一区二区在线观看免费视频| 2019中文字幕在线免费观看| 亚洲综合色婷婷| 国产精品二区一区二区aⅴ| 中文字幕中文字幕在线中一区高清| 欧美日韩在线三级| 日本vs亚洲vs韩国一区三区二区 | 久久无码av三级| 国产精品久久久精品四季影院| 亚洲一区三区| 亚洲午夜久久久影院| 91美女片黄在线观看91美女| 精品少妇久久久| 无码人妻精品一区二区蜜桃百度| 久久夜色精品国产亚洲aⅴ| 一区二区三区不卡视频在线观看| 天堂а√在线中文在线新版| 99视频精品免费| 99三级在线| 日韩一级二级三级精品视频| 免费成人性网站| 欧美久久久久久久久久久久| 日韩.欧美.亚洲| 欧美高跟鞋交xxxxhd| 91久久精品一区二区| 紧缚奴在线一区二区三区| 一级黄色性视频| 日韩欧美精品久久| 中文字幕国内精品| 黄色一区二区在线观看|