10月15日,百度搜索全面升級了文心助手的AIGC創作能力,可支持AI圖片、AI視頻、AI音樂、AI播客等8種模態創作,且能夠一鍵調用多工具解決多場景問題。

尤其值得一提的是文心助手提供行業領先的長視頻生成玩法。輸入一段話,即可創作一部 3 分鐘的故事大片。而這一能力,得益于視頻生成模型百度蒸汽機的再次升級支持。
百度蒸汽機模型自今年5月闖入AI生視頻賽道就拿下VBench-I2V全球榜一。
此次百度蒸汽機模型突破傳統AI視頻生成10秒左右的時長限制,還在行業首次實現AI長視頻“實時交互”生成,也就是過程可打斷、可編輯,而且生成速度超越國內主流視頻生成模型。

目前,每天有千萬量級的AIGC內容由用戶通過文心助手創作產生。
在接受媒體采訪時,百度副總裁、百度搜索總經理趙世奇和百度副總裁、移動生態商業體系負責人陳一凡不約而同的都提到,Sora 2帶來啟發,隨著百度大模型技術的進化,結合大模型的能力,在產品側,要讓AI生視頻、AIGC的使用門檻更低、用戶玩法更豐富。
此次百度搜索&蒸汽機模型,讓AI生視頻的體驗邁上新臺階。
AI生視頻全新交互體驗:可任意編輯、控制劇情走向
作為AI生視頻背后能力支撐,此次升級后的蒸汽機模型有幾大突破:
1、僅上傳一張圖片和一段提示詞就可生成一段長視頻。支持長視頻流式生成,突破了市面上(包括Sora2),AI生視頻工具5s-10s的時長限制,可生成任意時長視頻。
2、支持實時交互,也就是用戶在生成視頻的過程中,可隨時打斷、任意修改提示詞需求,來調整生成的視頻內容。這意味著,用戶在生成過程中可隨時暫停,并基于已生成的畫面提交新的prompt(提示詞)來引導后續劇情發展。這極大的方便了視頻創作。

使用入口:百度搜索/百度APP/搜索「百度蒸汽機」;繪想平臺鏈接:https://huixiang.baidu.com
據介紹,蒸汽機模型能力支持無限時長生成,產品層面考慮用戶應用場景會做一定時長限制。目前,對創意視頻時長會限制在1分鐘。
現場,百度商業體系商業研發總經理劉林演示了用蒸汽機模型生成沙漠賽車視頻時,根據用戶不同需求,實現實時生成不同比賽結果(銀色車勝出,還是黃色車勝出)的視頻效果。

點擊圖片跳轉視頻
引來現場陣陣掌聲。
蒸汽機模型這種具備交互能力的長視頻生成技術重塑了人機互動模式,有望推動內容消費方式由“被動接收”向“共同創造”轉變,甚至催生新型藝術形式與商業生態。
陳一凡介紹,目前蒸汽機的長視頻生成能力已經受到營銷圈、娛樂化用戶的青睞。
背后技術突破
百度商業研發首席架構師李雙龍介紹,此次蒸汽機模型升級的解法與思考是從分治到全局,引入自回歸擴散模型(Autoregressive Diffusion Models),同時結合自回歸的長序列能力和擴散一致性強的優點,進行優化。

通過引入自回歸擴散模型,采用基于流式滑窗的自回歸擴散架構,以此來實現低成本無限外推和實時生成。長視頻生成過程為流式體驗,模型推理出多少,用戶即可實時預覽多少,無需等待全部生成完成。采用全局規劃與局部參考相結合的優化方法,解決生成長視頻時的連續性與一致性問題。
同時依托商業強大的工程優化能力,對模型進行極致壓縮,優化主要包括模型參數壓縮(大模型蒸餾小模型)、window attention降低attention過程中可見序列長度、步數和CFG蒸餾等策略,不斷降低推理耗時,最終實現幾乎實時性效果。
AI視頻生成領域正處在一個技術快速迭代、應用場景不斷拓展的關鍵階段。
目前,蒸汽機模型還支持生成實時交互數字人,告別以往單向輸出的數字人視頻模式,支持沉浸式互動,做用戶專屬的數字人。可拓展AI導購、AI老師、AI陪伴等沉浸式數字人場景。
另外,蒸汽機模型支持開放世界生成,無論是游戲地圖、旅游景點體驗、還是宇宙空間,都可以任意生成、任意探索,任意創造。
“把AI生視頻的門檻降低,就會有更多玩法融入”,劉林表示,AI生成視頻打破了長度的限制之后,進一步降低了視頻創作門檻,能生成更完整更優質的內容,助力創作者的生產和變現。
另外,李雙龍提到,蒸汽機模型下一步重點技術迭代將放在“有聲一體化、支持多人、長視頻”這些方向。(果青)





京公網安備 11011402013531號