01. 當新技術遇上老難題
如果給2025年下半年的AI行業選一個受關注的方向,視頻生成幾乎是繞不開的答案。在OpenAI發布Sora 2并上線App版本后,AI視頻的熱度幾乎以“病毒式”的速率在全球范圍內迅速擴散開來。
但梳理產業發展的脈絡,才會發現,這并非是偶然的產品爆紅。背后,是過去兩年里視頻生成技術在畫面質量、時序建模與可用性上的持續進步。Sora、Veo、通義萬相,無論是大公司還是創業公司,不斷累加的技術貢獻,讓全球AI視頻相關能力的迭代節奏顯著加快。
更深層的影響,正在產業內部逐步顯現。
當模型的進步不再局限于畫面質量本身,而是逐步覆蓋敘事能力、人物與風格一致性、音畫同步、跨鏡頭邏輯延續等更接近工業化生產的關鍵要素。當生成效果跨過“能看”的門檻,開始接近“可用”“好用”,AI視頻才真正進入大眾視野,也隨之成為當前極具想象空間的賽道之一。
與此同時,視頻行業本身也在面臨著一種結構性難題。
過去十余年里,圍繞視頻展開的產業始終是全球范圍內增長最快、資本最密集、創新最活躍的領域之一。從影視娛樂、廣告營銷,到電商內容、社交平臺與創作者經濟,視頻逐漸成為信息、娛樂與商業的核心表達形態。但隨著行業成熟與競爭加劇,內容生產被推向極限。短劇、電商與廣告進入“更快、更細、更大量”的階段,內容更新周期被壓縮到小時級甚至分鐘級,而傳統制作鏈路所依賴的人力規模與制作周期,開始與這種節奏形成明顯錯位。
這種壓力在不同領域以不同形式顯現:傳統影視與廣告仍高度依賴經驗密集型人力,提案與試錯成本居高不下;MCN與電商側對高頻、碎片化素材的需求,已遠超傳統拍攝與剪輯流程的承載能力;短劇與AI漫劇在走出早期粗放階段后,對角色、場景與鏡頭一致性提出更高要求;出海內容則同時面臨速度與跨文化適配的雙重挑戰。
隨著內容需求持續放大、AI視頻生成能力快速成熟,內容產業的生態結構開始發生變化。
一方面,創作門檻被顯著拉低。視頻不再只是少數專業團隊才能穩定產出的內容形態,個人創作者與小團隊開始具備接近工業化的生產能力。
另一方面,圍繞視頻生成的新中間層正在出現——從創作工具、工作流平臺,到面向廣告、電商、短劇的垂直解決方案,越來越多公司開始將AI視頻作為底層能力重新設計產品形態。
這帶來了更多連鎖反應,比如平臺與創作者的關系也在被重塑,當內容成為可以反復生成、快速驗證、持續優化的過程性資產,視頻生產從一次性創作,逐步轉向可規模化運行的系統工程。
因此,最近這一年,國內外涌現出大量圍繞AI視頻生成的產業鏈上下游的創業公司:有的從視頻生成能力本身出發,重構視頻制作的起點;有的圍繞創作者工作流,將AI融入腳本、分鏡與剪輯;還有的面向企業與行業場景,強調穩定性與可規模化交付;出海方向,跨語種與本地化生成也成為重要突破口。
當技術突破與國內的規模化需求在同一時間點匯合,內容行業逐漸形成一個清晰判斷:AI視頻生成已經成為下一代內容基礎設施的重要組成部分,更穩定的技術和更快的工具遠遠不夠,創作者們需要的可能是一套更底層、可擴展的生產力方案。
02. 創作的邊界,正被技術撕開
每家公司都在用自己的實際行動回應這個趨勢。
以OpenAI的Sora為代表,其策略更偏向通用能力展示:通過極高質量、強視覺沖擊力的視頻生成,迅速打開公眾認知,推動AI視頻進入大眾文化與社交傳播場景。Google的Veo,則延續其在多模態與生成模型上的研究優勢,強調模型在長時序理解與復雜場景中的表達能力,更多體現為技術能力的前沿探索。
國內,更多公司從平臺生態出發:有的將視頻生成能力與內容分發、創作者體系和推薦機制相結合,試圖把AI視頻納入既有的創作—傳播閉環;有的將生成能力賦能給視頻生產全流程,提升內容供給效率。
這些路徑各有側重:有的優先解決“能不能生成、生成得好不好看”,有的更關注“怎么玩、怎么傳播”。還有另一條逐漸顯現的路線,則是將視頻生成視為一種生產力能力。
而路徑之間的差別,本質上是基于各家對好用還是好玩、B端還是C端的認知差異。
在C端場景中,AI視頻更多承擔的是娛樂與表達功能,“好玩”“新鮮”“個性化”往往優先于穩定性,用戶對偶發的不一致與失控具有更高容忍度;而在廣告、電商、短劇等B端場景中,創作者與企業真正關心的,是鏡頭、人物與風格能否長期保持一致,內容是否可控、可復用,并能夠在高頻、高并發的生產節奏中穩定輸出。
這也是當前市場中一個容易被忽視的分野:許多視頻模型已經能夠滿足C端的嘗鮮與創作需求,卻難以支撐B端對確定性與規模化的要求;而如果無法進入B端生產流程,AI視頻能力就很難真正轉化為生產力提升。
阿里選擇了一條更難,但也更能給整個行業帶來價值的路——將AI視頻生成做成行業級的基礎設施。12月17日,在阿里云飛天發布時刻上正式商業化發布通義萬相2.6(Wan2.6)。作為阿里在視頻生成領域的核心模型,萬相試圖回應內容行業從能生成走向可生產、從嘗鮮使用邁向規模化落地的趨勢變化。
![]()
通義實驗室產品負責人金璐瑤從多個維度向我們拆解了創作者在實際生產中最為關切的多鏡頭敘事、視頻參考生成與更穩定的長時序輸出等能力,以及這些需求如何反向塑造模型能力的演進方向。
要讓AI視頻真正進入生產流程,首要前提是具備多鏡頭敘事能力。
在真實的視頻創作中,單個畫面的質量從來不是最難的問題,真正的挑戰在于跨鏡頭的連續性——角色是否穩定、場景是否連貫、時間與敘事是否成立。早期的視頻生成模型更擅長生成孤立的高質量片段,一旦進入多機位、多景別的創作場景,人物細節漂移、動作邏輯斷裂、信息不一致等問題便會集中顯現,這也是AI視頻長期停留在概念演示或單鏡頭素材階段的重要原因。
在Wan2.6中,多鏡頭能力被提升為模型層面的核心能力。相比“逐段生成、事后拼接”的路徑,通義萬相更強調在生成過程中對時間軸與鏡頭語言的整體建模:模型需要在一開始就明確“主體是誰”“空間如何變化”“敘事如何推進”,鏡頭切換才可能成為一個可控變量。為此,萬相在訓練與推理階段持續強化主體一致性與時序建模,并支持自然語言分鏡指令,讓創作者能夠通過提示詞直接完成多鏡頭敘事調度。
這讓視頻生成具備了接近工業化生產所需的連續性基礎。
![]()
通義萬相生成
金璐瑤告訴我們,另一個重要的真實需求是,創作者往往希望保留真實人物或物體的外觀、動作,甚至聲音,同時將其放入新的虛擬場景中。過去,這類需求高度依賴拍攝、建模與復雜后期,成本和技術門檻都極高。
Wan2.6將參考的對象從圖片升級為視頻,并進一步打通了形象、動作與聲音的整體建模能力。模型支持輸入約5秒的參考視頻,將其中的人物、動物或物體作為后續生成的主體,不僅復刻外觀形象,還能同步學習動作模式、表情變化與音色特征,實現聲畫一致的生成結果。
相比單一圖片參考,視頻參考能夠提供更完整的三維信息與時間信息,使模型對主體的理解更加接近真實世界。這一能力在實際場景中尤為關鍵,無論是品牌用一段粗糙素材生成完整廣告片,還是創作者將真人與虛擬環境融合,視頻參考生成都顯著降低了制作門檻,也拓展了AI視頻在商業場景中的可用邊界。
![]()
通義萬相生成
![]()
通義萬相生成
“在視頻生成中,時長始終是一項需要謹慎權衡的變量。”金璐瑤補充。
過短的視頻難以承載完整表達,而一旦時長拉長,模型在一致性、時序穩定性上的難度會迅速上升。行業中,大多數視頻模型仍將穩定生成時長控制在4秒左右,再多一秒,技術挑戰往往呈指數級增長。
Wan2.6將可控生成時長穩定在約15秒,并支持1080P輸出與聲畫同步。對廣告、電商展示、短劇分鏡等商業場景而言,15秒既能承載完整敘事,又不會顯著放大修改與控制成本,是一段“剛好可用”的內容長度。
這次Wan2.6的發布中,文生圖能力也迎來了同步升級。模型在基礎生成之外,引入了對敘事結構的理解,支持圖文混排輸入,從簡單提示中自動拆解故事并生成分鏡畫面,大幅提升故事型內容的創作效率。結合多圖參考與商業級一致性控制,文生圖開始從“靈感草圖”走向可直接用于廣告與內容制作的生產工具。
在滿足創作者最基本的生產需求之外,通義萬相還試圖進一步向前邁一步——繼續探索如何通過模型能力的持續演進,拓展創作的邊界,讓AI在表達、美學與敘事層面承擔更具主動性的角色。
![]()
通義萬相生成
“中式美學是萬相一直在堅持的理念。”金璐瑤告訴我們。在中文語境與中式美學上的持續投入,是萬相區別于許多海外模型的重要特征。通過與美院等機構的合作,以及在預訓練與評測階段引入大量中式審美素材,模型在人物氣質、風格表達與文化細節上的表現更貼近本土創作需求。這種優化并非一次性完成,而是通過評測體系、客戶反饋與強化學習不斷迭代。
![]()
通義萬相生成
真實需求不斷抬高對技術能力的要求,而技術細節的持續突破,又反過來釋放出新的生產效率,通義萬相正是在這樣的反饋循環中演進。正如通義實驗室產品負責人金璐瑤所說:“我們一直堅持一件事情,就是效果好大于一切。”
03. 當效率提升,當周期縮減,當人員不再冗余
不用太久,一年,甚至只是半年之前,視頻與影視制作相關行業的從業者,大多還難以想象自己的工作效率可以被成倍提升。
效率提升,是內容生產方式重構的直接結果。在傳統制作體系中,創意、執行與后期被拆分為多個線性環節,每一步都需要由特定崗位承接。在高度分工的模式下,流程只能順序推進,往往需要前一環節完全落實后才能進入下一步,既拉長了整體制作周期,也造成了大量重復與冗余的人力投入。
而當AI視頻生成開始介入創作前端,許多原本需要跨崗位協作才能完成的工作,被壓縮進同一個創作界面之中。編劇、導演、剪輯、美工……過去傳統崗位的邊界,在慢慢變得模糊。腳本可以直接轉化為分鏡,分鏡可以快速生成可視化素材,剪輯與美術調整也不再依賴漫長的后期流程。崗位之間的交接成本被顯著降低,創作者開始更多地圍繞最終效果進行整體判斷,而不是各自守在固定工序上。
![]()
通義萬相生成
這進一步帶來的變化是,當內容生產從線性流程,轉向以模型為核心的并行與即時生成,效率提升并不會平均分布在所有人身上。最先發生變化的,往往是那些本身就承受著高頻產出壓力、對成本和周期高度敏感的場景。
這類場景的共同是:一方面要保證持續、規模化生產內容;另一方面其創意需要被快速驗證、反復迭代。因此,AI視頻帶來的效率提升,往往最先影響短劇、漫劇、電商內容、出海創作工具等領域。
![]()
通義萬相生成
以廣告和電商為例,過去一次完整的創意驗證,往往需要經歷腳本、分鏡、拍攝、后期等多個環節;而在引入視頻生成能力后,創作者可以更早地把想法轉化為可視化內容,用于內部討論、客戶提案或A/B測試。AI參與到創意形成的前端階段,顯著壓縮了從想法到內容的距離。
而當穩定、可規模化的視頻生成能力向外開放,新的工具平臺、創作社區與內容服務開始生長,創作者能夠置身于一個不斷自我擴展的AI創作生態之中。而這一點,恰恰是許多視頻生成能力提供商尚未充分意識到的。
在AI漫劇與短劇領域,巨日祿是目前最具代表性的實踐者之一。巨日祿是一家面向動漫制作方的AI短劇/漫劇工具平臺,已被大量內容方用于漫劇創作并在主流平臺落地應用。
通過場景化調用通義萬相模型,巨日祿將圖片與視頻生成能力嵌入創作工具鏈,大幅降低了AI在內容生產中的使用門檻。
在巨日祿創始人杰夫看來,通義萬相2.6在主體一致性、指令遵循、運鏡與人物表現上的穩定性,“讓我們可以全天候、規模化使用”。巨日祿agent也已從創新實驗轉變為可直接投產的爆款劇創作智能體,效率再提成5-8倍。
成立于2016年的樂我無限,是一家以出海為核心方向的社交與內容產品公司,近年來將業務延伸至AI視頻與創作工具領域,面向海外市場推出了多款視頻創作工具。
其中,萬相模型的多模態生成能力讓旗下創作平臺Ima Studio (www.imastudio.com)能夠支持海外創作者快速生成高質量、風格多樣的AI視頻內容,顯著提升了社區內容密度與創作質量。這一能力也幫助樂我在冷啟動階段吸引了海外KOL、藝術家等核心創作者,并通過硅谷線下Workshop、高校合作等方式,逐步構建起“技術—內容—社區”的正向循環。
樂我無限與巨日祿的實踐表明,以通義萬相為代表的穩定型AI視頻基礎設施,正在顯著降低小團隊乃至個體創作者的創作門檻。原本依賴多崗位協作完成的工作,被逐步內化為模型能力,使創作者能夠在有限人力條件下,仍然維持穩定的敘事質量,并持續輸出成體系的內容。
只有當底層效果足夠可靠,AI視頻生成才能從“好玩”走向“好用”,并在此之上,為更大的創作自由與產業創新留出空間。
04. 人人都能當導演的時代
從好玩走向好用,真正的分水嶺,在于它是否能夠進入穩定、可重復的生產流程。
企業和創作者更關心的是:生成結果是否可控、是否穩定、是否能減少反復抽卡和人工返工的成本。相比速度或單次驚艷效果,穩定性才是進入生產流程的前提。
從創作者視角看,他們同時還需要更完整的服務體系。依托阿里云的大模型服務與應用開發平臺百煉,萬相并不是一個孤立的生成工具,而是可以被嵌入到企業既有的內容生產與業務流程中。
這些能力能夠在真實場景中保持穩定可用,與阿里云長期作為產業級基礎設施所積累的工程能力密切相關。作為全球領先的全棧人工智能服務商,阿里云在算力供給、數據治理、模型服務以及大規模并發調度等方面積累了成熟體系,使視頻生成模型得以在真實生產環境中持續運行,而不只是停留在實驗室或小規模演示階段。
![]()
從更長的時間尺度看,阿里對人工智能的系統性投入可以追溯到十多年前。早在2010年代初,阿里就開始圍繞搜索、推薦、語音與計算機視覺等方向布局AI能力;2016年起,阿里巴巴內部陸續成立人工智能實驗室在機器學習、計算機視覺、自然語言處理、多模態等方向持續投入。正是在這樣的技術積累之上,阿里云逐步構建起從模型訓練、部署到服務化調用的完整鏈路。
長期專注、搭配產業服務、穩定基礎設施的組合,使得以通義萬相為代表的模型和服務能夠沿著既定技術路線持續演進,在穩定性、可控性與規模化能力上不斷逼近真實生產需求,不斷提升創作者的生產力效率。
過去,鏡頭語言、敘事節奏、美術風格與制作經驗,高度集中在少數專業團隊之中;而當這些能力被逐步編碼進模型,創作者所需要掌握的,正在從具體技法轉向判斷、創意與取舍本身。這意味著,任何有創意的人,都可以通過AI視頻生成的技術和服務,實現自己的內容創作,不再由“是否會用專業工具”決定。
這種變化的意義,類似于從專業級影像軟件走向大眾化創作工具的歷史拐點——正如數碼相機取代膠片、智能手機取代專業相機、模板化剪輯取代復雜后期一樣,AI視頻生成正在把一整套專業制作能力,壓縮為可被普通人調用的基礎設施。
在降低門檻的同時,創作這件事本身也將具備更大的規模與更長的生命力。
或許,視頻生成的終點并不是替代創作者,而是讓創作者把精力更多投入到真正有價值的部分——創意、敘事與判斷本身。





京公網安備 11011402013531號