![]()
作者 | 周一笑
郵箱 | zhouyixiao@pingwest.com
2025 年,對于 AI 視頻生成領域來說,是一個祛魅的年份。
如果說過去很長一段時間,行業還沉浸在 OpenAI Sora 這樣的模型帶來的"現實扭曲力場"中,驚嘆于光影的逼真和物理規律的模擬,那么到了今年下半年,從硅谷到中關村,所有的從業者都撞上了一堵冰冷的墻,模型很強,但怎么變成產品?
我們見過了太多驚艷的 5 秒鐘鏡頭,燃燒的宇航員、賽博朋克的街道。但當創作者試圖用它們拼湊出一部哪怕只有 3 分鐘的連貫短劇時,災難發生了,主角在第一個鏡頭是瓜子臉,切個近景就變成了方臉;上一秒還穿著沖鋒衣,下一秒衣服上的 Logo 就換了位置。
生成無數個漂亮的碎片,但我很難造出一座完整的"房子"。這是當下 AI 創作者最真實的挫敗感。
與此同時,行業的"內卷"速度遠超預期。根據多方行業調研數據顯示,AI 漫劇的單分鐘制作成本,已經從年初的高位下降。這不是價格戰,而是一場生存戰。
平臺的紅利也在消退。主流短視頻平臺已開始收緊審核標準,那些靠模型"一鍵生成"、人物忽大忽小、衣服顏色反復橫跳的低質量內容,正面臨被限流甚至打回的風險。留給野蠻生長的時間不多了。
在這個背景下,商湯剛剛發布的 Seko 2.0 顯得有些"反常識"。
在大多數模型還在卷誰生成的浪花更符合流體力學時,Seko2.0 把重點方在了一個聽起來枯燥、甚至有點像項目管理軟件的詞上:多劇集管理。
也就是說,Seko認為 AI 視頻的下半場,拼的不只是生成像素的能力,而是管理像素的邏輯。
它到底做的怎么樣,我們先來看一段由平臺創作者生成的作品集錦:
1
解剖“一人劇組”,從文本到成片的工業化鏈路
Seko 2.0 到底怎么用?簡單來說,它把復雜的影視工業流程壓縮成了三步走的"傻瓜式"操作:
1、丟劇本: 把小說或創意文案直接扔進對話框;
2、AI 拆解: 系統自動把劇本拆解成角色、場景、道具,并生成分鏡圖;
3、交互成片: 用戶確認分鏡無誤后,一鍵生成連貫視頻,并支持對畫面進行"P圖式"修改。
比如在Seko 2.0產品發布中的 《李白詩仙傳》 演示,我們看到了這套邏輯的實際效果。
打開 Seko 2.0 的新界面,你會發現它越來越不像一個簡單的聊天框,而更像是一個輕量級的非線性編輯軟件。用戶把一段關于李白的劇情文本扔進去,系統背后的 Agent( 并沒有急著生成視頻,而是像一個成熟的副導演一樣,先做了一件事:拆解。
它自動分析文本,提取出角色(李白)、場景(宮廷/山水)、道具(酒壺),并生成了一份包含了三集內容的結構化大綱。不只是文本的梳理,更是資產的建立。
對于短劇創作者來說,最大的痛點莫過于"角色一致性"。以往,為了讓角色在兩張圖里長得一樣,用戶可能需要填寫復雜的 prompt 甚至訓練 LoRA。
而在 Seko 2.0 中,這套邏輯被 Agent 接管了。
這意味著,AI 也有了"記憶"。系統把角色的視覺特征提取出來,存入資產庫,然后在每一次生成新分鏡時,通過 Agent 強制注入這些特征。對于想要日更的短劇團隊來說,他們終于不需要用 龐雜的Excel 表格來人工記錄每個角色的 prompt 參數了。
除了宏觀的一致性,Seko 2.0 在微觀層面的可控性上也做出了進化。
大部分的 AI 視頻工具是生成器的邏輯,如果不滿意,你大概率只能重新生成。Seko 2.0 則引入了"畫布編輯"功能。如果對分鏡中李白的動作不滿意,用戶可以直接在畫布上進行局部重繪、消除甚至添加元素。
另外值得一提的是集成在Seko2.0產品中的,實時語音驅動數字人技術----SekoTalk功能,不但能精準實現多人、多語言對口型,保證超長時穩定生成同時,還極大提升了數字人生成效率,做到了真正的實時生成。
這些不是簡單的加分項,而是能不能進入實際生產場景的門檻,它讓AI視頻真的可用、好用了。以下是 Seko 平臺創作者利用SekoTalk生成的作品:
1
算力經濟學
如果說“一致性”決定了 AI 短劇能不能看,那么“算力成本”則決定了 AI 短劇能不能賺。
這樣解釋了為什么商湯要死磕國產算力。
面對越來越卷的 AI 短劇、漫劇的市場,如果創作者還在使用昂貴且稀缺的英偉達高端顯卡進行渲染,那么算力成本將吞噬掉僅有的利潤。這也解釋了為什么目前市面上充斥著 IAA(廣告變現)模式的免費劇,因為用戶付費意愿低,制作方只能靠極致的壓縮成本來博取流量收益。
商湯顯然算過這筆賬。商湯科技 Seko 產品負責人王子彬在采訪中透露了一個關鍵數據,相比半年前,Seko 單次推理的成本已經下降了 50% 左右。
這背后離不開商湯日日新大模型的底層創新和協同優化。比如,商湯開源的行業首個視頻生成推理框架LightX2V,在 ComfyUI 社區下載量已超過 350 萬次。它解決了制約AI視頻落地最關鍵的,高質量視頻生成與昂貴算力的矛盾。
LightX2V 的多項核心技術包括:
Phased DMD(步數蒸餾): 簡單來說,就是讓 AI “少走彎路”。通過原創的蒸餾算法,在極少的步數下(如 4 步)就能生成高質量視頻,大幅縮短了推理時間。
LightVAE(輕量級 VAE): 這項技術將視頻編解碼的性能提升了 10 倍以上,同時保持了高清畫質。
帶來的直接結果是,在消費級顯卡(如 5090)上,生成 5 秒的視頻所需時間小于 5 秒,實現了“1:1 實時生成”。
更具戰略意義的是,LightX2V 并不僅僅服務于英偉達生態,它還打通了國產芯片。目前,Seko 2.0 已經實現了對國產 AI 芯片的深度適配。
這是一個實打實的商業策略。對于那些對價格極其敏感的小型工作室來說,如果國產算力能提供價格優勢,這就是無法拒絕的吸引力。
“從用戶側來看,其實基本是無感的。” 王子彬非常自信地表示。雖然在研發端經歷了巨大的適配挑戰,但最終呈現的結果是,國產芯片在生成質量上與英偉達方案基本一致。
1
把想象力還給普通人
在發布會上,商湯科技董事長兼 CEO 徐立引用了克萊頓·克里斯坦森的經典理論《創新者的窘境》:很多顛覆性的創新,最初都是從“低毛利、邊緣化”的市場切入的。
這解釋了 Seko 2.0 為什么要死磕“短劇”和“漫劇”。
相比于對光影、紋理要求苛刻的院線電影,短劇和漫劇對畫質有著天然的寬容度。這里的觀眾更在意劇情的爽點和更新的速度。這正是 AI 目前最好的練兵場。
事實也證明,這條路走通了。Seko 孵化的真人短劇《婉心計》拿到了抖音 AI 短劇榜的第一名。并且 Seko 已經宣布與長江電影集團簽約,計劃孵化院線級 AI 電影。
從幾分鐘的豎屏短劇,到 120 分鐘的大銀幕,中間的鴻溝依然巨大,但 Seko 似乎想通過“農村包圍城市”的策略,一步步填平它。
王子彬在與媒體溝通中也提到,Seko 的用戶里,其實只有 10%-20% 是專業的短劇工作室,但他們貢獻了最高頻的使用量;而剩下的大量用戶,是 MCN 機構、自媒體人,甚至是教育工作者。
在技術和商業的宏大敘事之外,發布會的尾聲,徐立分享的一個小故事或許最能代表這款產品的初衷。
一位普通的語文老師,利用 Seko 把學生的優秀作文變成了動畫視頻,在課堂上播放,點燃了孩子們巨大的創作熱情。
AI 視頻工具的終極意義,或許并不是為了讓好萊塢導演失業,也不是為了制造更多的電子垃圾,而是為了讓一個不懂畫畫的程序員、一個沒有攝像機的公務員、或者一個充滿幻想的小學生,都能擁有把想象力變成現實的權利。
只有工具不再昂貴,技術不再高冷,AI 視頻的“工業革命”,才可能發生。
![]()
點個“愛心”,再走 吧





京公網安備 11011402013531號