![]()
機器之心發布
機器之心編輯部
讓數字人的口型隨著聲音一開一合早已不是新鮮事。更令人期待的,是當明快的旋律響起,它會自然揚起嘴角,眼神含笑;當進入說唱段落,它會隨著鼓點起伏,肩膀與手臂有節奏地帶動氣氛。觀眾看到的不再只是嘴在動,而是整個人在表演。這種表現不僅限于幾個片段,而是能夠穩定地延續到分鐘級長視頻中,在整段時間里保持動作自然、鏡頭流暢。
近日,快手可靈團隊把這一構想帶到了現實。全新數字人功能已在可靈平臺開啟公測,目前逐步放量中。技術報告 Kling-Avatar 與項目主頁也已同步發布。報告系統解析了可靈數字人背后的技術路徑,闡明如何讓一個只能跟著聲音對口型的模型,進化為能夠按照用戶意圖進行生動表達的解決方案。
![]()
可靈數字人產品界面。網址:https://app.klingai.com/cn/ai-human/image/new
![]()
![]()
論文地址:https://arxiv.org/abs/2509.09595項目主頁:https://klingavatar.github.io/
首先看一些效果:
![]()
文中視頻鏈接:https://mp.weixin.qq.com/s/IaFZy46DxSzcy2q2l10ojA
實現這些驚艷效果的背后,是快手可靈團隊精心設計的一套多模態大語言模型賦能的兩階段生成框架。
多模態理解,讓指令變成可執行的故事線
借助多模態大語言模型在生成與理解一體化上的能力,Kling-Avatar 設計了一個多模態導演模塊(MLLM Director),把三類輸入組織成一條清晰的故事線: 從音頻中提取語音內容與情感軌跡;從圖像中識別人像特征與場景元素;將用戶的文字提示融入動作方式、鏡頭語言、情緒變化等要素。導演模塊產出的結構化劇情描述,通過文本跨注意力層注入到視頻擴散模型中,生成一段全局一致的藍圖視頻,明確整段內容的節奏、風格與關鍵表達節點。
![]()
Kling-Avatar 方案框架。由多模態大語言模型 (MLLMs) 賦能的 MLLM Director 首先將多模態指令解釋為全局語義和連貫的故事線,基于該全局規劃生成一個藍圖視頻,然后從藍圖視頻中提取首尾幀作為條件控制,并行生成子段視頻。
兩階段級聯生成的長視頻生成框架
藍圖視頻生成后,系統在視頻流中根據身份一致性、動作多樣性、避免遮擋、表情清晰等條件,自動挑選若干高質量關鍵幀。每相鄰兩幀作為首尾幀條件,用于生成一個子段落。所有子段落根據各自的首尾幀并行合成,最后拼接得到完整視頻。為避免首尾幀處畫面與實際音頻節拍的錯位,方法還引入音頻對齊插幀策略,保證口型與聲學節奏的幀級同步。
此外,團隊還精心設計了一系列訓練和推理策略,保證視頻生成過程中音頻與口型的對齊和身份一致性:
口型對齊:將音頻切分成與幀片段對齊的子段,通過滑窗方式注入音頻特征;自動檢測嘴部區域加權去噪損失;通過對視頻幀做手動擴展,增強畫面中人臉占比較小情況下的對齊效果,進一步提升口型對齊任務在遠景場景下的適應能力。文本可控性:凍結文本跨注意力層參數,避免基座視頻生成模型在專門數據上過擬合而弱化文本控制。身份一致性:在推理階段對參考圖像構造 “退化負樣本”,作為負向 CFG,抑制紋理拉花、飽和度漂移等身份漂移模式。
訓練與測評數據管線
為了獲得多樣高質量的訓練數據,團隊從演講、對話、歌唱等高質量語料庫中收集數千小時視頻,并訓練多種專家模型用于從嘴部清晰度、鏡頭切換、音畫同步與美學質量等多個維度檢測數據的可靠性。對專家模型篩選出的視頻,再進行一遍人工復核,得到數百小時高質量訓練數據集。
為了驗證方法的有效性,團隊制作了一個包含375個 “參考圖–音頻–文本提示” 的測評基準,該測評基準包含了豐富的輸入樣例,圖片涵蓋真人 / AI 生成圖像、不同人種、以及開放情境中的非真人數據;音頻涵蓋中 / 英 / 日 / 韓等多種語言,包含不同語速和情感的臺詞;文本提示包含多種多樣的鏡頭、人物動作、表達情緒控制。該測評基準為現有方法提供了極具挑戰性的測試場景,能夠充分評估數字人像視頻生成方法在多模態指令跟隨方面的能力,將在未來開源。
實驗結果對比
在定量驗證方面,團隊精心設計了一套基于用戶偏好的GSB(Good/Same/Bad)測評體系。對每個樣本,由三名評測者將 Kling-Avatar 與對比方法逐一比較,給出 “更好”(G),“一樣”(S),“更差”(B) 的判斷。最終匯報 (G+S)/(B+S) 作為指標,用以衡量 “更好或不差” 的占比。同時在四個維度給出分項結果:總體效果、口型同步、畫面質量、指令響應、身份一致。對比方法選擇最先進的 OmniHuman-1、HeyGen 等產品。
![]()
![]()
在構建的測評基準上與 OmniHuman-1 和 HeyGen 的 GSB 可視化對比。Kling-Avatar 在絕大多數維度上取得領先。
![]()
在全部 Benchmark 和各個子測評集的 GSB 指標對比。Kling-Avatar 全面超過 OmniHuman-1,并在絕大部分指標上超過 HeyGen。
在多種場景的對比測試中,Kling-Avatar 所生成的唇形不僅在時序和形態上與音頻高度一致,面部表情也隨著語音的起伏變化而更顯自然。即使在發音難度較高的音節(如 “truth”,其標準發音為 [tru?θ],[u:] 要求雙唇前突、口型小而緊)或高頻語音中的短暫靜音段落,Kling-Avatar 均能夠準確還原相應的口型狀態。
![]()
在 “情緒、動作、鏡頭” 三類控制上,Kling-Avatar 能夠更準確地體現文本提示中的意圖,在歌唱、演講等復雜場景下的動作與鏡頭調度更加貼合語義。下圖展示了 Kling-Avatar 生成的一些視頻示例,其中包含了人物的情緒控制如 “興奮”,鏡頭控制如 “鏡頭緩慢上移”,生成結果均有良好的響應。
![]()
Kling-Avatar 的另一大優勢是長時視頻生成。因為采用兩階段生成 + 級聯并行生成的框架,因此在首先獲得藍圖視頻后,可以從藍圖視頻中選擇任意多數量的首尾幀,并行生成每個子段視頻,最后再完整拼接在一起,總生成時間理論上與一段生成時間相當,因此可以快速穩定的生成長視頻。下圖展示了 1 分鐘長視頻生成的例子,生成結果在動態性,身份一致性保持,口型等各方面都獲得了令人滿意的結果。
![]()
總結
從 “對口型” 邁向 “會表演”,快手可靈團隊探索出一條全新的數字人生成范式,實現了在分鐘級長視頻中生動細膩、情緒飽滿、身份一致的影視級演繹。Kling-Avatar 現已集成到可靈平臺,歡迎移步可靈平臺體驗新版數字人應用,看看你的聲音和想法如何被一鏡到底地演繹出來。
近年來,快手可靈團隊持續深耕多模態指令控制與理解的數字人視頻生成解決方案。除了 Kling-Avatar,團隊前不久還提出實時多模態交互控制的數字人生成框架 MIDAS,二者分別在 “表達深度” 與 “響應速度” 上實現了重要突破。未來,團隊將持續推進高分辨率、精細動作控制、復雜多輪指令理解等方向的前沿探索,致力于讓數字人的每一次表達,都擁有真實而動人的靈魂。





京公網安備 11011402013531號