![]()
機器之心報道
編輯:+0
制作一個視頻需要幾步?可以簡單概括為:拍攝 + 配音 + 剪輯。
還記得 veo3 發布時引起的轟動嗎?「音畫同步」功能的革命性直接把其他視頻生成模型按在地上摩擦,拍攝 + 配音 + 粗剪一鍵搞定。
那如果我就是想用自己迷人的聲音呢?或者我自帶精妙絕倫的配音?有沒有其他解決方案?
有的朋友,有的!
8 月 11 日,Pika 推出了一個名為「音頻驅動表演模型」(Audio-Driven Performance Model)的新模型。
![]()
Pika 允許用戶上傳音頻文件(如語音、音樂、說唱或任何聲音片段),并結合靜態圖像(如自拍或任意圖片)生成高度同步的視頻。視頻中的角色會自動匹配音頻,實現精確的口型同步(lip sync)、自然的表情變化和流暢的身體動作。
![]()
更通俗一點說就是,讓任何一張靜態圖片,跟著你給的音頻動起來,而且是活靈活現的那種。
你隨便扔給它一張自拍,再配上一段馬保國的「年輕人不講武德」,你照片里那張帥氣的臉,馬上就能口型神同步,連眉毛挑動的時機都分毫不差,主打一個「本人親授」。
這事兒要是放以前,你起碼得是個頂級特效師,搗鼓個十天半個月才能弄出來。現在,Pika 告訴你,平均只要 6 秒
你沒看錯,就是 6 秒。你上個廁所的功夫,那邊視頻都生成好了,而且還是 720p 高清,長度不限,想讓蒙娜麗莎給你唱一整首《忐忑》都行。
不過目前功能僅限 iOS 端,且需要邀請碼,期待功能盡快開放。
![]()
話不多說,我們來看看網友測評。
首先來看看我們前面提到的自拍 + 音頻,效果可以說是相當驚艷了。
![]()
![]()
址:https://x.com/WilliamLamkin/status/1954940047624372508
不論是說唱部分還是歌曲部分,唇同步準確性非常高,避免了以往 AI 視頻中常見的「假唱」問題。
你如果仔細觀察會發現說唱部分中間有一段停頓,人物的表情神態也很自然,活人感十足。不過也不是完美無缺,男歌手的手看起來就怪怪的。
Pika 官方也分享了幾個用戶制作的精彩視頻。
![]()
地址:https://x.com/pika_labs/status/1955007656302924192
對于不同語言,Pika 生成的效果看起來也非常不錯。
![]()
還可以生成一段不是吉米的吉米秀,AI 演員的表現力非常不錯。
![]()
用來拍電影怎么樣?讓亞洲面孔的大叔一口印式英語,吐槽露營的糟糕體驗。
![]()
還可以直接來一場 live 秀!
![]()
我們可以預見,它將很快成為社交媒體上的新寵,誕生無數有趣的 Meme 和創意短片。
但它的潛力遠不止于此:獨立游戲開發者可以用它快速生成 NPC 對話動畫,教育工作者可以制作更生動的講解視頻,甚至在不遠的將來,我們每個人都能擁有一個專屬的、能言善辯的 AI 數字分身。
當然,技術總是一把雙刃劍。當任何圖片都能被賦予任何聲音時,如何辨別信息的真偽也成了我們必須面對的新課題。
但無論如何,一個全民參與、創意迸發的視頻新時代,似乎已經敲響了大門。下一個引爆全網的病毒視頻,或許就將出自你我之手。
視頻鏈接:https://mp.weixin.qq.com/s/EBQUtfKuPaXNLpAZcsM3NQ



京公網安備 11011402013531號