9月1日,「阿里云-云工開物」邀請了4位院士/教授,用“自己的數字分身”給大家講授AI相關的知識。此次「開學季 Ai 第一課」采用的技術,是由此前曾報道的「數字生命技術領域創新企業「MyTwins.ai」提供的。

張亞勤院士的數字人(采用MyTwins.ai數字分身技術生成) 圖片MyTwins.ai
本次公開課導師包括圖靈獎得主John E. Hopcroft,中國工程院院士、清華大學智能產業研究院(AIR)院長張亞勤,浙江大學人工智能研究所所長吳飛,復旦大學計算機學院教授黃萱菁,阿里云高校合作部負責人李貝,向觀眾展示了教育領域可以用老師的數字分身來給學生講課。
作為數字分身直播產品的提供方,MyTwins.ai在年初與淘寶知名頭部主播陳潔Kiki合作后,持續進行了一系列技術迭代,現階段已經能夠讓數字分身以不同的體態、表情、拍攝角度“出鏡”,適應更多視頻及直播環境。
數字人直播帶貨的概念在近年來逐漸火爆,成為電商競爭新賽道的同時,也掀起了數字人技術新一輪的發展浪潮。而在AI技術的支持下,數字人主播以其低成本的優勢,吸引了大量的關注。
圖片MyTwins.ai
早期很多數字人產品,只能讓數字人保持單一體態,根據口播內容做一些簡單的口型變化和上肢動作。MyTwins.ai相關負責人告訴,早期數字人受限技術而無法做到聲音與口型同步,比如發“阿”的聲音,嘴巴應該是張大的,數字人的嘴巴卻是閉著的。
“后來我們采用3D Flame技術對人臉建模,通過聲音驅動3D幾何表征形變,再使用3D Gaussian進行渲染。在口型、表情、姿態的精準度上,遠遠高于傳統的純2D技術路線所展現的效果。”
此外,為了讓用戶快速拿到生成好的數字分身,降低產品的使用門檻,MyTwins.ai研發了一套通用模型。
該通用模型由兩個模塊構成:基于VAE的Audio2Motion(聲音到3D幾何驅動)算法,在3D幾何空間上實現對口型、表情的驅動;3D->2D的人臉生成算法,渲染出高清晰度、口型貼合的數字人。
以前需要2-3分鐘的視頻素材,花費數小時的時間訓練數字人;在技術組合迭代后,MyTwins.ai已實現用30秒的視頻素材進行小樣本微調,訓練時間縮短到5分鐘,有效提升了效率。
舉例而言,在此次的「AI第一課」中,John E. Hopcroft數字分身建模的原視頻便只有30秒,且在原視頻清晰度較低的情況下,數字人精準還原了“表情、口型”等面部微變化。
當然,數字分身若想適應更多場景,還有很長的路要走。對于MyTwins.ai而言,現階段直播帶貨依然是團隊主攻的研發方向之一。
為了能夠幫商家直播賣貨做成交,MyTwins.ai自研了一整套直播行業AI解決方案,特別是針對直播行業的主播大語言模型。
對于很多商家——尤其是沒做過直播電商的商家來說,從零搭建直播團隊的成本和風險都不小。如果初期效果差,人員工資便是一筆不小的固定支出;效果好了,如果主播團隊選擇跳槽,那商家便又要從頭開始。
MyTwins.ai基于多年在直播領域的數據積累,研發了直播行業主播大語言模型。商家只要輸入“商品名稱、賣點”即可用頭部主播的講品方法論,由AI自動撰寫頭部主播風格的商品賣貨講稿,還能在直播間實時回復用戶的問題,促進成交轉化。
“從海量的直播數據中,我們構建了優質的直播行業數據集,微調開源LLM,并從講品風格、場景營造、深挖賣點、誘導消費等維度,讓模型學習到頭部主播帶貨的講品精髓。”MyTwins.ai相關負責人表示。
艾媒咨詢數據顯示,2023年中國數字人帶動的產業市場規模和核心市場規模分別為3334.7億元和205.2億元,預計2025年將分別達到6402.7億元和480.6億元。隨著數字人產業的不斷成熟,對于商家來說,數字人直播將有機會成為賣貨的核心渠道。





京公網安備 11011402013531號