
如何突破行業卡點,跑通技術產品和場景驗證閉環?
?????????????文|徐鑫
編|任曉漁
如火如荼的生成式AI浪潮正走向應用爆發前夜,不過應用規模化落地,一直面臨兩大鴻溝——落地成本和價值驗證。
現在,數字人直播領域有望率先實現跨越,迎來拐點。
過去一年,AI技術進步使得數字人成本進一步降低,落地成本從今年年初開始已不再是卡點,行業正加速逼近盈利線。最近,數字人直播規模化應用另一道枷鎖也在被砸碎——
特看科技發布第四代直播數字人,在新一代大語言模型和多模態模型技術支持下,數字人直播效果正從真人的70%水平逼近90%。
“它說‘沖’的的時候,語氣、聲音、手部的動作配合非常自然,已經跟真人表現沒什么區別。一切全由AI生成,不再是對口型的數字人,數字人直播的GPT-4時刻已經到來。”特看科技CEO樂乘(原阿里花名,本名吳春松)判斷,數字人直播將加速從小眾嘗鮮快速走向大眾應用階段。
對于直播行業,這是一場大變局。數字人直播的應用場景和行業滲透率都將迎來變化,更長期看它可能也會影響直播行業里流量分配機制。
與此同時,外界也好奇,成立三年的AI應用公司特看科技到底什么來路,為何能率先突破行業卡點,跑通技術產品和場景驗證閉環?
01
規模化落地時刻
你肯定見過直播間里的數字人。
大多數人對這些直播數字人的印象還停留在能介紹產品信息,但細看總有點不自然的階段。比如口播的內容非常有激情但數字人的語氣平淡沒有情緒起伏,要么主播手部動作與說話的節奏不匹配,還有可能數字人的動作單調重復,看起來機械和呆板。
是時候改變一下刻板印象了。過去大半年,在多模態及大語言模型快速進步驅動下,直播數字人的表現正超乎許多人的想象。
比如上面這個聲情并茂、怎么看都是真人的主播,出自特看科技最新發布的第四代直播數字人產品。
它的效果看起來非常自然,講述內容、口型、動作、語氣的匹配也非常協調,甚至看不出來是個數字人。
特看科技CEO樂乘介紹,新發布的第四代數字人產品已經擺脫了對口型階段,從數字人手部動作、面部表情、聲音、情緒與內容的匹配全都由AI驅動,效果能達到真人90%水平。“這是很重要的一個跨越”,樂乘將之類比為數字人直播的GPT-4時刻。
熟悉大模型發展歷程的人知道,GPT-4之后,ChatGPT的用戶量實現了月活過億到周活過億,月活十億規模的躍遷,大模型真正從偏愛好者走向了大眾市場。
“看起來逼近真人,效果達到真人90%水平”的數字人,為什么會被視作規模化應用的分水嶺?
就像很多AI應用有采納率指標一樣,實際上,直播行業對數字人的效果也有一套從定性到定量的衡量標準。
定性的指標來自各大平臺的直播間質量評估團隊的平均意見分數(MOS)。比如淘寶平臺內部的MOS打分系統,兩撥人盲打分,評估平臺內所有的直播間是不是真人,從而來保護消費者體驗。平臺MOS分打完后,得分最高的數十個數字人直播間會進入公域流量池。
定量方法則更為簡單粗暴,就看小時成交效率。數字人和真人同時播,同一時段,同樣的貨,看交易數據。數字人表現越好,消費者就會用交易來給數字人的效果投票。
“定性確保內容體驗,定量看成交效果,兩個維度統一來對比數字人與真人的差距。”樂乘說。
行業內有共識,直播效果只能達到真人70%水平時,數字人就沒有辦法承載很大的流量。因為對商家而言,總有三成的生意會丟掉,對平臺而言,流量的轉化效率仍然不夠高。此時,數字人在直播場景里只能作為補充手段,比如在晚上時段播一播,很難成為主流的直播方式。
而當數字人能達到真人的90%到95%階段,多數商家不會太在意950元還是1000元的營收差距,他們對數字人直播的態度就會從觀望、無感轉向開始用起來。
“一些客戶之前對數字人直播無感,可能還有點嫌棄對口型技術,特看第四代產品出來后,他們眼前一亮,這時候他們心態就完全變了”,樂乘觀察到客戶的態度在發生變化。
效果提升讓規模化應用的一大障礙被掃清。同時,許多人關注的數字人直播的成本,也不再是行業卡點。過去一年多,技術進步下,數字人落地成本已經有了長足的下降,最主要的削減來自模型泛化能力增強,數字人生成不用單獨建模。
以特看科技為例,2023年制作數字人需要提交十分鐘視頻,基于提交的視頻再去專門建模訓練,不算后續使用,單個數字人建模成本至少要耗費五千到一萬,極大限制數字人的推廣。當時服飾的商家不可能用數字人直播,因為每一個款都要拍視頻單訓模型,商家根本用不起來。
到今年年初,行業里領先的玩家比如特看已經不需要用提交視頻單獨再去訓模型,AI能直接生成數字人的口型和動作,成本大幅降低。企業只需要按使用時長付費,數字人直播成本已經降至真人直播的五分之一。
“效果上有突破,成本本身也不再是卡點,數字人直播就能完成從小眾產品向大眾市場的躍遷,從少數商家補充手段變成大部分商家的主流直播手段”,樂乘判斷接下來一年數字人直播市場規模可能會翻倍。
02
一家創業公司
如何快速跑通技術產品和場景驗證閉環
數字人直播跨越鴻溝在即,技術進步當然是最大的驅動因素,這也是當下這波AI應用熱潮最大的特征之一。
視頻生成類基模升級,AI涌現出的物理理解能力、人物情緒表現力、圖像理解和生成能力等持續進化,驅動了數字人的能力躍遷。

“比如動的時候,講話的時候與全身動作、神態的自然協調,都需要有更強的人體、周邊環境、物理世界、空間理解能力,基礎模型在推理和多模態能力的進步,帶動了數字人生成效果升級。”行業資深人士稱。
行業基建成熟之外,在直播場景里還需要AI應用商們快速將技術、產品能力基于場景完成驗證迭代,才能讓技術加速突破。在這一重要節點,作為成立僅三年的AI應用公司,特看科技率先將數字人直播效果從此前的70%拉高到90%水平,也受到了業界的廣泛關注。
樂乘認為,目前,特看科技在數字人直播場景形成了從技術、產品到運營能力的完整能力循環,這也是他們能率先突破節點的原因。“直播間其實是一個很收斂的場景,一個主播站在空間里表達產品,人、貨、場相關因素非常固定。我們用場景內數據去微調優化模型,使得特看的模型在直播間場景的表現能比基模更優。”
而除了技術維度,AI應用在產品層面還需要持續沉淀互動、成交和電商帶貨邏輯,才能完成AI落地。過去三年特看直播數字人經歷了四個版本迭代,持續將對直播場景如何利用好AI來提升商家內容供給能力的理解注入產品。
這其實與特看科技的基因一脈相承。這家AI應用公司的創始團隊來自阿里,CEO樂乘曾在第一波深度學習浪潮里,帶領團隊打造了淘寶智能設計系統“魯班”。它的初衷就是用AI在策劃設計等環節幫助商家降低門檻,擴大優質設計供給。
特看科技成立后,ChatGPT橫空問世讓他們意識到AI數字人直播是很好的載體,可以幫助商家提升內容供給能力。這支團隊過往用產品技術來降低商家經營門檻的理解和沉淀在新創業的產品上有了被復用的可能。
樂乘介紹,他們對數字人直播的理解是“身體+大腦”,這也是數字人直播的第一性原理。身體是載體,依賴多模態技術的成熟,而大腦表現更智能則需要大語言模型加上智能體加持。
在基模能力尚不足時,他們早早在直播場景里把應用和產品做深,一旦基模能力進步他們就快速切換。落后的發動機先讓飛機飛起來,等新的發動機好了再完成替換。這些產品應用層的積累最終轉化成團隊身上的肌肉,在這波AI浪潮里搶得先機。
特看還從運營層面降低客戶使用的門檻。當下許多商家客戶不具備數字人直播應用的運營能力,特看專門有代運營服務團隊幫助客戶去代運營實施。兩年前一些頭部客戶已委托特看幫助代運營,過去兩年里他們與這批先鋒客戶持續打磨,較早在技術、產品和場景驗證間跑通了閉環。
“當下特看可以給客戶交付結果,為成交負責,而不只是賣個軟件”,樂乘認為,Result as A Service是當下這波AI應用區別于上一代SaaS最大的不同,特看第四代產品上也將嘗試按結果付費的分潤模式。
過去三年,數字人市場經歷了不少喧囂起伏。大模型讓數字人市場迎來新的發展機遇,但同時也不乏機會型玩家下場掘金,2023年年中市面一度出現上千家代理商賣良莠不齊的數字人。當時樂乘和他的團隊十分克制,保持了較小的團隊規模專心打磨技術和產品。他認為,“泡沫總會消失,市場最終要看產品和能力”。
當下技術已有突破,特看正基于第四代數字人做一些有趣的嘗試。比如一家國內頭部運動品牌希望能在AI試衣場景合作。“直播間里主播離開畫面之后是去換衣服,未來數字人離開畫面其實是AI在生成,這其實也是數字人身體能力更成熟的表現。”
而圍繞著數字人大腦能力,特看已基于智能體編排數字人直播的運營全流程,未來整個直播周期從前期策劃、腳本、話術生成、畫面、問答包括數據復盤,全鏈條都由一個個Agent串聯。目前這套Agent工作流已經在特看內部使用,年底將對外開放。
03
直播大洗牌,數字人直播將創造增量市場
“技術發展速度比我們預想最樂觀局面更快”,樂乘感慨這波應用熱潮的非線性增長特性,突破拐點后爆發會異常迅猛。
特看科技有過一個估算,當數字人直播只有真人70%效果,市場滲透率只有5%,行業規模在2億左右。突破了90%是個節點,明年他們判斷市場滲透率會提升到10%,市場規模會擴大到4億,到2027年又會再度翻倍。
直播生態也將迎來變局。數字人直播的類目、場景擴展,它在企業經營中角色也有變化。
過去幾年,市場上最先應用數字人直播技術的商家來自本地生活板塊。當時數字人主要是坐著直播,動作幅度小,本地生活類目產品不用拿實物展示,更能規避數字人能力的短板。
之后隨著數字人動作越來越自然,有實物的美妝類商家也開始用數字人。今年,隨著AI技術能生成的范圍擴大到全身動作上,比如可以在直播間很自然地走來走去展示,服飾類商家也開始擁抱數字人直播技術。可以說品類的擴張,跟隨技術進步而逐步擴張。

而商家們用數字人直播的場景也在擴大。貨架電商場景擁抱數字人最自然,商家們用數字人能更方便多渠道經營,比如在淘寶、京東、拼多多、唯品會等主流貨架場景都用上數字人。現在一些商家把數字人放到私域的小程序里做一對一導購,消費者進來用不同數字人做可導入問答,也有品牌把數字人往線下門店放。
業界觀察,數字人直播的第一批買單者往往是頭部品牌。它們在戰略上擁抱數字化,加上本身在直播場景做了很廣的投入,比如有自播、達播或者通過代運營公司直播等多種手段。隨著AI技術成熟,AI直播是這些頭部企業的補充手段,未來它們的直播選擇往往是真人和AI混播。
隨著數字人直播技術發展,有一波新買單者來自原本靠客服來直播的中小商家團隊,因為數字人直播的效果會明顯好于客服這類非專業主播,企業能算清ROI。
更大的市場增量則來自此前因直播投入大不敢貿然進入直播賽道的商家群體,樂乘判斷這個群體未來可能會占據數字人直播市場的半壁江山。
“守著傳統貨架電商里中有龐大的群體之前不敢花錢建直播團隊,現在AI大幅降低門檻,提供了好的直播能力基建,他們就有條件直播,這會給平臺制造一大批增量商家。”樂乘說。
不同于其他類型的應用,數字人直播的規模化進展與平臺政策高度相關,外界也關注,數字人效果變好后平臺是否愿意數字人規模應用開綠燈。
樂乘和特看習慣從平臺、商家、消費者、服務商四重視角來思考這個問題,這也是他們的阿里背景帶來的全局的思維,“當數字人效果不好,會破壞內容生態時,平臺一定不會愿意給流量。一定是商家、平臺、消費者都滿意之后,數字人直播才會成為做成更大的一件事”。
當下數字人直播效果提升,成本下降,對商家而言能提高內容供給能力;對平臺而言能帶來新的商家供給,同時不破壞原有的內容生態體驗;對消費者而言,則有可能在直播場景獲得更廣的商品及內容供給。樂乘認為,多方共贏后,服務商就會從這三方收益里贏得市場蛋糕。
另外,數字人直播能為店播提供高質量內容供給后,平臺的流量傾斜策略可能也會發生變化,比如流量池子從達播向商家店播轉變,這可能為未來天價直播生態的演進埋下伏筆。
這波AI應用浪潮另一大特征是生而全球。以特看科技為代表的頭部數字人應用在國內市場劃出漂亮的增長曲線時,也積極進軍海外。比如特看的直播數字人一方面跟著中國品牌商家出海到東南亞,同時它也在服務不少東南亞本土品牌。
一個反常識之處在于,當下東南亞的人力成本低,數字人直播并不具備明顯成本優勢,但商家們擁抱AI的決心比想象中強烈。因為管理當地的主播難度很高,而AI則能更快規模化,也不存在文化隔閡和管理成本。
在東南亞市場,特看已經服務了不少標桿客戶,增長勢頭不俗。樂乘認為中國在數字人直播上走在前列是一種必然。“中國電商直播生態領先全球,移動互聯網時代電商生態領先就積累下了應用優勢。現在AI來了,從國內市場廝殺出來的玩家自然具有全球競爭力”。
©本文為數智前線(szqx1991)原創內容





京公網安備 11011402013531號