
作者 | Yoky
郵箱 | yokyliu@pingwest.com
5500萬GMV,這可能是迄今為止,一個AI數(shù)字人單次直播帶來的最高銷量。
過去幾年內(nèi),數(shù)字人直播代替真人主播的傳言總是一波又一波,空無一人的直播基地?zé)o數(shù)手機(jī)屏幕“自動地”產(chǎn)生著GMV,這個畫面曾經(jīng)擊中了無數(shù)網(wǎng)友的心。但現(xiàn)實是,這些數(shù)字人們機(jī)械重復(fù)的動作、無法隨機(jī)應(yīng)變的話術(shù)反而讓真人主播們都松了一口氣。
但這次,真正的轉(zhuǎn)折點來了。6月15日,羅永浩數(shù)字人在百度直播的第一次亮相,連播近7小時,達(dá)成了1300萬人次觀看、GMV突破5500萬的成績,不僅破了AI數(shù)字人圈里的記錄,甚至超過了真人的記錄——互動量超真人直播間3倍。

一直以來,數(shù)字人技術(shù)成熟度的一個核心評判標(biāo)準(zhǔn),都是與真人主是否存在差距,以及有多大的差距。而在此次的直播間,彈幕里“這是真的還是假的”的評論不斷刷屏,已經(jīng)證實了這次AI數(shù)字人的驚人效果。
更重要的是,這不是一次炫技式的表演,而是百度AI在真實商業(yè)環(huán)境的實戰(zhàn)演練。當(dāng)整個行業(yè)還在為文生視頻的“確定性” ,百度已經(jīng)用AI為商家和創(chuàng)作者們端起了第一個能真正“養(yǎng)活”自己的“飯碗”。
如何用AI煉成“真”羅永浩?
這背后并非單一模型的技術(shù)突破,而是一套多模協(xié)同的數(shù)字人技術(shù)。簡單來說,這套技術(shù)將語言大模型置于“總導(dǎo)演”的位置,統(tǒng)籌指揮著語音、視覺等各個“演員”,完成了一場幾乎以假亂真的演出。

與傳統(tǒng)數(shù)字人技術(shù)形成鮮明對比的是,過去的方案往往采用語言、語音、視覺三條獨立流水線,各自生成內(nèi)容后再強(qiáng)行拼接,這必然導(dǎo)致音畫不同步、表情僵硬、言語乏味等問題。
百度的技術(shù)方案重點包含劇本驅(qū)動的數(shù)字人多模協(xié)同、融合多模規(guī)劃與深度思考的劇本生成、動態(tài)決策的實時交互、文本自控的語音合成、高一致性超擬真數(shù)字人長視頻生成五項創(chuàng)新技術(shù),實現(xiàn)了數(shù)字人“神、形、音、容、話”的高度統(tǒng)一。最終呈現(xiàn)出一個具備高表現(xiàn)力,內(nèi)容吸引人,人-物-場可自由交互的超擬真數(shù)字人。
具體而言,“劇本”模型扮演了總指揮的角色。它在生成時輸入的并非只有文本,而是包含商品信息、歷史視頻、主播人設(shè)要求等多模態(tài)信息。劇本會生成對視覺和語音的具體要求,即所謂的“標(biāo)簽”,為后續(xù)的視覺和語音模型提供方向性指引,從而確保內(nèi)容、語氣和表情在語義上的高度一致性。
百度集團(tuán)副總裁吳甜告訴,多模態(tài)協(xié)同的難點在于多個模型對于要求的理解是一致的。這意味著從劇本(導(dǎo)演)到語音、視覺(演員),整個團(tuán)隊對表演基調(diào)有統(tǒng)一認(rèn)知。同時,各個演員(各模態(tài)模型)又保有自己的“發(fā)揮空間”,比如語音模型會根據(jù)自身對文本的細(xì)粒度理解調(diào)整語調(diào)頓挫,而不是完全被劇本的詞語鎖死。
以羅永浩數(shù)字人劇本為例,基于文心大模型4.5 Turbo生成的劇本,充分展現(xiàn)了主播的個人特色,具備典型的羅氏幽默風(fēng)格,并能夠?qū)崿F(xiàn)雙人主播的內(nèi)容協(xié)同,動態(tài)實現(xiàn)豐富的實時互動。
在單體完成“真老羅”的打造后,體現(xiàn)直播生命力的實時互動成為另一個更關(guān)鍵的挑戰(zhàn)。面對評論區(qū)海量、無序的用戶提問,以及與助播的配合上,數(shù)字人如何做到實時、自然的回應(yīng)?這背后是一套動態(tài)決策系統(tǒng)。
在直播過程中,模型并非對每個問題都立即回復(fù)。系統(tǒng)會對評論區(qū)進(jìn)行智能分析,結(jié)合主播當(dāng)前的講解節(jié)奏,選擇合適的時機(jī)、合適的問題,以及合適的回答策略進(jìn)行觸發(fā)。這種“謀定而后動”的機(jī)制,遠(yuǎn)比簡單的“一問一答”更接近真人主播的互動邏輯。
為了徹底解決實時生成的延遲問題,百度采用了“流式生成”的工程化設(shè)計。語言、語音、視覺三個模態(tài)并非串行等待,而是像流水線一樣并行工作,極大縮短了用戶感知的時延。同時,系統(tǒng)采用“離在線統(tǒng)一”的方法,部分可預(yù)見的交互內(nèi)容可以提前處理,而需要即時反應(yīng)的部分則在線動態(tài)生成。通過系統(tǒng)性優(yōu)化,成功解決了生成視頻這類高耗時任務(wù)的卡點問題,最終實現(xiàn)了絲滑的交互體驗。
更進(jìn)一步地,在雙人直播中,大量的打斷、復(fù)說、搶話等場景對語音合成提出了極高要求。吳甜提到,通過引入“對話上下文解碼器”,模型能夠結(jié)合歷史對話信息進(jìn)行推理,從而實現(xiàn)老搭檔之間那種默契、自然的對話流。
在數(shù)字人形象生成以及驅(qū)動方面,百度通過結(jié)合多模態(tài)視頻理解、跨模態(tài)信號生成、視頻生成等技術(shù),克服了高可控交互,高精度、長時間一致性保持等難點,實現(xiàn)了高一致性超擬真羅永浩數(shù)字人長視頻生成。
而且在此過程中,能保證語音、口型、表情與動作始終保持高度同步,從而實現(xiàn)真正的「音、容、話」一致。
從煉成“羅氏幽默”到跑通商業(yè)閉環(huán),百度數(shù)字人不僅為行業(yè)樹立了新的技術(shù)標(biāo)桿,更重要的是,它為AI技術(shù)如何從“熱搜”走向真實的生產(chǎn)線,提供了一份極具說服力的答卷。
不要“超級應(yīng)用”,要“超級有用”
對于在直播電商紅海中拼殺的千萬商家而言,現(xiàn)實的挑戰(zhàn)正變得愈發(fā)尖銳:頭部主播簽約費動輒千萬,自建團(tuán)隊每月固定開銷數(shù)萬甚至數(shù)十萬,而流量獲取成本卻在持續(xù)攀升。在這種環(huán)境下,如何在保證效果的前提下控制成本,成為每個商家必須面對的生存課題。
數(shù)字人技術(shù),一度被視為破局的希望。然而,早期的數(shù)字人更像是一個“不知疲倦的播報員”,形象呆板、互動生硬,無法傳遞信任,更遑論激發(fā)購買欲。它們解決了“有沒有”的問題,卻沒能解決“好不好用”的核心痛點。市場真正需要的,不是一個僅僅能節(jié)省成本的“工具”,而是一個能真正替代真人、創(chuàng)造價值的“戰(zhàn)力”。
那么,一個“真正可用”的數(shù)字人到底意味著什么?它不僅要形象逼真,更要具備三項核心能力:能理解商品、能與人互動、能建立信任。羅永浩數(shù)字人直播的案例,恰恰為這三點提供了行業(yè)標(biāo)尺。它不再是簡單的產(chǎn)品復(fù)讀機(jī),而是能用“羅氏幽默”與觀眾調(diào)侃,能根據(jù)實時提問調(diào)整講解策略,最終實現(xiàn)了與真人主播幾乎無異的帶貨效果。
從商業(yè)角度審視,這背后反映的是兩筆關(guān)鍵賬目的變化:
第一筆是成本賬。數(shù)據(jù)顯示,數(shù)字人直播能平均降低約80%的成本。這意味著商家可以將過去投入在昂貴主播身上的預(yù)算,轉(zhuǎn)移到供應(yīng)鏈優(yōu)化和市場推廣上,徹底重構(gòu)成本結(jié)構(gòu)。千元級別的投入,就能獲得一個7x24小時在線的主播,這在過去是不可想象的。
第二筆是效率賬。在保健品、教育、旅游等需要深度講解的品類上,知識儲備無限、表達(dá)精準(zhǔn)無誤的數(shù)字人,其轉(zhuǎn)化效率已開始超越真人。對于擁有好產(chǎn)品但缺乏優(yōu)秀主播的商家,或是不希望核心名師被直播消耗的教育機(jī)構(gòu)而言,數(shù)字人代表著一條全新的增長路徑。
“好用”的數(shù)字人并非憑空而來,它的出現(xiàn)反映了不同公司在技術(shù)路徑上的戰(zhàn)略分化。當(dāng)我們從市場應(yīng)用效果反推其背后的技術(shù)邏輯時,百度的選擇便清晰地浮現(xiàn)出來。
當(dāng)前行業(yè)的主流敘事集中在卷模型,各家比拼參數(shù)規(guī)模和基準(zhǔn)測試成績。而百度的路徑更偏向卷應(yīng)用,這一選擇的底氣源于其在多模態(tài)技術(shù)上的長期積累。
這種“應(yīng)用為王”的戰(zhàn)略,最終指向的是生產(chǎn)力的規(guī)模化落地。復(fù)刻羅永浩更多是技術(shù)天花板的展示,其真正的商業(yè)價值在于將這種能力以低門檻、可復(fù)制的方式賦能給廣大中小商家。百度電商總經(jīng)理平曉黎在接受采訪時表示,相比追逐頭部IP,更傾向于“讓更多的中小商家、腰部商家,還有創(chuàng)作達(dá)人能夠做起來”。
更關(guān)鍵的是,這條路徑驗證了AI產(chǎn)業(yè)期待已久的商業(yè)閉環(huán)。從行業(yè)發(fā)展的角度看,羅永浩數(shù)字人直播的意義遠(yuǎn)超一場帶貨本身。它為AI產(chǎn)業(yè)提供了一個清晰的價值驗證:技術(shù)的最終價值必須通過為實體經(jīng)濟(jì)創(chuàng)造可度量的商業(yè)成功來檢驗。這種“超級有用”的路徑,或許比追逐“超級應(yīng)用”的概念更具現(xiàn)實意義。當(dāng)然,這種模式能否被廣泛復(fù)制,以及在更多垂直領(lǐng)域的適用性,仍需要市場的進(jìn)一步檢驗。





京公網(wǎng)安備 11011402013531號