文| 藍洞商業 趙衛衛
半個月前,騰訊集團湯道生帶著團隊到訪了重慶一家短劇公司麥芽傳媒;但是數日后,麥芽傳媒的CTO李巍登上了字節跳動火山引擎FORCE原動力大會的舞臺。
騰訊想要跟麥芽傳媒在云服務、AI技術應用、數字內容聯合開發與智能分發上進行合作,而麥芽傳媒CTO則公開表達,明年要跟火山引擎在AI漫劇和AI真人劇、短劇AI審核、AI視頻精修和播放器智能超分辨率上探索。
云廠商是短劇的「水電煤」,短劇是云廠商的「練兵場」,這是一種既是內容源,又是客戶的共生關系。后知后覺的騰訊云能撬動火山引擎的客戶嗎?
很難替代,且不說紅果短劇已經成為行業的絕對頭部勢力,騰訊元寶在視頻模型能力上也落后同期的對手豆包和千問。
火山引擎總裁譚待在提到客戶時特意說:「影視創作方面用大模型的進程比我們想象的快一些。之前想到應該很快,沒想到能這么快,現在很多短劇、尤其是漫劇,還有各種AD素材,都在用。」
有提升的模型能力,搭配解鎖的應用場景,最后才能給云廠商們帶來源源不斷的新客戶。這是過去半年,豆包大模型日處理Tokens超過50萬億、增長200%的背后邏輯。
短劇正在成為云廠商們持續解鎖的創新場景之一。不光是字節和騰訊,阿里千問APP也在最近上線了視頻生成模型萬相2.6,「AI小劇場」就是其中一個具體的玩法,具備音畫同步、多鏡頭生成及聲音驅動等多種功能。
阿里和字節是國內AI賽道最大的競爭對手,一個是AI云市場規模第一,一個是AI云市場加速度第一。
就在豆包大模型1.8發布之日,阿里千問App接入首個阿里生態場景高德,開始具備物理世界理解和行動能力,更強的Agent(智能體)能力是它們共同的進化方向,它們瞄準了更細分的用戶市場需求。
憑借各自的生態優勢進行全產業鏈的AI布局,這是目前阿里和字節在AI競爭賽道中的狀態,但隨著競爭深入,這終究是一場零和博弈,還是版圖互補?
多模態模型能力是賽點
豆包大模型日均Tokens使用量已突破50萬億,這是火山引擎「秀肌肉」,而真正的「亮劍」則是推出了豆包大模型1.8和視頻生成模型Seedance 1.5 Pro。
豆包大模型1.8的提升,主要在于給多模態Agent場景進行定向的優化,在上下文管理,多模態理解能力上增強,可落地到安防監控場景中,提升了模型在處理復雜任務時的規劃與執行水平。
而用戶可以在豆包和即夢App端體驗到最新視頻生成模型Seedance 1.5 Pro的能力,它已經實現音畫同步,支持多人多語言對話,能對齊口型,覆蓋四川話、粵語等中文方言、英文及小語種。
快手可靈率先在國內視頻生成模型中取得成績,2025年預計將取得10億元的收入。國內科技巨頭紛紛在這一領域跟進,即夢商業化負責人杜子航在AI應用分論壇說:「即夢是全球僅次于Sora的創作平臺,創作者超10萬名」。
而更重要的是他透露了一組商業化數據,在即夢的真實應用場景中,占比51%的是專業平面設計,占比30%的是內容素材生產,而C端社交娛樂內容占比為19%。也就是說,相比C端用戶的占比,B端專業用戶的付費水平已經占比八成以上。
在底層模型Seedance 1.5 Pro加持下,即夢的產品能力進一步提升,包括節奏性情感表演、多樣化主體和上下文感知等,在圖片處理上也可以通過涂抹框選,進而有強保持能力和精準的響應范圍,輸出影視質感的圖片。
多模態模型能力在過去一年競爭激烈,在調用量上增速很快,已經趨同于語音模型,這成為當下科技巨頭們競爭的賽點。而根據杜子航介紹,面向2026年,即夢將在漫劇等多個領域發力,包括推出多人協作的團隊版。
再反觀阿里,最近也是在多模態模型領域不斷布局,最新推出的視覺生成模型萬相2.6,集成音畫同步、多鏡頭生成及聲音驅動等能力,單次生成視頻時長達到15秒,并引入了「分鏡控制」與「角色扮演」功能,背后核心還是要追求專業影視制作和圖像創作場景的市場空間。
從模型到應用,從硬件到產品,阿里最近在AI領域「擰油門」的狀態就沒有停過。
上線千問APP后,發布夸克AI眼鏡,又成立千問C端事業群,而螞蟻也在通過「靈光」應用和「螞蟻阿福」等產品在健康等細分賽道進行拓展,密集曝光之后,「螞蟻阿福」一度沖進蘋果應用商店免費榜第三位。
如今在模型能力上都能實現「音畫同步」,但阿里萬相2.6和豆包Seedance 1.5 Pro差距有多大?這顯然還需要時間和市場驗證,火山引擎總裁譚待在提到這一功能時明確說,「Seedance 1.5 Pro實現音畫同步,在行業不算首創,但同行功能做了,不代表做好了。」
放在更大的背景中看,字節和阿里在多模態模型能力上的競逐,一方面是對B端企業客戶增長市場的必然追求,而另外一方面也是補齊跟國際同行的差距。
視頻生成能夠實現音畫同步這一功能,是谷歌在今年5月份率先在Veo3上實現的,這給整個視頻模型行業帶來與之看齊的方向,讓AI視頻走出「默片時代」,指令遵循更好、保真度更高。
而在落地場景中,谷歌云業務也給全世界的同行們做出了示范。谷歌云憑借多模態的模型能力,先后拿下了英國廣告公司WPP集團、維珍郵輪等多個企業級大客戶,通過Agent融入客戶公司業務,推動這些大企業AI營銷平臺加速人工智能轉型,已經在國際市場中展開更大的圈地運動。
一場生態位與話語權的變革
對于AI云服務的客戶們來說,能不能用AI模型能力和智能體應用重塑生產力,帶來真切的降本增效,才是選擇的最大標準,因為技術只是表面的護城河,而ROI(投資回報率)才是真正的尺子。
而當Agent開始落地企業真實的場景中,安全性的保證是第一位的,而后才是效率的提升,誰能率先解決復雜任務的穩定性,誰才能通過客戶的最終判斷。
「第一款產品從0賣到30萬臺用了250天,而在火山引擎的支持下,第二代端到端語音模型的AI玩具賣到30萬臺,只用了25天,速度提升了10倍」,躍然創新(Haivivi)聯合創始人高峰在火山引擎FORCE原動力大會上說。
躍然創新是一家AI玩具公司,今年8月發布了第二代產品CocoMate系列,這是搭載端到端語音模型的AI玩具。第二代產品的能力顯著提升,主要是因為火山引擎豆包實時語音模型的支持,CocoMate能識別語氣、理解情緒,支持主動接話并隨時被打斷,響應速度壓縮到1秒以內,而且可以在噪音環境中使用。
在模型能力的提升下,AI玩具行業成為創造新需求的品類整體迎來了大發展。2026年1月,躍然創新還將發布第三代AI玩具,這是一款奧特曼AI互動對話器,用戶可以與奧特曼AI角色進行對話,還支持無限距離組隊對講等功能。
而在當下AI落地真實場景Agent為王的行業共識中,阿里和字節出現了哪些新需求新變化?
阿里AI的核心關鍵詞,是體內循環的「一統」,讓C端的需求匯集到一處。
不論是成立千問事業群,還是把千問打造成一款超級App,本質都是要把阿里計劃將地圖、外賣、訂票、辦公、學習、購物、健康等各類生活場景接入千問,讓其能通過Agent形式外鏈淘寶電商等細分場景中,讓不同的需求對齊到一起。
比如高德此前有AI導航智能體,后來有直接對話的出行生活智能體「小高老師」,這都是存在于高德App內的核心交互模式,而接入了千問之后,在千問App內就可以實現基于高德的服務。
而字節的AI核心策略是體外循環的「下沉」,讓B端客戶的AI使用門檻更低。
在推出智能體統一交互入口AgentSphere時,火山引擎副總裁提到一個顛覆他認知的事情,那就是很多企業中的智能體不是太少,而是太多太散了,這也是造成AI低效的一個重要原因。所以無數個數字員工或是智能體,都將在AgentSphere得到統一的交互,需求不同的用戶看到不同的定制看板,而不是千篇一律的對話框。
而為了降低用戶使用門檻,豆包還拿出了豆包助手API,讓企業通過API開箱即用。也就是說,火山引擎為了下沉,賣的不光是模型,更是封裝好的成熟產品體驗。
參照谷歌Gemini 3.0帶給對手OpenAI的壓力,不光是因為谷歌證明了AI大模型的能力上升有極大的上限,另外一方面也證明了AI落地到公司具體業務中,能把搜索、廣告和Youtube等多個業務生態串聯起來,真正帶來業務效率的提升,給市場看到了真正AI落地可能性。
從谷歌給中國同行帶來的啟示看,懂用戶、更好用的AI產品很重要,但更重要的是AI能力如何準確服務當下的用戶群體,這是一場技術變現效率的比拼,更是一場生態位與話語權的變革。
無論是豆包通過流量入口優勢挖掘B端客戶,還是阿里通過B端服務能力進入C端市場,本質上都是通過各自的優勢地位進行AI全產業鏈的布局,各自的路徑已經越來越清晰,現在階段只是版圖互補,而不遠的未來可能就是一場零和博弈。





京公網安備 11011402013531號