![]()
萬相2.6系列模型的發布,再度印證了一件事,只要阿里云提提速,全球大模型產業就會上一個強度。
阿里云將大模型戰火燒到了多模態領域,這在行業預期之內。今年以來,多模態模型的調用量大規模增長,因為隨著大模型的加速落地,行業很快發現,文本能解決的問題有限,現實世界天然就是多模態的輸入輸出形態,多模態模型預計成為未來一段時間產業競爭的主線。
行業預期之外的是,阿里云在多模態領域的追趕和落地效率。以往阿里云并不以多模態模型見長,不過就像谷歌聯合創始人謝爾蓋?布林所言,真正解決問題的是算法改進,過去十年里,算法層面的進步,其實跑得比算力提升還快。
阿里目前沒有披露整體算法的技術細節,有據可查的是,通義萬相在模型結構上集成了多項創新技術,可對輸入參考視頻進行多模態聯合建模與學習,參考具有時序信息的主體情緒、姿態和多角度全面視覺特征,同時提取音色、語速等聲學特征,在生成階段作為參考條件控制,實現從畫面到聲音的全感官全維度一致性保持與遷移。
在AI軍備競賽中,新模型往往只是阿里云的沖鋒號,更值得關注的,是阿里云三位一體的“打擊”能力:首先拿出世界第一梯隊級別的閉源模型,掌握技術和商業的主動權,然后做該領域的全開源,應用門檻大幅降低,應用生態加速繁榮,最后是讓AI落地到產業,阿里云提供體系化的工程能力。
大模型,阿里云為何這么“卷”
在所有關于AI的敘事邏輯中,模型都是原點,但是,對于要不要自研模型,縱使頭部廠商也有分歧。
例如早期OpenAI和微軟的合作,憑借對OpenAI的前瞻性投資,微軟拿到了GPT大模型的優先使用權,但OpenAI并不滿足于成為微軟體系內的模型供應商,雙方早期緊密的綁定關系早已出現裂痕。
AWS信奉模型自由,“沒有一個大模型能滿足所有客戶”,于是AWS引入各大模型托管到自家平臺,然而,頂級模型具有稀缺性,要么在競爭對手那,要么模型企業傾向于自己提供服務,用戶無法獲得最好的模型體驗。
和微軟、AWS不同,阿里云堅定地走上了另一條路,堅定自研大模型,尋根究底的話,在于不同廠商對模型的認知不同。如果把模型視作最根本的核心競爭力,那么就必然要掌握在自己手中,反之則可以通過合作等方式來補足。
阿里云的觀點是,未來模型將運行在所有計算設備中,并具備可持久記憶,端云聯動的運行狀態,甚至可以隨時更新參數,自我迭代,類似今天的OS運行在各種環境之中。
對于一個操作系統級別的新技術,阿里巴巴理所當然地選擇舉全公司之力投入。隨著時間的推移,微軟和亞馬遜也紛紛加大自研模型的投入,不再過度依賴其他模型廠商的供應,這也從側面印證了阿里云早期戰略預判的正確性。
回到模型本身,自研領先的閉源模型,對云廠商而言不僅是技術的象征,更是一種戰略級資源。通義千問旗艦模型Qwen3-Max性能超過GPT5、Claude Opus 4等,躋身全球前三,頂尖閉源模型吸引了大量開發者、企業和合作伙伴在其上構建應用,形成高粘性網絡效應,阿里云得以在產業鏈上占據主動權。
再以萬相2.6系列為例,國內用戶也能使用到Sora2級別的能力,其不僅是全球功能最全的視頻生成模型,該系列模型面向專業影視制作和圖像創作場景進行了全面升級,也是國內首個支持角色扮演功能的視頻模型,同時支持音畫同步、多鏡頭生成及聲音驅動等功能。
模型領域有突出的馬太效應,一步領先,步步領先。萬相模型家族已支持文生圖、圖像編輯、文生視頻、圖生視頻、人聲生視頻、動作生成、角色扮演及通用視頻編輯等10多種視覺創作能力,已廣泛應用于AI漫劇、廣告設計和短視頻創作等領域。
自研領先閉源模型,是云廠商從技術能力到商業生態、從競爭壁壘到戰略主動權的核心引擎,也是未來競爭格局中最關鍵的籌碼。
阿里開源的意義,還是被低估了
中國廠商素來在開源技術圈聲量不大,拿得多貢獻得少,到了大模型時代,阿里云成為國內最早開源自研大模型的“大廠”,也是全球唯一一家積極研發先進AI模型并且全方位開源的云計算廠商,業界率先實現“全尺寸、全模態”的全面開源。
阿里內部達成共識,通義千問選擇開放路線,是為了打造AI時代的Android。在LLM時代,開源模型創造的價值和能滲透的場景,會遠遠大于閉源模型。
海外企業反而開始秘而不宣,不論是OpenAI、Anthropic這些大模型廠商,還是谷歌等巨頭,甚至一開始走開源路線的meta,都走上了閉源路線。
從2023年至今,阿里通義團隊已開源300多款模型,包含大語言模型千問Qwen及視覺生成模型萬相Wan等兩大基模系列。
「全模態」指的是開源文本生成模型、視覺理解/生成模型、語音理解/生成模型、文生圖及視頻模型等;「全尺寸」指的是開源模型覆蓋0.5B、0.6B、1.5B、1.7B、3B、4B、7B、8B、14B、30B、32B、72B、110B、235B、480B等參數,同時Qwen支持中、英、法、德、西、俄、日、韓、越、阿拉伯等119種語言及方言。
阿里提供了各種場景下的更好模型,這是由市場決定的,客戶需求分散,行業場景千差萬別,預算、時延、部署要求完全不同,某種程度上和AWS“沒有一個大模型能滿足所有客戶”的理念類似,但是阿里云優先由自己來提供大語言模型、多模態模型,以及不同尺寸、不同成本、不同部署形態的模型組合。
對于全球開發者而言,Qwen開源模型已經成為依賴,美國AI專家Nathan Lambert發出“硅谷建立在Qwen之上”的驚嘆,谷歌前CEO施密特甚至表示擔心這將削弱美國技術領導力,因為大多數國家和公司會選擇開源的中國開源大模型。
截至目前,通義千問Qwen衍生模型數量已突破18萬,遠超meta Llama系列模型;通義千問Qwen在全球下載量超7億,據彭博統計,截至2025年10月,千問Qwen下載量也已超越Llama模型,通義成為事實意義上的全球第一AI開源模型。
開源對于阿里云也大有裨益,作為AI和云計算市場的追趕者,開源模型讓更多企業和開發者參與,也讓阿里云成為底層規范和實踐的參考,吸引更多的用戶使用阿里云生態,這是一個雙贏局面。
在一個高度依賴算力、數據和資本的賽道里,大模型天然有走向“寡頭化”的風險。少數公司掌握最強模型、最先進算力,其余玩家只能圍繞API做應用,行業創新的天花板被提前鎖死。
阿里的開源,在某種程度上拉低了這條門檻。它讓更多開發者、中小企業和行業玩家,有機會直接參與到底層模型與工程體系中,而不是永遠停留在調用者的位置。
體系化AI工程,大模型深入產業場景
過去一年,阿里云AI算力增長超5倍,AI存力增長4倍多,頭部車企正在基于Qwen-VL定制了自己的VLA和世界模型,數十家具身智能企業在和通義進行合作,甚至連競爭對手在進行具身領域的技術探索中,也使用了Qwen系列模型。
這說明,阿里云的能力邊界早已超出模型之外,有了頂級閉源模型作標桿,開源模型實現能力下沉和生態繁榮,阿里云讓前沿模型轉化為產業價值的關鍵,就在于體系化的AI服務。
過去兩年中,產業鏈廠商都在加速推出各類工具和服務,以支持生成式AI的完整工程化流水線,不再局限于對生成式AI模型進行簡單的提示(prompt)調用,而是蔓延到數據準備、模型訓練/精調、模型管理、評估、觀測等模型全生命周期工具。
以時下火熱的自動駕駛和具身智能為例,需要多模態模型端到端的服務。其中,汽車自動駕駛需處理采集車與量產車回傳的海量圖像數據,傳統CV小模型的語義理解弱、泛化差、準確率低。
采用通義千問多模態大模型Qwen3-VL后,可一次性為圖像打上數百個語義標簽,泛化能力與檢索準確率較傳統方案提升50%以上,車企既可直接調用其云端服務處理難例場景,又可依托其開源開放特性自主微調模型,大幅降低標注與迭代成本。該方案已落地比亞迪、卓馭、元戎等廠商。
在具身智能研發中,Qwen-VL在云端數據標注階段,可顯著提升標注效率與數據質量,在端側,面向Vision-Language-Action(VLA)架構的具身智能企業基于Qwen-VL開展后訓練,加速了具身智能系統的工程化落地與高效迭代。
工程化能力的優勢就在于它將模型的能力轉化為可復用、可擴展、可落地的業務工具,極大降低了標注成本、訓練成本和迭代時間,同時保證了系統的穩定性與可控性。
智能硬件也是多模態模型一個充滿想象空間的市場,雷鳥V3 AI眼鏡融合Qwen-VL、Qwen-Audio,AI識別準確率達98%;創維電視和閨蜜機依托Qwen-VL與CosyVoice,實現99%意圖識別精度的深度內容搜索;聽力熊V8基于Qwen-Omni和Qwen-VL能力,通過拍照觸發AI講解,交互頻次翻倍。多模態能力正讓AI深度融入物理世界,重塑終端體驗。
此外,在金融場景非結構化數據的處理階段,Qwen-VL可實現材料解析效率提升70%以上,定損、投研等流程從小時級壓縮至分鐘級。
結合如上實踐來看,體系化AI工程的核心,就是把大模型的能力從實驗室搬到產業場景,其中涉及到復雜的場景拆解和能力重組,它不僅包括模型本身的訓練和優化,還涵蓋數據采集與標注、算力調度、分布式訓練、推理加速、微調與定制化部署等全鏈路能力,這也是阿里云作為云廠商的先天優勢。
三位一體的全棧AI體系,使得阿里云有能力完成AI價值傳導的閉環,真正把大模型從實驗室推向現實世界,把能力優勢轉化為產業競爭力,也讓整個行業的格局隨之重塑。(作者|張帥,編輯|蓋虹達)





京公網安備 11011402013531號