![]()
Sora 2 的與奧特曼對(duì)話的音畫同步視頻生成,還有 Nano Banana Pro 的風(fēng)格化生圖狂歡熱潮還沒(méi)過(guò)去,多模態(tài) AI 領(lǐng)域又有重磅更新上場(chǎng):
阿里的千問(wèn) APP 在 12 月初悄然完成了一次關(guān)鍵版本更新,接入國(guó)內(nèi)最強(qiáng) AI 生視頻模型 Wan 2.5,以及全球開(kāi)源領(lǐng)先 AI 生圖模型的特供滿血版 Qwen-Image 2511,更重要的是,生圖功能直接拉滿免費(fèi)不限次,徹底降低用戶的使用門檻。
在此之前,我們?cè)疃葴y(cè)評(píng)過(guò) Wan 2.5 的網(wǎng)頁(yè)版(詳見(jiàn)網(wǎng)頁(yè)鏈接{從 SD 到 Wan2.5-Preview,AI 視頻 2025 質(zhì)變啟示錄}),當(dāng)時(shí)就覺(jué)得這模型實(shí)用到不像當(dāng)下 AI 圈的東西:沒(méi)有追 1 分鐘長(zhǎng)視頻的噱頭,也沒(méi)講各種用戶根本看不懂的參數(shù)。就專注一件事:把 10 秒內(nèi)的音畫同步、細(xì)節(jié)還原做到了極致。
如今它下放到手機(jī)端,再配上 Qwen-Image 2511 這張 免王牌」一同下放到千問(wèn) APP,可以說(shuō),這是阿里將 B 端沉淀的多模態(tài)技術(shù)向 C 端場(chǎng)景落地的重要嘗試。
那么 APP 端視頻生成的體驗(yàn)究竟是否能像此前網(wǎng)頁(yè)端一樣驚艷?還有,卷了這么多年的圖片生成大模型,這次千問(wèn)+ Qwen-Image 2511 又能帶來(lái)什么驚喜?
帶著兩個(gè)核心疑問(wèn),我們用一周時(shí)間把這兩個(gè)功能用到了極致,試圖為大家解決以下問(wèn)題:
Qwen-Image 2511 是否能真正解決傳統(tǒng) AI 生圖的人物崩臉、中文亂碼等行業(yè)痛點(diǎn)?Wan 2.5 在音畫同步、長(zhǎng)視頻敘事上與國(guó)際主流模型的差距是否縮小?免費(fèi)模式背后,阿里又在構(gòu)建怎樣的 AI 生態(tài)閉環(huán)?
01
視頻能力實(shí)測(cè):
Wan 2.5背后國(guó)產(chǎn)模型的實(shí)用主義路線
Wan 2.5 是誰(shuí),相信很多了解過(guò) AI 視頻生成的朋友已經(jīng)對(duì)此并不陌生。
作為為數(shù)不多能夠?qū)?biāo)谷歌Veo3 的視頻生成大模型,Wan 2.5 核心突破在于音畫同步與 10 秒長(zhǎng)視頻生成以及更精細(xì)、好看的畫面。
說(shuō)的更直白一點(diǎn),Wan2.5 不僅是 2025 年國(guó)內(nèi)最先進(jìn)的多模態(tài)生成模型之一,絕對(duì)也是你用過(guò)最具性價(jià)比的一梯隊(duì) AI 視頻生成產(chǎn)品。
接下來(lái),我們從音畫同步、場(chǎng)景化功能、細(xì)節(jié)表現(xiàn)三個(gè)層面,解析其實(shí)際表現(xiàn)。
測(cè)試一:音畫同步、時(shí)長(zhǎng)
音畫不同步、短時(shí)長(zhǎng)限制、細(xì)節(jié)不突出,是過(guò)去國(guó)產(chǎn)視頻模型與 Sora、Veo3 等國(guó)際模型的主要差距。針對(duì)以上問(wèn)題,我們直接讓 Wan2.5 生成:在復(fù)雜場(chǎng)景中,生成兩個(gè)不同風(fēng)格人物對(duì)話的劇情。
提示詞如下:
暮春午后,石質(zhì)柱廊蜿蜒延伸,青灰色石板映著斑駁光影,階前青草點(diǎn)綴,風(fēng)拂過(guò)荀子身著玄色寬袍腰束素帶,與身披淺灰亞麻袍、赤足踏石的蘇格拉底相對(duì)而立。鏡頭先以全景定格,隨即推進(jìn)至荀子中近景,他廣袖一揚(yáng),特寫中眼神如炬,沉凝有力地?cái)S出:「人性本惡!爭(zhēng)則亂,亂則窮!」鏡頭橫切至蘇格拉底,中近景里他雙手自然攤開(kāi),指尖輕叩石面,眉宇從容,溫和卻帶鋒芒地反駁:「人性本善,無(wú)人有意作惡。」最后鏡頭從兩人面部拉遠(yuǎn),回歸全景,柱廊光影流轉(zhuǎn),風(fēng)拂衣袂,兩人對(duì)立的身影在古意場(chǎng)景中定格。
看似簡(jiǎn)單,但這段提示詞里,實(shí)際埋了三個(gè)坑:
第一,風(fēng)格沖突:需兼顧古風(fēng)與西方兩種人物風(fēng)格,避免不同穿著人物實(shí)際共用一張臉的情況;
第二,音畫同步:兩個(gè)角色的臺(tái)詞「人性本惡!爭(zhēng)則亂,亂則窮」「人性本善,無(wú)人有意作惡」要對(duì)口型,還要匹配動(dòng)作,并且兩人的語(yǔ)氣與神情各不相同。
第三,復(fù)雜畫面,元素不丟:石質(zhì)柱廊,青灰色石板、斑駁光影、階前青草點(diǎn)綴,不能隨著鏡頭的切換憑空消失。
最終生成效果如下:
網(wǎng)頁(yè)鏈接
可以看到,Wan2.5 的音畫同步準(zhǔn)確率相當(dāng)不錯(cuò),而且我們一開(kāi)始擔(dān)心各種問(wèn)題,Wan2.5 都解決的很好。首先是高度一致的音畫同步,細(xì)節(jié)上,不僅人物揮動(dòng)衣袖的動(dòng)作、身體、音畫同步自然流暢,就連場(chǎng)景也有很高的一致性,整體畫面切換調(diào)度也頗有動(dòng)畫電影的水平。
測(cè)試二:細(xì)節(jié)控制
如果說(shuō)卡通測(cè)試是基礎(chǔ)題,那電影級(jí)寫實(shí)測(cè)試就是附加題。
此前在 Wan2.5-Preview 時(shí)期,我們就已經(jīng)見(jiàn)識(shí)到了它在細(xì)節(jié)還原、氛圍打造上的厲害之處。不過(guò)這次,我們讓難度再升級(jí),從黃昏樹(shù)林中靜止的男生,變成真實(shí)復(fù)雜場(chǎng)景中,兩個(gè)運(yùn)動(dòng)中的主角。
提示詞:電影級(jí)寫實(shí)風(fēng)格,畫面干凈通透,兼具溫柔氛圍感與高級(jí)電影感;線條細(xì)膩,質(zhì)感真實(shí)。
人物:20 歲年輕白人女孩,輪廓分明,皮膚白皙,長(zhǎng)發(fā)微卷,眼神清澈帶一絲溫柔沉思;穿著米白色棉麻長(zhǎng)裙(領(lǐng)口微敞,袖口隨意卷起),衣料有自然褶皺,質(zhì)感輕薄透氣。
動(dòng)物:一只溫順的小鹿(毛色淺棕帶白色斑點(diǎn),鹿角短小圓潤(rùn)),頭部輕靠女子左臂,眼神柔和,耳朵偶爾輕微晃動(dòng),與女子互動(dòng)自然不僵硬。
動(dòng)作:女孩牽著鹿從森林中緩緩走來(lái)
黃昏稀疏落葉林,樹(shù)干筆直修長(zhǎng),樹(shù)葉泛黃帶綠(秋夏交替質(zhì)感),地面覆蓋少量淺棕色落葉;時(shí)間為日落前 1 小時(shí),天色呈暖橙與淡紫漸變,空氣通透無(wú)霧氣。
鏡頭參數(shù):長(zhǎng)鏡頭(無(wú)切換),中景構(gòu)圖(人物 + 小鹿占畫面 60%),中心構(gòu)圖(人物與小鹿位于畫面正中心),干凈單人 + 動(dòng)物鏡頭(無(wú)多余路人 / 雜物);背景虛化(景深 f/2.8),突出主體,虛化后背景呈斑駁圓形光斑。
光影層次:
逆光:太陽(yáng)位于人物后方偏左側(cè),形成金色輪廓光(勾勒發(fā)絲、肩膀、襯衫邊緣),輪廓光寬度 1-2cm,柔和不刺眼;
側(cè)光:右側(cè)補(bǔ)柔和側(cè)光,照亮人物半張臉,避免面部全黑,形成「半明半暗」的層次感;
柔光:整體光線經(jīng)過(guò)樹(shù)葉過(guò)濾,呈漫射效果,無(wú)硬邊陰影。
網(wǎng)頁(yè)鏈接
先說(shuō)結(jié)論,這是最近各種 AI 視頻測(cè)試中,最讓我感到驚喜的一個(gè)。
先看必答題:女孩的棉麻長(zhǎng)裙,袖口卷起的地方有自然的褶皺,不是熨燙平整的假質(zhì)感;小鹿的頭靠在女孩手臂上時(shí),耳朵會(huì)輕輕晃動(dòng),不是 焊死在頭上;逆光的金色輪廓光,剛好勾勒在發(fā)絲和肩膀邊緣,沒(méi)有糊成一片。女孩轉(zhuǎn)彎前真實(shí)的眼神變化,走路時(shí)自然飄動(dòng)的發(fā)絲,真實(shí)到仿佛電影畫面。背景虛化后的光斑是圓形斑駁,不是呆板的圓形光斑,這細(xì)節(jié)已經(jīng)能吊打不少 老法師了。
然后是彩蛋:我忘記了在提示詞里寫任何聲音,但視頻里居然有 咔嚓咔嚓女孩和小鹿踩過(guò)落葉時(shí)的腳步聲,聲音會(huì)隨著步伐的快慢變化;背景里還有清脆且有空間遠(yuǎn)近層進(jìn)的鳥(niǎo)叫聲。
據(jù)了解,這種畫面審美突破的核心在于,Wan 2.5 通過(guò)引入人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),把用戶對(duì)畫面質(zhì)感、動(dòng)態(tài)效果、指令匹配度的反饋用于優(yōu)化模型,從而徹底讓 AI 視頻生成擺脫了過(guò)去詭異中帶著點(diǎn)賽博丑陋的標(biāo)簽。
測(cè)試三:場(chǎng)景化功能體驗(yàn)
不同于國(guó)際模型側(cè)重各種技術(shù)極限,Wan 2.5 更注重實(shí)用場(chǎng)景適配,此前通義推出的全民舞王一度讓全中國(guó)的奶牛貓都突然站立開(kāi)始跳印度舞,雖然魔性,但直指普通用戶的創(chuàng)作痛點(diǎn)。
這里的測(cè)試,我們不再采用固定的模版,而是玩了個(gè) 腦洞測(cè)試:上傳一張小貓的照片,讓它馱著孫悟空在非洲大草原狂奔。
這個(gè)需求的難點(diǎn)在于雙重動(dòng)態(tài):小貓跑步時(shí)的肌肉形變、孫悟空的絲帶飄動(dòng),還要保持小貓的原長(zhǎng)相。畢竟,很多 AI 處理圖生視頻 + 復(fù)雜動(dòng)作時(shí),會(huì)把主體搞成橡皮泥,要么肌肉不動(dòng),要么臉崩了。
效果如下:
網(wǎng)頁(yè)鏈接
可以看到,這里的測(cè)試效果依然很穩(wěn)定,小貓已經(jīng)馱著孫悟空在非洲大草原奔馳,會(huì)有肌肉的運(yùn)動(dòng),孫悟空的絲帶飄向風(fēng)的方向,不是 360 度亂轉(zhuǎn);最關(guān)鍵的是,小貓的臉和我上傳的照片幾乎一致——耳朵的弧度、眼睛的顏色,甚至額頭的精細(xì)花紋全都沒(méi)丟。
02
生圖實(shí)測(cè):
免費(fèi)工具的專業(yè)度上限有多高
原本測(cè)完視頻能力之后,我已經(jīng)覺(jué)得不會(huì)有更多超出的驚喜出現(xiàn)了,但萬(wàn)萬(wàn)沒(méi)想到 Qwen-Image 2511 模型的能力,同樣打了我個(gè)措手不及。
官方資料顯示,Qwen-Image 2511 模型在 Huggingface 趨勢(shì)榜登頂數(shù)周,開(kāi)源生態(tài)貢獻(xiàn)度全球第一,AI arena 競(jìng)技場(chǎng)排名僅次于閉源模型 nano banana 與 seedream 4.0。
不過(guò)這些數(shù)據(jù)對(duì)用戶而言,其實(shí)價(jià)值意義不大,還需轉(zhuǎn)化為實(shí)際使用體驗(yàn)才能被認(rèn)可,我們依然通過(guò)三組核心測(cè)試驗(yàn)證其落地能力。
測(cè)試一:連續(xù)創(chuàng)作過(guò)程中的人物一致性。
AI 生圖的核心痛點(diǎn)之一,是無(wú)法在多輪生成中保持人物特征穩(wěn)定性,經(jīng)常是更換場(chǎng)景、調(diào)整動(dòng)作后,人物面部特征易出現(xiàn)崩臉、換臉問(wèn)題。這就導(dǎo)致,AI 出神圖容易,但是用在生產(chǎn)環(huán)境穩(wěn)定出圖反而是個(gè)問(wèn)題,而 Qwen-Image 2511 很好的解決了這個(gè)問(wèn)題。
我們以同一人物(動(dòng)物)多場(chǎng)景生成為測(cè)試場(chǎng)景,來(lái)「嫁禍」一只小貓咪:
輸入素材:一張金漸層小貓的照片
生成指令:給小貓穿上粉色裙子、給小貓面前放個(gè)花瓶小貓推花瓶、讓花瓶碎在小貓面前
可以看到,Qwen-Image 2511 完整保留了測(cè)試對(duì)象也就是金漸層的面部特征之外,穿上的衣服也與小貓的身形完美符合,一個(gè)有些有意思的細(xì)節(jié)是,每次 Qwen-Image 2511 生圖都是四張,而這四組圖片中,小貓的裙子顏色、花的顏色與款式,都是完全一一對(duì)應(yīng)的,細(xì)節(jié)滿分。
網(wǎng)頁(yè)鏈接
測(cè)試二:中文文字+商用場(chǎng)景適配
對(duì)中小商家而言,AI 生圖的核心價(jià)值在于降低商用素材制作成本——能否生成符合平臺(tái)規(guī)范的商品圖、海報(bào)圖,直接決定工具的實(shí)用價(jià)值。
此外,中文場(chǎng)景下,當(dāng)前市面上的其他 AI 生圖常出現(xiàn)文字亂碼、字體錯(cuò)位問(wèn)題,說(shuō)白了就是像鬼畫符。其中,表現(xiàn)差一點(diǎn)的,完全看不出來(lái)文字到底是什么;表現(xiàn)稍好一點(diǎn)的,也會(huì)出現(xiàn)某個(gè)字少個(gè)偏旁,缺了一橫,或者多了一豎。總之,模型對(duì)中文語(yǔ)義與排版邏輯的理解始終弱于英文。
這次,我們測(cè)試直接上難度,不只要能寫漢字,還要有排版,寫的好看,并且還要搭配復(fù)雜商用級(jí)別畫面。
提示詞:做一個(gè)海報(bào),核心主題「天然無(wú)谷狗糧 | 狗狗健康成長(zhǎng)的能量源泉」
視覺(jué)主體:純種金毛,6-12 個(gè)月幼犬,毛發(fā)蓬松有光澤,眼神靈動(dòng),正低頭大口啃食狗糧(嘴角帶少量糧屑,呈現(xiàn)「適口性極佳」的真實(shí)感),姿態(tài)放松愉悅(如趴在草地 / 地毯上,尾巴輕搖)
產(chǎn)品呈現(xiàn):打開(kāi)的狗糧包裝袋(透明開(kāi)窗設(shè)計(jì),可見(jiàn)顆粒分明的狗糧,顆粒呈不規(guī)則六邊形,顏色為淺棕 + 深棕漸變),袋身斜靠在木質(zhì)托盤上,,標(biāo)注「無(wú)谷配方」「鮮肉含量≥85%」「益生菌添加」核心賣點(diǎn)。輔助元素為:旁邊擺放 1 個(gè)陶瓷食盆(裝滿狗糧,少量顆粒散落在食盆邊緣),1 片新鮮胡蘿卜 / 西蘭花(呼應(yīng)「天然食材」),1 滴透明魚(yú)油(暗示「美毛護(hù)膚」功效)
場(chǎng)景氛圍:戶外場(chǎng)景:青翠草地 + 藍(lán)天白云,狗狗趴在野餐墊上進(jìn)食,周圍點(diǎn)綴幾朵小雛菊,遠(yuǎn)處有模糊的樹(shù)木輪廓,整體色調(diào)清新自然
風(fēng)格與質(zhì)感:超寫實(shí)質(zhì)感,細(xì)節(jié)拉滿(狗狗毛發(fā)根根分明,狗糧顆粒的紋理、油脂光澤,食盆的陶瓷磨砂質(zhì)感均清晰可見(jiàn)),避免卡通化或模糊處理
色彩搭配:暖橙色(傳遞「溫暖」「食欲」)+ 淺草綠(呼應(yīng)「天然」)+ 原木色(增強(qiáng)「安全」「質(zhì)樸」感)
![]()
測(cè)試結(jié)果顯示,Qwen-Image 2511 在基礎(chǔ)測(cè)試中完全規(guī)避了文字截?cái)唷⒆煮w混淆問(wèn)題,不僅實(shí)現(xiàn)了海報(bào)標(biāo)題的精準(zhǔn)呈現(xiàn),畫中畫的狗糧包裝袋上文字依然精準(zhǔn)呈現(xiàn)。此外,畫面中胡蘿卜的大小、狗糧的質(zhì)感,幼犬的形態(tài)、狗毛的真實(shí)毛絨質(zhì)感還原也非常到位,可以直接用于電商平臺(tái)上架。
此外,更驚喜的是,Qwen-Image 2511 生圖時(shí)支持一鍵調(diào)整比例(1:1/2:3/3:4/9:16/4:3/16:9/3:2),無(wú)需借助第三方工具裁剪。此外在后期,Qwen-Image 2511 還支持局部改字/改色、擴(kuò)圖、修改尺寸等等修改,而這對(duì)生產(chǎn)級(jí)場(chǎng)景來(lái)說(shuō),非常重要:畢竟 AI 生圖,一次性得到滿意結(jié)果的概率并不大,往往需要非常精細(xì)、復(fù)雜的后期修改。而現(xiàn)在這件事情,已經(jīng)可以徹底交給 AI,精準(zhǔn)修改。
![]()
對(duì)比一些付費(fèi)生圖工具,Qwen-Image 2511 不僅在紋理還原度上表現(xiàn)更優(yōu),而且成本直接降為零,這對(duì)需批量制作素材的中小商家而言,具備極強(qiáng)的實(shí)用價(jià)值。
03
國(guó)產(chǎn) AI 的實(shí)用主義突圍
測(cè)完千問(wèn) APP 的兩個(gè)新功能,我突然明白阿里這次升級(jí)的 野心:
無(wú)論是 Qwen-Image 2511 解決中文生圖痛點(diǎn),還是 Wan 2.5 補(bǔ)齊國(guó)產(chǎn)視頻音畫同步短板,千問(wèn)的此次升級(jí),其實(shí)背后正是國(guó)產(chǎn) AI 模型的差異化突圍范本:
Wan 2.5 的環(huán)境音自適應(yīng)、元素 ID 鎖定,不僅能用于阿里電商的 短視頻帶貨場(chǎng)景,也能讓普通人享受和家里寵物跨物種對(duì)話的神奇;
Qwen-Image 2511 的 中文渲染以及精細(xì)控制能力,不僅能夠造福各種中小商家,也能讓沒(méi)有作圖能力的手殘黨感受創(chuàng)作的快樂(lè)。
當(dāng)這些 B 端技術(shù)被改造成 C 端用戶能輕松上手甚至免費(fèi)的功能時(shí),AI 才真正從實(shí)驗(yàn)室走進(jìn)了日常生活。而伴隨創(chuàng)作成本大幅降低,國(guó)產(chǎn) AI 工具也才有了成為新時(shí)代內(nèi)容創(chuàng)作的標(biāo)準(zhǔn)的可能,而這才是真正的 AI 普惠。
*頭圖視覺(jué)中國(guó)
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO





京公網(wǎng)安備 11011402013531號(hào)