
圖片由可靈AI生成,提示詞為本文標題。
4月15日,獲悉,可靈AI宣布基座模型升級,面向全球正式發布可靈2.0視頻生成模型及可圖2.0圖像生成模型。
可靈是,其2.0版本的模型在動態質量、語義響應和畫面美學做了相應提升,而可圖2.0模型主要集中在指令遵循、電影質感及藝術風格表現等方面。
可靈AI官方披露,截至目前,全球用戶規模已經突破2200萬,累計生成1.68億個視頻及3.44億張圖片素材。自去年6月上線以來,10個月內,可靈AI的月活用戶數量增長25倍。
“去年3、4月的時候,當我在內部看到可靈第一個DiT模型的產出結果時,我心中涌現出一個想法,什么時候我能夠用AI把我心目中的《三體》拍攝出來。”快手高級副總裁、社區科學線負責人蓋坤在發布會現場表示。
在視頻生成方向上,觀察到,可靈AI正在朝著電影工業級美學上演進,然而,當前行業模型發展,遠遠無法符合這一需求,AI在生成內容的穩定性及用戶復雜創意的傳達上,仍有很多缺陷。
蓋坤發現,各家視頻模型都存在一些共性問題,主要來自兩方面:一是,語義分析能力問題,創作者們的文字表達,有的時候,AI不能很精準地輸出和控制生成結果;二是,動態質量的問題,通常是物體運動過快,或者不符合物理規律。
他認為,必須對基模型能力進行全方位提升。
在2.0模型中,可靈AI提出了AI視頻生成的新的交互理念Multi-modal Visual Language(MVL),讓用戶能夠結合圖像參考和視頻片段等多模態信息,將腦海中包含身份、外觀、風格、場景、動作、表情、運鏡在內的多維度復雜創意,直接傳達給AI。
MVL由TXT(Pure Text,語義骨架)和MMW(Multi-modal-document as a Word,多模態描述子)組成,能從視頻生成設定的基礎方向,以及精細控制這兩個層面,實現AI創作者們的創意表達。
基于MVL理念,可靈AI正式推出多模態編輯功能。據蓋坤介紹,MMW(多模態描述子)將不只局限于圖片和視頻,也可以引入其他模態的信息,例如聲音和運動軌跡等。
與此同時,基于MVL這一全新交互方式,可靈AI還發布了可靈2.0大師版,在語義響應、動態質量和畫面美學等方面提升生成效果。
可靈2.0大師版升級了視頻及圖像創作可控生成與編輯能力,上線新的多模態視頻編輯功能,能靈活理解用戶意圖,支持在一段視頻的基礎之上,通過輸入圖片或文字,對生成的視頻內容實現元素的增加、刪減、替換,讓創作者可以二次編輯和處理。
據快手副總裁、可靈AI負責人張迪披露,當前,圖生視頻約占到可靈AI視頻創作量的85%,圖片質量對視頻的生成效果有重要作用。
在圖像生成大模型領域,可圖2.0的優勢體現在復雜語義理解能力,電影級的畫面質感,以及多條件的可控風格化生成等。
新升級的可圖2.0版本,提升了指令遵循能力、增強電影美學表現力以及更多元的藝術風格。在風格化響應上,可圖2.0支持60多種風格化的效果轉繪。
同時,可圖2.0上線了圖像可控編輯功能,即,局部重繪和擴圖,支持圖片的增加、修改和修復。在圖像的多模態可控生成中,可圖2.0上線了新的風格轉繪功能,用戶上傳一張圖片加上風格描述,能一鍵切換圖片的藝術風格,同時保留原圖的語義內容。
除了C端訂閱用戶,可靈AI面向B端商家提供API接入等服務。蓋坤披露,來自世界各地的超過1.5萬名開發者,已將可靈的API應用于不同的行業場景中,累計生成的圖像數量約1200萬個,生成的視頻素材超過4000萬個。
此外,可靈AI還發布了“可靈AI NextGen 新影像創投計劃”,計劃加大對AIGC創作者的扶持力度,并通過千萬資金投入、全球宣發、IP打造和保障,以全資出品、聯合出品和技術支持等合作方式,激發AI愛好者們的創作熱情。(本文首發于,作者|李程程)





京公網安備 11011402013531號