OpenAI圣誕季“十二連發”的第三個工作日,迎來了重頭戲——萬眾期待的OpenAI視頻生成模型Sora正式版發布!
OpenAI官方甚至直言 :“Sora就是我給你們的假期禮物?!?/p>

今年2月,Sora首次問世便以其卓越的表現震撼了科技屆。而此次OpenAI發布更高級的Sora Turbo,在生成視頻的速度和效果上,顯然更快、更強!
01 Sora的創新表現
整體來說,Sora展示的一系列功能,在視頻生成的質量、功能的獨創性、技術的復雜度等方面,超出了目前市場上已有的文生視頻產品。
OpenAI在直播中介紹,Sora支持從480p到1080p的全系列分辨率,單個視頻最長可達20秒。用戶可以通過文本描述(文生視頻)、圖片(圖生視頻)以及現有視頻(視頻生視頻)來生成視頻內容。
特別值得一提的是,Sora上線全新UI界面以及豐富的編輯工具,以便創造者對視頻進行修改、創建、擴展、循環、混合。
例如,Storyboard(故事板)允許用戶通過時間軸來控制視頻內容,添加分鏡頭,以及調整動作或畫面的持續時長。Re-cut(剪輯)是在故事板上對視頻進行修剪和延展,實現更精確的視頻編輯。Blend(混合)則是將兩個視頻內容進行過渡和融合,創造出新的視覺效果。
02 Sora的技術原理
OpenAI已經給我們展示了Sora的“全能進化”。這些獨特的創新功能極大地拓展了創作者的創作空間,讓視頻更接近創作者的自我表達、幫助他們完成一個理想的鏡頭故事。
如此強大的功能背后有哪些黑科技,Sora是怎么做到的?
Sora的設計靈感來源于大型語言模型(LLM),通過訓練互聯網規模數據來獲得通用能力。大語言模型使用文本標記,而Sora則使用之前已被證明是用于視覺數據模型的有效表示的視覺“碎片/補丁”(patches)來達到類似效果。
OpenAI首先通過對視頻進行時間和空間上的壓縮,將其壓縮到一個更低維的潛在空間(可將這個潛在空間看做是時空碎片的集合),然后將原視頻轉化為這些碎片/補?。╬atches)。讓它們充當像轉換器中的標記符號一樣的角色,使Sora模型可以在不同分辨率、持續時間和寬高比的視頻和圖像數據集上進行訓練。
然后,Sora利用一種基于Transformer的模型,根據給定的文本提示和已經提取的空間時間補丁,開始生成最終的視頻內容。在這個過程中,模型會“涂改”初始的噪聲視頻,逐步去除無關信息,添加必要細節,最終生成與文本指令相匹配的視頻。
此外,訓練從文本到視頻的生成系統,還需要大量帶有對應文本字幕的視頻。為此,OpenAI借鑒了DALL-E 3中提出的re-captioning技術,將其應用到視頻上。首先訓練了一個高度描述性的字幕模型,之后用它為訓練數據集中的所有視頻生成文本字幕,以此來提高文本逼真度以及視頻的整體質量。

03 文生視頻模型背后的數據
總的來說,Sora模型憑借其強大的數據處理能力和深度學習能力,成功地將文字與視頻內容緊密地聯系在一起,為用戶帶來了前所未有的視頻生成體驗。這個模型就像是AI的“大腦”,里面存儲了海量的視頻和圖像信息。通過不斷學習這些數據,模型得以建立對現實世界中各類場景、情境、運動規律以及人類活動特征的深度理解和精準捕捉。
其中,高質量視頻訓練數據在提升輸入文字與生成內容匹配度方面扮演著至關重要的角色。不僅能夠提升模型的性能,還能夠為用戶提供更加真實、準確和連貫的視頻生成體驗。
標貝科技始終專注于為企業提供高質量的精標數據服務以及豐富的多模態數據資源。針對大模型數據需求,我們精心打磨了多模態大模型數據解決方案,覆蓋從數據采集、預處理、清洗、標注到質檢等系列工程化流程,積累了高質量的多模態大模型訓練數據集,為客戶打造優質的服務體驗。
04 標貝科技多模態大模型訓練數據-視頻caption數據集
視頻caption數據樣例1:生活類
視頻caption數據樣例2:運動類

視頻caption數據樣例3:動物類

視頻caption數據樣例4:其他





京公網安備 11011402013531號