toplogo
登入

CogVideoX:搭載專家 Transformer 的文字轉影片擴散模型


核心概念
CogVideoX 是一個基於擴散 Transformer 的先進文字轉影片生成模型,能夠生成與文字提示一致的長篇幅、高畫質影片,並具有連貫動作和豐富語義。
摘要

CogVideoX 技術報告

這篇研究報告介紹了 CogVideoX,一個基於擴散 Transformer 的大規模文字轉影片生成模型,它可以生成與文字提示一致的 10 秒連續影片,幀率為 16 fps,解析度為 768×1360 像素。

現有問題

現有的影片生成模型通常存在動作有限、時長短的問題,並且難以根據文字生成具有連貫敘事的影片。

CogVideoX 的解決方案

CogVideoX 提出了幾個設計來解決這些問題:

  • 3D 變分自動編碼器 (VAE):沿空間和時間維度壓縮影片,以提高壓縮率和影片保真度。
  • 專家 Transformer:採用專家自適應層歸一化,促進兩種模態之間的深度融合,以改善文字與影片的一致性。
  • 漸進式訓練和多分辨率幀打包技術:生成連貫、長篇幅、不同形狀且具有顯著動作的影片。
  • 有效的文字影片數據處理流程:包括各種數據預處理策略和影片字幕方法,極大地提高了生成品質和語義對齊。

CogVideoX 的優勢

  • 可以生成具有多種長寬比的長影片,解析度高達 768×1360,長度達 10 秒,幀率為 16fps,無需超分辨率或幀插值。
  • 在多個機器指標和人類評估中均展現出最先進的性能。
  • 公開發布了 5B 和 2B 模型,包括文字轉影片和圖像轉影片版本,這是第一個商業級開源影片生成模型。

CogVideoX 的架構

CogVideoX 的整體架構包括:

  • 3D 因果 VAE:將影片壓縮到潛在空間。
  • 專家 Transformer:處理文字和影片的嵌入,並生成解碼後的潛在表示。
  • 3D 因果 VAE 解碼器:將潛在表示重建為影片。

訓練 CogVideoX

  • 混合圖像和影片數據進行訓練,將每個圖像視為單幀影片。
  • 採用多分辨率幀打包技術,將不同時長和解析度的影片放入同一批次中。
  • 採用漸進式訓練,從低解析度到高解析度逐步提高生成影片的品質。
  • 使用顯式均勻採樣,以確保時間步長的均勻分佈,從而穩定訓練損失曲線並加速收斂。

數據集

  • 構建了一個包含約 3500 萬個單次拍攝片段的高品質影片片段集合,每個片段平均約 6 秒,並帶有文字描述。
  • 使用 LAION-5B 和 COYO-700M 數據集中的 2B 張圖像來輔助訓練。
  • 開發了一套影片過濾器,用於篩選低品質影片數據。
  • 建立了一個密集影片字幕數據生成流程,為影片數據標記全面的文字描述。

評估

  • 採用 Vbench 中的幾個與人類感知一致的指標來評估文字轉影片生成,例如人類動作、場景、動態程度、多個對象和外觀風格。
  • 使用動態品質和 GPT4o-MTScore 來評估生成影片的動態性。
  • 建立了一個全面的人類評估框架,用於評估影片生成模型的綜合能力,包括感官品質、指令遵循、物理模擬和覆蓋品質。

結果

  • CogVideoX-5B 在七個指標中,有五個指標的性能最佳,其餘兩個指標的結果也具有競爭力。
  • 人類評估結果顯示,CogVideoX-5B 在所有方面都優於現有的最佳封閉源模型 Kling。

總結

CogVideoX 是一個先進的文字轉影片生成模型,它利用 3D VAE 和專家 Transformer 架構來生成具有顯著動作的連貫長篇幅影片。 未來將進一步探索影片生成模型的規模規律,目標是訓練更大、更強大的模型,以生成更長、更高品質的影片,從而突破文字轉影片生成的界限。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
CogVideoX 可以生成解析度為 768×1360 像素、長達 10 秒、幀率為 16fps 的影片。 訓練數據集包含約 3500 萬個影片片段,每個片段平均約 6 秒。 訓練過程中使用了 2B 張圖像數據來輔助訓練。 CogVideoX-5B 在七個評估指標中,有五個指標的性能最佳。
引述

從以下內容提煉的關鍵洞見

by Zhuoyi Yang,... arxiv.org 10-10-2024

https://arxiv.org/pdf/2408.06072.pdf
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

深入探究

CogVideoX 如何應用於其他需要影片生成的領域,例如電影製作或遊戲開發?

CogVideoX 作為先進的文字轉影片生成模型,在電影製作和遊戲開發等領域擁有巨大潛力: 電影製作: 劇本視覺化: CogVideoX 能將劇本文字快速轉化為動態影像,幫助導演和編劇在前期構思場景、角色動作和整體視覺風格,大幅縮短前期製作時間並降低成本。 概念設計和分鏡腳本: 利用 CogVideoX 生成概念影片,可以更直觀地展現電影風格和創意,為美術設計、特效製作等提供參考。 動畫製作: CogVideoX 能根據文字描述生成流暢的動畫,為動畫電影和特效場景的製作提供新的創作工具,例如生成背景動畫、特效預覽等。 遊戲開發: 遊戲場景和角色生成: CogVideoX 可以根據遊戲設計師的文字描述快速生成遊戲場景和角色動畫,提高遊戲美術資源的製作效率。 遊戲預告片和過場動畫製作: 利用 CogVideoX 生成遊戲預告片和過場動畫,可以降低製作成本,並根據玩家反饋快速調整內容。 遊戲 AI 訓練: CogVideoX 生成的影片可以用於訓練遊戲 AI,例如讓 AI 學習識別不同場景、角色動作和事件,提升遊戲 AI 的智慧程度。 然而,CogVideoX 在實際應用中仍面臨一些挑戰,例如生成影片的長度、解析度和細節還需要進一步提升,才能滿足專業電影製作和遊戲開發的需求。

生成影片的倫理問題是什麼,例如 Deepfake 的潛在風險?

生成影片技術的發展也帶來了一系列倫理問題,其中 Deepfake 的潛在風險尤為突出: 虛假訊息的傳播: Deepfake 可以製作以假亂真的影片,用於傳播虛假訊息、政治宣傳、煽動仇恨等,對社會穩定和個人名譽造成嚴重危害。 侵犯隱私和肖像權: Deepfake 可以將任何人的面孔移植到影片中,侵犯個人隱私和肖像權,甚至被用於製作色情影片或進行詐騙。 影響司法公正: Deepfake 製作的虛假證據可能被用於司法審判,影響司法公正,甚至導致冤假錯案。 為應對這些倫理問題,需要採取以下措施: 技術層面: 開發 Deepfake 檢測技術,提高識別和防範虛假影片的能力。 法律法規: 完善相關法律法規,明確 Deepfake 的製作、傳播和使用規範,加大對違法行為的懲罰力度。 社會倫理: 加強社會倫理教育,提高公眾對 Deepfake 潛在風險的認識,增強媒體素養和批判性思維能力。

如何評估生成影片的創造力和藝術性,而不僅僅是技術品質?

評估生成影片的創造力和藝術性是一個複雜的問題,需要綜合考慮多方面的因素: 原創性: 影片是否呈現出新穎的視覺風格、敘事方式或情感表達,是否突破了傳統影片的表現形式。 藝術風格: 影片是否展現出獨特的藝術風格,例如繪畫風格、電影風格、動畫風格等,是否具有美感和藝術感染力。 情感共鳴: 影片是否能 evoke viewers' emotions,例如喜怒哀樂、思考和反思,是否能與觀眾產生情感共鳴。 思想深度: 影片是否傳達了深刻的思想或主題,是否引發觀眾對社會、人生、藝術等方面的思考。 目前,主要依靠人類主觀評價來評估生成影片的創造力和藝術性,例如: 專家評審: 邀請電影導演、藝術評論家、動畫設計師等專業人士對影片進行評估。 觀眾調查: 收集觀眾對影片的觀感和評價,例如評分、評論、問卷調查等。 未來,可以探索利用人工智慧技術輔助評估生成影片的創造力和藝術性,例如: 情感分析: 分析影片中的音樂、畫面、文字等元素,判斷影片所表達的情感和情緒。 風格識別: 識別影片的藝術風格,並與已有的藝術作品進行比較分析。 語義理解: 理解影片的內容和主題,判斷影片的思想深度和藝術價值。
0
star