核心概念
CogVideoX 是一個基於擴散 Transformer 的先進文字轉影片生成模型,能夠生成與文字提示一致的長篇幅、高畫質影片,並具有連貫動作和豐富語義。
摘要
CogVideoX 技術報告
這篇研究報告介紹了 CogVideoX,一個基於擴散 Transformer 的大規模文字轉影片生成模型,它可以生成與文字提示一致的 10 秒連續影片,幀率為 16 fps,解析度為 768×1360 像素。
現有問題
現有的影片生成模型通常存在動作有限、時長短的問題,並且難以根據文字生成具有連貫敘事的影片。
CogVideoX 的解決方案
CogVideoX 提出了幾個設計來解決這些問題:
- 3D 變分自動編碼器 (VAE):沿空間和時間維度壓縮影片,以提高壓縮率和影片保真度。
- 專家 Transformer:採用專家自適應層歸一化,促進兩種模態之間的深度融合,以改善文字與影片的一致性。
- 漸進式訓練和多分辨率幀打包技術:生成連貫、長篇幅、不同形狀且具有顯著動作的影片。
- 有效的文字影片數據處理流程:包括各種數據預處理策略和影片字幕方法,極大地提高了生成品質和語義對齊。
CogVideoX 的優勢
- 可以生成具有多種長寬比的長影片,解析度高達 768×1360,長度達 10 秒,幀率為 16fps,無需超分辨率或幀插值。
- 在多個機器指標和人類評估中均展現出最先進的性能。
- 公開發布了 5B 和 2B 模型,包括文字轉影片和圖像轉影片版本,這是第一個商業級開源影片生成模型。
CogVideoX 的架構
CogVideoX 的整體架構包括:
- 3D 因果 VAE:將影片壓縮到潛在空間。
- 專家 Transformer:處理文字和影片的嵌入,並生成解碼後的潛在表示。
- 3D 因果 VAE 解碼器:將潛在表示重建為影片。
訓練 CogVideoX
- 混合圖像和影片數據進行訓練,將每個圖像視為單幀影片。
- 採用多分辨率幀打包技術,將不同時長和解析度的影片放入同一批次中。
- 採用漸進式訓練,從低解析度到高解析度逐步提高生成影片的品質。
- 使用顯式均勻採樣,以確保時間步長的均勻分佈,從而穩定訓練損失曲線並加速收斂。
數據集
- 構建了一個包含約 3500 萬個單次拍攝片段的高品質影片片段集合,每個片段平均約 6 秒,並帶有文字描述。
- 使用 LAION-5B 和 COYO-700M 數據集中的 2B 張圖像來輔助訓練。
- 開發了一套影片過濾器,用於篩選低品質影片數據。
- 建立了一個密集影片字幕數據生成流程,為影片數據標記全面的文字描述。
評估
- 採用 Vbench 中的幾個與人類感知一致的指標來評估文字轉影片生成,例如人類動作、場景、動態程度、多個對象和外觀風格。
- 使用動態品質和 GPT4o-MTScore 來評估生成影片的動態性。
- 建立了一個全面的人類評估框架,用於評估影片生成模型的綜合能力,包括感官品質、指令遵循、物理模擬和覆蓋品質。
結果
- CogVideoX-5B 在七個指標中,有五個指標的性能最佳,其餘兩個指標的結果也具有競爭力。
- 人類評估結果顯示,CogVideoX-5B 在所有方面都優於現有的最佳封閉源模型 Kling。
總結
CogVideoX 是一個先進的文字轉影片生成模型,它利用 3D VAE 和專家 Transformer 架構來生成具有顯著動作的連貫長篇幅影片。 未來將進一步探索影片生成模型的規模規律,目標是訓練更大、更強大的模型,以生成更長、更高品質的影片,從而突破文字轉影片生成的界限。
統計資料
CogVideoX 可以生成解析度為 768×1360 像素、長達 10 秒、幀率為 16fps 的影片。
訓練數據集包含約 3500 萬個影片片段,每個片段平均約 6 秒。
訓練過程中使用了 2B 張圖像數據來輔助訓練。
CogVideoX-5B 在七個評估指標中,有五個指標的性能最佳。