核心概念
本文提出了一種改進的影片變分自動編碼器 (IV-VAE),用於潛在影片擴散模型,通過基於關鍵幀的時間壓縮架構和群組因果卷積模組,解決了現有影片 VAE 在時間壓縮能力和幀間性能不平衡的問題,提升了影片重建和生成的品質。
論文概述
本論文提出了一種名為 IV-VAE 的改進型影片變分自動編碼器,旨在提升潛在影片擴散模型的效能。作者指出,現有的影片 VAE 在時間壓縮能力和幀間性能平衡方面存在不足,並針對這些問題提出了基於關鍵幀的時間壓縮架構和群組因果卷積模組。
研究背景
變分自動編碼器 (VAE) 在將高維像素數據壓縮到低維潛在空間方面發揮著重要作用,這對於 OpenAI 的 Sora 和其他潛在影片擴散生成模型至關重要。現有的影片 VAE 大多將預先訓練的圖像 VAE 擴展到 3D 因果結構以進行時空壓縮,但這種方法存在兩個主要問題:
從具有相同潛在維度的訓練良好的圖像 VAE 進行初始化會抑制後續時間壓縮能力的提升。
採用因果推理會導致信息交互不平等以及幀之間的性能不平衡。
方法介紹
為了減輕上述問題,作者提出了 IV-VAE,其中包含兩個關鍵組件:
基於關鍵幀的時間壓縮 (KTC) 架構
KTC 架構將潛在空間分為兩個分支:
一個分支完全繼承了低維圖像 VAE 對關鍵幀的壓縮先驗。
另一個分支則通過 3D 群組因果卷積進行時間壓縮。
這種設計減少了時空衝突,並加快了影片 VAE 的收斂速度。
群組因果卷積 (GCConv) 模組
GCConv 模組在上述 3D 分支中使用標準卷積來確保幀組內幀間的等效性,並在組之間採用因果邏輯填充以保持處理可變幀影片的靈活性。
實驗結果
作者在五個基準測試集上進行了大量實驗,結果表明,與現有方法相比,IV-VAE 在影片重建和生成方面取得了顯著的提升。具體而言:
IV-VAE 在不同分辨率和運動速率下均實現了最先進的影片重建性能。
與其他方法相比,隨著分辨率的增加,IV-VAE 的性能提升更加顯著。
在使用相同生成模型 Latte 的情況下,IV-VAE 在類條件生成和無條件生成方面均取得了最佳性能。
結論
本論文提出了一種用於潛在影片擴散模型的改進型影片變分自動編碼器 IV-VAE。通過引入基於關鍵幀的時間壓縮架構和群組因果卷積模組,IV-VAE 有效地解決了現有影片 VAE 在時間壓縮能力和幀間性能不平衡方面的問題,並在影片重建和生成任務中取得了顯著的性能提升。
統計資料
使用相同潛在通道數的圖像 VAE 進行初始化會抑制時間壓縮的學習。
因果卷積的使用導致幀之間的性能不平衡。
IV-VAE 在 Kinetics-600 數據集上實現了 8.01 FVD 和 0.05209 LPIPS。
IV-VAE 在 ActivityNet 數據集上實現了 6.08 FVD 和 0.04436 LPIPS。
在 SkyTimelapse 數據集上,IV-VAE 的 FVD 降低了 9.4。