核心概念
本稿では、ビデオ生成における計算コストの課題に取り組み、空間的・時間的なピラミッド表現を用いた効率的なビデオ生成モデリングフレームワーク「ピラミッドフローマッチング」を提案する。
要約
効率的なビデオ生成モデリングのためのピラミッドフローマッチング
本稿では、従来のカスケード型拡散モデルの制限を超えた、効率的なビデオ生成モデリングフレームワークを提案する。
ビデオ生成モデル、特に拡散モデルや自己回帰モデルは、現実的な長編ビデオ生成において目覚ましい進歩を遂げている。しかし、これらのモデルの学習は、膨大な時空間空間のモデリングが必要となるため、計算量とデータセットの規模の点で大きな課題を抱えている。
高次元ビデオデータの計算負荷を軽減するため、従来の手法では、VAEを用いて元のビデオピクセルを低次元潜在空間に圧縮することが一般的であった。しかし、一般的な圧縮率(通常8倍)では、特に高解像度のサンプルではトークン数が膨大になってしまうという問題があった。
この問題に対処するため、高解像度生成プロセスを複数のステージに分割し、最初に高度に圧縮された潜在空間でサンプルを作成し、その後、追加の超解像モデルを用いて段階的にアップサンプリングするカスケードアーキテクチャが主流となっている。しかし、カスケードパイプラインは、高解像度で直接学習することを回避し、計算量を削減する一方で、異なる解像度で別々のモデルを使用する必要があるため、柔軟性とスケーラビリティが犠牲になる。さらに、複数のサブモデルを別々に最適化することで、獲得した知識の共有が妨げられるという問題もあった。