ビデオ拡散モデルの推論プロセスにおけるメモリ消費量と計算コストの増大という課題に対し、本稿では、トレーニング不要なフレームワーク「Streamlined Inference」を提案する。これは、特徴スライサー、オペレータグループ化、ステップリハッシュという3つの主要コンポーネントから成り、ビデオ拡散モデルの空間的および時間的特性を活用することで、ピークメモリと計算量の削減を実現する。
従来のビデオ拡散モデル (VDM) は、ビデオクリップ全体に単一のタイムステップを使用するため、複雑な時間的依存関係のモデリングが制限されています。本稿では、各フレームが独立したノイズスケジュールに従うことを可能にする、ベクトル化されたタイムステップ変数 (VTV) を導入したフレームアウェアビデオ拡散モデル (FVDM) を提案します。FVDM は、標準的なビデオ生成において優れた視覚品質を実現するだけでなく、画像からビデオへの生成、ビデオ補間、長いビデオ合成など、複数のダウンストリームタスクをゼロショットで可能にします。
ビデオ拡散モデルは、高品質のビデオを生成および修正するための堅牢な手法となっている。