核心概念
T2Vの性能を向上させるために、VideoElevatorがT2Iを統合する方法。
要約
VideoElevatorは、T2Vベースラインのパフォーマンスを向上させるために、各サンプリングステップを明示的に分解し、時間的な動きの微調整と空間的な品質向上を行います。低域通過周波数フィルターを使用して高周波フリッカーを減少させ、T2VベースのSDEditを適用して自然な動きを描写します。また、DDIM逆変換法を使用してT2Iで必要とされるノイズ潜在変数を計算します。空間的な品質向上では、T2Iの自己注意力を拡張し、写真実現的な詳細情報を提供します。
統計
VideoElevatorは100ステップ以上のサンプリングステップ数で従来のT2Vよりも優れたパフォーマンスを発揮しています。
VideoElevatorは基礎となるT2Iと組み合わせてT2Vベースラインのパフォーマンス向上に成功しています。
引用
"VideoElevator explicitly decomposes each sampling step into temporal motion refining and spatial quality elevating."
"Extensive experiments demonstrate the effectiveness of VideoElevator under the combination of various T2V and T2I."