LEOは、人間の動画合成において、画質と時空間的な一貫性を大幅に向上させる新しいフレームワークである。
本稿では、複数シーンの教育動画を生成する際の一貫性を維持しながら、テキストによる指示を正確に反映させることを目的とした、対照的な逐次拡散学習(CoSeD)と呼ばれる新しい手法を提案する。
AnimateLCMは、パーソナライズされた動画データを使用せずに、計算効率の高いパーソナライズされたスタイルの動画生成を実現する手法である。
DragEntityは、従来のピクセル単位のドラッグではなく、エンティティ表現と空間的位置関係モデリングを組み合わせることで、複数のオブジェクトのモーションを正確に制御する、よりユーザーフレンドリーな軌跡ベースの動画生成手法である。
本研究では、画像拡散モデルと動画拡散モデルを統合することで、高品質で時間的に一貫性のある動画を生成する新しい手法を提案する。