Mattenは、Mamba-Attention アーキテクチャを用いた最先端の潜在拡散モデルであり、低コストで優れた動画生成性能を実現する。
本研究では、画像拡散モデルと動画拡散モデルを統合することで、高品質で時間的に一貫性のある動画を生成する新しい手法を提案する。
DragEntityは、従来のピクセル単位のドラッグではなく、エンティティ表現と空間的位置関係モデリングを組み合わせることで、複数のオブジェクトのモーションを正確に制御する、よりユーザーフレンドリーな軌跡ベースの動画生成手法である。