المفاهيم الأساسية
DragEntityは、従来のピクセル単位のドラッグではなく、エンティティ表現と空間的位置関係モデリングを組み合わせることで、複数のオブジェクトのモーションを正確に制御する、よりユーザーフレンドリーな軌跡ベースの動画生成手法である。
الملخص
DragEntity: エンティティと位置関係を利用した軌跡ガイド付き動画生成
この論文は、エンティティ表現と位置関係を利用した軌跡ガイド付き動画生成手法であるDragEntityを提案する研究論文である。
従来の軌跡ベースの動画生成手法は、ピクセル単位の操作を行うため、複数のオブジェクトのモーションを正確に制御することが困難であった。この研究では、エンティティ表現と空間的位置関係モデリングを用いることで、この問題を解決することを目的とする。
DragEntityは、以下の3つの要素から構成される。
エンティティ表現: 画像内のオブジェクトを、その潜在特徴量を用いて表現する。
位置関係モデリング: オブジェクト間の相対的な空間的位置関係を、エンティティ表現に組み込むことで、オブジェクトの構造的整合性を維持する。
軌跡ガイド付き生成: エンコードされたエンティティ表現と軌跡情報を条件として、拡散モデルを用いて動画を生成する。
具体的には、まず、最初のフレームからセグメンテーションマスクを用いてエンティティを抽出し、それぞれのエンティティ表現を生成する。次に、位置関係認識モジュールを用いて、エンティティ表現に相対的な空間的位置関係情報を統合する。最後に、SVDモデルに基づき、エンティティ表現と軌跡情報を条件として、拡散モデルを用いて動画を生成する。