核心概念
動画の動きを表現する新しい手法を提案し、テキストによる動画生成の柔軟性と制御性を向上させる。
要約
本研究では、動画生成における動きの表現と操作に焦点を当てている。動画は空間的および時間的な属性を持つため、動きの表現は重要な課題となる。
提案手法では、Motion Embeddingsと呼ばれる、時間的に一貫性のある1次元の埋め込みを導入する。これらの埋め込みは、ビデオ拡散モデルの時間的トランスフォーマーモジュールに統合され、フレーム間の自己注意計算を直接調整することで、動きの特性を効果的に表現する。
さらに、ビデオ生成モデルの異なる動きモジュールが時間的関係を処理する方法に違いがあることを発見した(Temporal Discrepancy)。この洞察に基づき、Motion Embeddingsを最適な位置に統合することで、動きの表現を強化している。
提案手法は、既存の動きカスタマイズ手法と比較して、動きの軌跡と物体の姿勢を効果的に保持しつつ、テキストの記述に合わせた視覚的特徴を生成することができる。
統計
動画の全フレーム数をNとすると、Motion Embeddingsは{m_1, m_2, ..., m_L}の形式で表現され、各m_iは(1, N, C)の形状を持つ。
時間的トランスフォーマーモジュールでは、入力特徴テンソルFに各Motion Embeddingm_iが加算されることで、フレーム間の自己注意計算が調整される。
引用
"動画の動きを表現する新しい手法を提案し、テキストによる動画生成の柔軟性と制御性を向上させる。"
"ビデオ生成モデルの異なる動きモジュールが時間的関係を処理する方法に違いがあることを発見した(Temporal Discrepancy)。"