核心概念
単一の顔画像から、アイデンティティを保持しつつ、与えられたテキストプロンプトに沿った多様な人物動画を生成することができる。
要約
本研究では、アイデンティティ保持型人物動画生成を実現するID-Animatorフレームワークを提案している。ID-Animatorは、事前学習済みのテキスト-動画生成モデルにフェイスアダプターを組み込むことで、単一の顔画像から、アイデンティティを保持しつつ、テキストプロンプトに沿った人物動画を生成することができる。
データセット構築においては、人物の属性と行動を分離したキャプション生成手法を導入し、アイデンティティ関連の特徴抽出を促進している。また、ランダムな顔画像を参照画像として使用する訓練手法を提案し、アイデンティティ以外の情報の影響を低減している。
実験の結果、ID-Animatorは既存手法と比較して優れたアイデンティティ保持性能と動画生成品質を示している。さらに、ControlNetやコミュニティモデルとの統合など、幅広い応用展開が可能であることを確認した。
統計
単一の顔画像から、アイデンティティを保持しつつ、与えられたテキストプロンプトに沿った多様な人物動画を生成できる
事前学習済みのテキスト-動画生成モデルにフェイスアダプターを組み込むことで、効率的な学習が可能
人物の属性と行動を分離したキャプション生成手法を導入し、アイデンティティ関連の特徴抽出を促進
ランダムな顔画像を参照画像として使用する訓練手法により、アイデンティティ以外の情報の影響を低減
引用
"単一の顔画像から、アイデンティティを保持しつつ、与えられたテキストプロンプトに沿った多様な人物動画を生成することができる。"
"事前学習済みのテキスト-動画生成モデルにフェイスアダプターを組み込むことで、効率的な学習が可能"
"人物の属性と行動を分離したキャプション生成手法を導入し、アイデンティティ関連の特徴抽出を促進"
"ランダムな顔画像を参照画像として使用する訓練手法により、アイデンティティ以外の情報の影響を低減"