本研究では、アイデンティティ保持型人物動画生成を実現するID-Animatorフレームワークを提案している。ID-Animatorは、事前学習済みのテキスト-動画生成モデルにフェイスアダプターを組み込むことで、単一の顔画像から、アイデンティティを保持しつつ、テキストプロンプトに沿った人物動画を生成することができる。
データセット構築においては、人物の属性と行動を分離したキャプション生成手法を導入し、アイデンティティ関連の特徴抽出を促進している。また、ランダムな顔画像を参照画像として使用する訓練手法を提案し、アイデンティティ以外の情報の影響を低減している。
実験の結果、ID-Animatorは既存手法と比較して優れたアイデンティティ保持性能と動画生成品質を示している。さらに、ControlNetやコミュニティモデルとの統合など、幅広い応用展開が可能であることを確認した。
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Xuanhua He,Q... о arxiv.org 04-24-2024
https://arxiv.org/pdf/2404.15275.pdfГлибші Запити