核心概念
ImPosterは、単一の被写体画像と駆動画像から、被写体が駆動アクションを実行する画像を生成する新しいアルゴリズムです。ステップワイズのテキストプロンプティングと周波数ガイダンスを組み合わせることで、被写体の特徴を維持しつつ、駆動アクションを効果的に転写することができます。
摘要
本論文では、ImPosterと呼ばれる新しいアルゴリズムを提案しています。ImPosterは、単一の被写体画像と駆動画像から、被写体が駆動アクションを実行する画像を生成することができます。
まず、事前学習された文字-画像拡散モデルを被写体画像と駆動画像のテキスト記述でファインチューニングします。推論時には、ステップワイズのテキストプロンプティング手法を用いて、まず駆動画像の特徴を生成し、次に目的の画像のテキスト記述に沿って生成を行います。さらに、周波数ドメインの特徴を利用したガイダンス手法を提案しています。これにより、被写体の特徴を維持しつつ、駆動アクションを効果的に転写することができます。
提案手法は、様々な被写体-駆動画像ペアに対して適用可能であり、モンキーが瞑想したり楽器を演奏したりするなど、興味深い結果を生成することができます。定量的な評価では、提案手法が既存手法を大きく上回ることを示しています。
統計資料
被写体画像と駆動画像のテキスト記述を組み合わせることで、被写体が駆動アクションを実行する画像を生成できる。
ステップワイズのテキストプロンプティングにより、まず駆動アクションの特徴を生成し、次に目的の画像のテキスト記述に沿って生成を行う。
周波数ドメインの特徴を利用したガイダンス手法により、被写体の特徴を維持しつつ、駆動アクションを効果的に転写できる。
引述
"ImPosterは、単一の被写体画像と駆動画像から、被写体が駆動アクションを実行する画像を生成する新しいアルゴリズムです。"
"ステップワイズのテキストプロンプティングと周波数ガイダンスを組み合わせることで、被写体の特徴を維持しつつ、駆動アクションを効果的に転写することができます。"