本論文では、ImPosterと呼ばれる新しいアルゴリズムを提案しています。ImPosterは、単一の被写体画像と駆動画像から、被写体が駆動アクションを実行する画像を生成することができます。
まず、事前学習された文字-画像拡散モデルを被写体画像と駆動画像のテキスト記述でファインチューニングします。推論時には、ステップワイズのテキストプロンプティング手法を用いて、まず駆動画像の特徴を生成し、次に目的の画像のテキスト記述に沿って生成を行います。さらに、周波数ドメインの特徴を利用したガイダンス手法を提案しています。これにより、被写体の特徴を維持しつつ、駆動アクションを効果的に転写することができます。
提案手法は、様々な被写体-駆動画像ペアに対して適用可能であり、モンキーが瞑想したり楽器を演奏したりするなど、興味深い結果を生成することができます。定量的な評価では、提案手法が既存手法を大きく上回ることを示しています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Divya Kothan... lúc arxiv.org 09-25-2024
https://arxiv.org/pdf/2409.15650.pdfYêu cầu sâu hơn