本論文は、単一の入力画像から複数の概念を学習し、それらを組み合わせたり個別に生成することで、高品質かつ個人化された画像を生成する手法を提案している。
具体的には以下の3つの点に取り組んでいる:
新しい修飾子トークンと対応するクラストークンの注意マップを整合的に結び付ける制約を導入し、各概念の正確な表現を学習する。
クラストークン間の注意マップの重複を最小化し、各概念を独立して生成できるよう、「分離と強化」の戦略を提案する。
注意マップの境界を鋭くするサプレッション手法を導入し、各クラストークンの注意を一層明確化する。
これらの工夫により、提案手法は既存手法に比べて、入力画像との高い視覚的整合性を保ちつつ、柔軟な概念編集を可能にしている。実験結果では、定量的・定性的に優れた性能を示している。さらに、画像修復やLoRAとの統合など、様々な応用も検討されている。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Yanbing Zhan... في arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18551.pdfاستفسارات أعمق