Keskeiset käsitteet
本研究では、参照画像からのスタイルと内容の効果的な分離を実現する2つの簡単かつ強力な手法を提案する。これにより、スタイル移転の性能を大幅に向上させ、重みチューニングの必要性を排除することができる。
Tiivistelmä
本研究は、テキストから画像への生成における重要な課題であるスタイル保持に取り組んでいる。
- スタイルの定義は曖昧で多様であり、大規模なペア付きデータセットの構築が困難である。
- 従来のインバージョン手法では、細かな質感やテクスチャなどのスタイル情報が失われる問題がある。
- アダプター ベースの手法では、スタイルの強さとテキストの制御性のバランスを取るための慎重な重みチューニングが必要となる。
- 本研究では以下の2つの簡単かつ効果的な手法を提案する:
- CLIP の特徴空間における内容と スタイルの明示的な分離: テキストの特徴を引き算することで、内容とスタイルを効果的に分離できる。
- スタイル特有のブロックへの特徴の注入: 特定の注意ブロックにのみ特徴を注入することで、内容のリークを防ぎ、重みチューニングの必要性を排除できる。
- 提案手法は、既存のアダプター ベースおよび注意ベースの特徴注入手法に適用可能であり、優れたスタイル移転性能を示す。