Temel Kavramlar
本研究では、文字駆動型スタイル転写の課題に取り組み、構造一貫性を維持しつつ効果的なスタイル転写を実現する新しいソリューションを提案する。
Özet
本研究は、文字駆動型スタイル転写の課題に取り組んでいる。従来の手法では、コンテンツプロンプトとスタイルプロンプトを直接連結することで、プロンプトレベルでのスタイル注入を行っていた。しかし、テキスト-画像の不整合問題により、スタイルプロンプトに非スタイル情報が含まれることで、出力画像の構造的ドリフトが避けられないという問題があった。
本研究では、Adaptive Style Incorporation (ASI)と呼ばれる新しいソリューションを提案する。ASIは、特徴レベルでのファイングレインドなスタイル組み込みを実現する。具体的には、Siamese Cross-Attention (SiCA)モジュールを用いて、コンテンツ特徴とスタイル特徴を別々に抽出し、Adaptive Content-Style Blending (AdaBlending)モジュールを使ってマスク付きの構造一貫的なスタイル組み込みを行う。
実験の結果、ASIは構造保持とスタイル転写のバランスが良く、従来手法に比べて優れた性能を示すことが分かった。特に、リアル画像への適用、視覚的な強化、生成画像へのスタイル転写などの様々なタスクで良好な結果が得られている。
İstatistikler
構造一貫性を維持しつつ効果的なスタイル転写を実現することが重要である。
テキスト-画像の不整合問題により、プロンプトレベルでのスタイル注入では構造的ドリフトが避けられない。
Alıntılar
特徴レベルでのファイングレインドなスタイル組み込みにより、構造一貫性を維持しつつ効果的なスタイル転写を実現できる。
Siamese Cross-Attention (SiCA)とAdaptive Content-Style Blending (AdaBlending)の提案により、構造保持とスタイル転写のバランスが良い結果が得られる。