本研究では、テキスト-画像生成モデルにおいて、CLIP言語埋め込みの中に存在する意味的方向性を利用することで、主題固有かつ細粒度な属性制御を実現する手法を提案している。
具体的には以下の3点が明らかになった:
CLIP言語埋め込みの中には、モデルが解釈可能な意味的方向性が存在する。これらの方向性を利用することで、主題固有の属性制御が可能となる。
対照的なテキストプロンプトから、特定の属性に対応する方向性を同定できる。これにより、属性の細粒度な制御が可能となる。
同定した方向性を、テキストプロンプトに追加することで、主題固有かつ細粒度な属性制御を実現できる。これにより、生成画像の属性表現を連続的に調整できる。
本手法は、テキスト-画像生成モデルの能力を大幅に向上させ、ユーザーに細かな制御性を提供する。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問