Core Concepts
SmartControlは、テキストプロンプトと粗い視覚条件の不整合を解決し、写真リアルな画像を生成する。
Abstract
本論文では、SmartControlと呼ばれる新しい制御可能な画像生成手法を提案する。従来の手法では、テキストプロンプトと視覚条件が完全に一致する必要があったが、SmartControlは両者の不整合を柔軟に扱うことができる。
具体的には以下の通り:
視覚条件と文章プロンプトの矛盾する部分を特定し、その領域の制御強度を緩和する「制御スケール予測器」を導入した。
視覚条件と文章プロンプトの不整合を理解するための学習データセットを構築した。
制御スケール予測器の学習目的関数を設計し、制御強度の最適化を行った。
実験の結果、SmartControlは既存手法と比べて、テキストプロンプトとの整合性が高く、かつ視覚条件の有用な情報を保持した写真リアルな画像を生成できることが示された。
Stats
「高ヒールの靴にはダイヤモンドが付いている」
「2匹の虎が草原に立っている」
「アニメスタイルの財布を持った女の子」
「エジプトのピラミッドの前でギターを弾くアイアンマン」