核心概念
U-Sketchは、U-Netタイプの潜在エッジ予測器を使用して、スケッチの空間レイアウトに忠実な高品質な画像を効率的に生成する。
摘要
本論文では、U-Sketchと呼ばれる新しいスケッチ指導型テキスト-画像合成フレームワークを提案している。U-Sketchの中核となるのは、U-Netタイプの潜在エッジ予測器である。この予測器は、中間層の活性化を利用して、各脱ノイズステップでエッジマップを推定し、合成プロセスを指導する。
U-Sketchの主な特徴は以下の通り:
- U-Netアーキテクチャにより、局所的および大域的な特徴、ならびにピクセル間の空間相関を効果的にキャプチャできる。
- これにより、スケッチの空間アウトラインに忠実な、より現実的な画像を生成できる。
- 必要な脱ノイズステップ数を大幅に削減(約80%減)し、全体的な実行時間を大幅に短縮できる。
- スケッチ簡略化ネットワークを組み込み、ユーザーが入力スケッチを事前に簡略化・滑らかにできる。
実験結果と、ユーザーからのフィードバックから、U-Sketchが優れた性能を発揮することが示された。
統計資料
提案手法のU-Sketchは、従来手法のMLPと比べて、必要な脱ノイズステップ数を約80%削減できる。
U-Sketchの総実行時間は、MLPの250ステップ実行時と比べて、約50秒と大幅に短縮される。
引述
"U-Netタイプの潜在エッジ予測器は、局所的および大域的な特徴、ならびにピクセル間の空間相関を効果的にキャプチャできる。"
"U-Sketchは、スケッチの空間アウトラインに忠実な、より現実的な画像を生成できる。"
"U-Sketchは、必要な脱ノイズステップ数を大幅に削減(約80%減)し、全体的な実行時間を大幅に短縮できる。"