Core Concepts
Lazy Diffusionは、マスクされた領域のみを効率的に生成することで、対話的な画像編集を可能にする新しい拡散変換器アーキテクチャを提案する。
Abstract
本論文は、対話的な画像編集アプリケーションのためのLazy Diffusion Transformerを提案している。従来の拡散モデルは、全画像を生成し、その後マスクされた領域のみを使用するため非効率である。一方、Lazy Diffusionは、マスクされた領域のみを効率的に生成することで、大幅な高速化を実現している。
具体的には、Lazy Diffusionは2つのステップで動作する。まず、エンコーダがマスクされた領域を含む全画像のコンテキストを圧縮して表現する。次に、デコーダがこのコンテキスト情報を利用しながら、マスクされた領域のみを効率的に生成する。
この設計により、Lazy Diffusionは従来手法と比べて10倍高速に動作し、かつ同等の品質を保つことができる。特に、マスクが小さい場合の高速化が顕著である。これにより、拡散モデルを対話的な画像編集に活用できるようになる。
本論文では、テキストプロンプトによる画像編集に加え、スケッチによる編集も実現している。また、定量的・定性的な評価を通じて、Lazy Diffusionの有効性を示している。
Stats
Lazy Diffusionは従来手法と比べて、マスクが10%の場合に10倍高速に動作する。
Lazy Diffusionの圧縮されたコンテキスト表現は、局所的な編集においても画像全体の整合性を保つことができる。
Quotes
"Lazy Diffusionは、マスクされた領域のみを効率的に生成することで、対話的な画像編集を可能にする新しい拡散変換器アーキテクチャを提案する。"
"Lazy Diffusionは従来手法と比べて10倍高速に動作し、かつ同等の品質を保つことができる。特に、マスクが小さい場合の高速化が顕著である。"