Core Concepts
インペイントを逆転させることで、テキスト指示に基づいて画像にオブジェクトを自然に追加することができる。
Abstract
本論文では、画像オブジェクトの追加を目的とした新しいフレームワーク「Paint by Inpaint」を提案している。この手法は、オブジェクトの除去(インペイント)がオブジェクトの追加(ペイント)よりも容易であるという洞察に基づいている。
具体的には以下の手順で進められる:
大規模な画像セグメンテーションデータセットと高性能なインペイントモデルを活用して、オブジェクト除去済みの画像ペアを大量に生成する。
生成された画像ペアに対して、ビジョン言語モデルとLanguage Modelを用いて自然言語の追加指示を自動生成する。
生成されたデータセット(PIPE)を用いて、テキスト指示に基づいてオブジェクトを追加する拡散モデルを学習する。
実験の結果、提案手法は既存手法を大きく上回る性能を示し、人間評価でも高い評価を得ている。さらに、PIPEデータセットを他の画像編集タスクにも活用することで、全般的な画像編集性能の向上にも貢献できることが示された。
Stats
元の画像にはオブジェクトが存在するが、インペイントによって除去された画像ペアを大量に生成している。
生成された画像ペアに対して、ビジョン言語モデルとLanguage Modelを用いて自然言語の追加指示を自動生成している。
Quotes
"画像編集は、コンピューターグラフィックスとビジョンの分野で中心的な役割を果たしている。特に、画像にオブジェクトを自然に追加することは非常に難しい課題である。"
"オブジェクトの除去(インペイント)がオブジェクトの追加(ペイント)よりも容易であるという洞察に基づいて、新しいフレームワーク「Paint by Inpaint」を提案する。"
"提案手法は、既存手法を大きく上回る性能を示し、人間評価でも高い評価を得ている。さらに、PIPEデータセットを他の画像編集タスクにも活用することで、全般的な画像編集性能の向上にも貢献できる。"