Core Concepts
ユーザーが直感的な命令を与えるだけで、画像の特定の領域を正確に編集できる手法を提案する。
Abstract
本論文は、ゼロショット命令ガイド型の局所画像編集手法「ZONE」を提案している。
主な特徴は以下の通り:
命令文から編集対象領域を自動的に特定し、その領域のみを編集する。ユーザーは複雑な入力を必要としない。
編集対象領域の精密なマスクを生成するため、Segment Anything Modelと独自のRegion-IoU手法を組み合わせている。
フーリエ変換に基づくエッジスムーザーを導入し、編集領域と背景の自然な合成を実現している。
命令に応じて「追加」「削除」「変更」などの多様な編集が可能で、かつ非編集領域への影響を最小限に抑えられる。
定量評価と定性評価の両面で、既存手法を大きく上回る性能を示している。
Stats
命令文から編集領域を特定する際、IP2Pの注意機構は命令全体の意図に着目するのに対し、Stable Diffusionは個々のトークンに対応する。
編集領域のマスクを精密化する際、Region-IoUスキームとSAMを組み合わせることで、編集意図を正確に反映できる。
エッジスムーザーによって、編集領域と背景の自然な合成が可能となる。
Quotes
"ユーザーが直感的な命令を与えるだけで、画像の特定の領域を正確に編集できる手法を提案する。"
"命令に応じて「追加」「削除」「変更」などの多様な編集が可能で、かつ非編集領域への影響を最小限に抑えられる。"