核心概念
本研究では、参照画像ペアから編集効果を抽出し、新しい画像の編集に適用するInstructBrushを提案する。注意力ベースの命令最適化と変換指向の命令初期化を導入し、命令の精度と一般化を向上させている。
要約
本研究は、命令ベース画像編集の課題に取り組んでいる。従来の命令ベース編集手法は、言語で正確に表現できない編集タスクに対応できないという問題がある。そこで本研究では、InstructBrushを提案し、参照画像ペアから編集効果を抽出し、新しい画像の編集に適用する。
具体的には以下の2つの技術を導入している:
- 注意力ベースの命令最適化: 命令の特徴を注意力層で最適化することで、より直接的かつ効果的に画像編集を行うことができる。
- 変換指向の命令初期化: 画像ペアの変換に関連する固有フレーズを抽出し、命令初期化に活用することで、命令の意味的な整合性を高めている。
さらに、命令逆変換の能力を評価するためのベンチマーク(TOP-Bench)を構築している。定量的・定性的な評価の結果、提案手法は既存手法を大きく上回る性能を示している。
統計
画像編集タスクの性能を示す指標PSNR、SSIM、LPIPSの値が既存手法よりも大幅に向上している。
編集方向とターゲットの一致度を示すCLIP方向性スコアも大幅に改善されている。