Core Concepts
本研究では、オブジェクト指向の画像編集タスクに特化した柔軟で制御可能なFlexEditフレームワークを提案する。FlexEditは、潜在表現の最適化と適応的なマスクを用いたブレンディングを組み合わせることで、オブジェクトの置換、追加、削除などの様々な編集シナリオに対応できる。
Abstract
本研究では、オブジェクト指向の画像編集タスクに特化したFlexEditフレームワークを提案している。FlexEditは、Stable Diffusionモデルをベースとしており、以下の2つの主要な要素を組み合わせることで、柔軟で制御可能な編集を実現する。
潜在表現の最適化:
オブジェクトの位置やサイズなどの制約条件を考慮して、潜在表現を最適化する。
オブジェクトの追加時には、既存オブジェクトとの注意の分離を促す損失関数を導入する。
適応的マスクを用いたブレンディング:
元の画像の背景情報を保持しつつ、編集対象のオブジェクトを自然に統合するため、ソースとターゲットのオブジェクトマスクを組み合わせた適応的マスクを使用する。
提案手法は、オブジェクトの置換、追加、削除などの様々な編集シナリオに対応可能である。また、新たな評価ベンチマークを導入し、定量的・定性的な評価を通じて、提案手法の優位性を示している。ユーザスタディの結果からも、FlexEditが他手法に比べて優れた編集結果を生成できることが確認された。
Stats
オブジェクトの位置は、マスクの重心を用いて推定する。
オブジェクトのサイズは、マスクの平均値を用いて推定する。
既存オブジェクトとの注意の分離は、マスクベクトルの余弦類似度を用いて評価する。