I2EBenchは、指示ベースの画像編集モデルの性能を多次元的に包括的に評価するためのベンチマークである。高水準編集と低水準編集の16の評価次元を設け、人間の知覚に合わせた評価を行い、各モデルの長所と短所を明らかにする。
本手法は、入力画像を意味的に意味のある画像要素に分割し、それらの要素を直接編集することで、写実的な画像を合成することができる。
ドラッグ編集の安定性と画質を向上させるため、交互のドラッグと除雑音操作を行うAlDD フレームワークと、ハンドルポイントの特徴を保持する情報保持型モーション監視を提案する。
有害な画像を責任あるものに変換することで、憎しみ、差別、プライバシー侵害などの悪影響を最小限に抑えることができる。
本研究では、参照画像ペアから編集効果を抽出し、新しい画像の編集に適用するInstructBrushを提案する。注意力ベースの命令最適化と変換指向の命令初期化を導入し、命令の精度と一般化を向上させている。
安定拡散モデルにおけるクロスとセルフアテンションの重要性を明らかにする。