本研究は、テキスト指導型の画像編集における課題であるクロスアテンションのリークに取り組んでいる。従来手法では、クロスアテンションマップの精度が低く、意図しない領域の変更が生じていた。
提案手法のLocalization-aware Inversion (LocInv)では、セグメンテーションマップや検出境界ボックスといった局所化プライオリティを利用して、クロスアテンションマップの精度を向上させている。具体的には、各時間ステップでテキストトークンを動的に更新し、局所化プライオリティとの類似性と重複を最大化するように最適化を行う。さらに、形容詞と名詞の関係性を強化することで、属性編集の能力も向上させている。
実験では、MS-COCOデータセットの一部を用いて定量的・定性的な評価を行っている。提案手法LocInvは、既存手法と比較して優れた性能を示しており、特に複雑な多オブジェクトシーンにおいて顕著な改善が見られる。また、属性編集の能力も確認できる。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問