Core Concepts
LAR-Genは、テキストと被写体の両方の指示に基づいて、シームレスに画像の欠損部分を補完することができる。
Abstract
本論文は、テキストと被写体の両方の指示に基づいて画像を補完する新しい手法LAR-Genを提案している。
まず、Locate機構では、欠損部分の画像とノイズを連結することで、背景を変えずに欠損部分のみを補完するようにモデルに強制する。次に、Assign機構では、テキストと被写体の両方の情報を活用するための分離型クロスアテンションを導入する。これにより、テキストの意味と被写体の特徴を両立させることができる。最後に、Refine機構では、RefineNetと呼ばれる補助的なU-Netを使って、被写体の詳細を段階的に補完する。
また、テキストと被写体の組み合わせデータが不足しているという課題に対して、大規模な画像データセットから自動的に必要なデータを生成する手法を提案している。
実験の結果、LAR-Genは被写体の同一性とテキストの意味的整合性の両方を高い水準で実現できることが示された。さらに、LAR-Genは、テキストのみ、被写体のみ、両方の指示に対応する統一的な画像補完フレームワークとして機能することも確認された。
Stats
欠損部分の画像とノイズを連結することで、背景を変えずに欠損部分のみを補完することができる。
分離型クロスアテンションを導入することで、テキストの意味と被写体の特徴を両立させることができる。
RefineNetを使って、被写体の詳細を段階的に補完することができる。