本論文は、大規模な欠損領域を持つ画像に対して、多様な補完結果を生成する手法を提案している。
まず、提案手法は可視領域のみを考慮した制限付きエンコーダを用いて、部分画像から潜在コードを予測する。次に、双方向トランスフォーマーを使って欠損領域の潜在コードを推定する。最後に、予測された潜在コードと部分画像の特徴を組み合わせて、補完画像を生成する。
この手法の特徴は以下の通りである:
実験の結果、提案手法は Places365-Standard および CelebA-HQ データセットにおいて、視覚品質と多様性の両面で最先端の性能を示すことが確認された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haiwei Chen,... lúc arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18186.pdfYêu cầu sâu hơn