本研究では、マスク着用顔の補完を行うための手法を提案している。まず、マスク領域を検出するためのセグメンテーションネットワークを用いる。次に、エンコーダ-デコーダ構造にゲートコンベーションを組み込み、マスク領域の補完を行う。さらに、マルチスケールチャンネル-空間注意モジュール(M-CSAM)を提案し、空間情報の損失を軽減し、チャンネル間および空間内の相関を学習する。また、マスク領域のみに注目した監督信号を用いることで、より一貫した色と構造を生成できるようにしている。実験の結果、提案手法は他の手法と比較して、構造類似度指標(SSIM)、ピーク信号対雑音比(PSNR)、ℓ1損失の点で優れた性能を示している。さらに、視覚的にも自然な補完結果が得られることが示されている。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Minmin Yang alle arxiv.org 09-12-2024
https://arxiv.org/pdf/2409.06845.pdfDomande più approfondite