本論文では、拡散モデルを用いた画像補完における意味的不整合の問題に取り組む。
まず、マスクされた領域と非マスク領域の意味的不整合の原因を分析し、構造情報を利用することで解決できることを示す。
具体的には、拡散過程において構造情報を徐々に疎な表現に変化させることで、早期の段階では意味的整合性を保ち、後期の段階では意味的に妥当な補完結果を生成できる。
構造情報は、テクスチャの復元過程において時間依存的な指針を提供し、意味的に整合性のある補完結果の生成を可能にする。
提案手法では、構造情報を利用したノイズ予測ネットワークを設計し、最適な復元状態を推定することで、意味的に整合性のある補完結果を生成する。
さらに、構造情報とテクスチャの意味的相関を適応的に調整する手法を提案し、より良い補完結果を得られるようにする。
実験結果から、提案手法が既存手法に比べて優れた補完性能を示すことを確認した。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Haipeng Liu,... lúc arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19898.pdfYêu cầu sâu hơn