拡散モデルを用いた画像補完では、マスクされた領域と非マスク領域の意味的不整合が課題となっている。本手法では、補完時の構造情報を利用することで、意味的に整合性のある補完結果を生成する。
提案手法は、可視領域のみを考慮して潜在コードを予測し、欠損領域の潜在コードを双方向トランスフォーマーで推定することで、部分画像に整合性のある多様な補完結果を生成する。