Core Concepts
変換器ベースの手法は画素単位のトークン化により情報損失が生じるが、提案手法PUT は特徴ベクトルを直接入力とすることで情報損失を大幅に削減し、高品質かつ多様な画像補完を実現する。
Abstract
本論文は、変換器ベースの画像補完手法の情報損失問題に着目し、新しい手法PUTを提案している。
具体的には以下の2つの設計を行っている:
Patch-based Vector Quantized Variational Auto-Encoder (P-VQVAE)
入力画像をオーバーラップのない画像パッチに分割し、エンコーダで特徴ベクトルに変換する
2つのコードブックを用いて、マスクされた領域とマスクされていない領域の特徴を別々に量子化
デコーダは、マスクされた領域を補完しつつ、マスクされていない領域は変更しない
Un-Quantized Transformer (UQ-Transformer)
量子化された離散トークンではなく、P-VQVAEのエンコーダ出力の特徴ベクトルを直接入力とする
マスクされた領域の特徴ベクトルの確率分布を予測し、トークンをサンプリングする
さらに、セマンティックマップや構造マップといった条件情報を統合することで、ユーザが生成結果を制御できるようにしている。
実験の結果、提案手法PUTは既存の変換器ベースの手法よりも高品質かつ多様な補完結果を生成できることを示している。
Stats
入力画像を低解像度にダウンサンプリングすることで計算効率を上げるが、情報損失が生じる
2563 RGB値を少数の量子化された色値に変換することで、情報損失が生じる
Quotes
"Transformer based methods have achieved great success in image inpainting recently. However, we find that these solutions regard each pixel as a token, thus suffering from an information loss issue from two aspects: 1) They downsample the input image into much lower resolutions for efficiency consideration. 2) They quantize 2563 RGB values to a small number (such as 512) of quantized color values."
"To mitigate these issues, we propose a new transformer based framework called "PUT"."