Centrala begrepp
本稿では、Vision Transformer(ViT)を用いてマスクされた画像領域を、入力画像内の自己注意によって選択された領域で置き換えることで、画像修復における事前処理手法を提案する。
Sammanfattning
概要
本稿は、Vision Transformer(ViT)を用いた新しい深層学習ベースの画像修復のための事前処理手法を提案している。
従来手法の問題点
従来の画像修復モデルは、欠損領域と既知領域の接続に有効な特徴量の抽出、現実的なディテール生成のための近傍パッチの探索、最適なパッチ候補作成のための補助情報の統合といった課題を抱えていた。
提案手法
本稿では、ViTモデルと様々な視覚パッチを用いて、欠損領域をViTから得られた値で置き換える事前処理手法を提案する。
ViT事前処理
- 入力画像を、垂直、水平、正方形の3種類の視覚パッチに分割する。
- 各パッチをViTの自己注意機構に入力し、特徴マップを取得する。
- 得られた特徴マップとバイナリマスクを乗算し、欠損領域を自己注意された特徴で埋める。
マスクの置き換え
ViTで事前処理した特徴マップを用いて、バイナリマスクの値を置き換える。これにより、画像修復モデルは、より多くの情報を含む画像を入力として受け取ることができる。
実験と結果
提案手法を4つの比較モデル(GMCNN、MSNPS、CA、Context Encoders)に適用し、4つの公開データセット(Paris Street View、ImageNet、Places2、CelebA-HQ)を用いて評価を行った。
結果
- すべての比較モデルにおいて、提案手法を用いることで、視覚的なパフォーマンスが向上した。
- 提案手法を用いることで、初期マスクにより多くの情報を含む特徴量が提供されるため、PSNRとSSIMの両方の評価指標において、すべてのモデルでパフォーマンスが向上した。
- 事前学習済みViTを用いることで、さらにパフォーマンスが向上した。
結論
本稿では、ViTを用いた新しい画像修復のための事前処理手法を提案した。実験の結果、提案手法は、従来の画像修復モデルのパフォーマンスを向上させることが示された。
今後の展望
今後は、より効率的かつロバストな特徴量を得るために、拡散モデルの活用を検討する。
Statistik
Paris Street Viewデータセットは約10,000枚の画像を含み、2つの視点から撮影された12の都市を936 × 537ピクセルのサイズで収録している。
Places2データセットは、1,000万枚の風景写真で構成され、シーンのセマンティックカテゴリでラベル付けされている。
ImageNetデータセットは、1,000カテゴリに分類された合計320万枚の画像を含んでいる。
CelebA-HQデータセットは、10,000人の人物の顔を収録しており、それぞれの人物につき20枚の画像(合計20万枚)が含まれている。
Citat
"To the best of our knowledge, this is the first time that such a pre-processing model is proposed to the image inpainting task."
"Experimental results comparing with four standard models on four public datasets confirm the efficacy of the proposed pre-processing methodology for image inpainting task."