Core Concepts
ランダムな直交射影を用いた画像モデリング手法ROPIMは、従来の画像マスキング手法に比べて高精度かつ高効率な自己教師学習を実現する。
Abstract
本論文では、ランダムな直交射影を用いた新しい画像モデリング手法ROPIMを提案している。従来の画像マスキング手法とは異なり、ROPIMは画像パッチの特徴量を直交部分空間に射影し、その補空間を用いて失われた情報の回復を行う。
具体的には以下の通り:
入力画像をパッチに分割し、各パッチの特徴量を得る
ランダムな直交射影行列を用いて特徴量を部分空間に射影する
射影された特徴量を入力として、射影前の特徴量を復元するネットワークを学習する
射影と補空間への射影を組み合わせることで、マスキングよりも広範囲の情報を効率的に回復できる
この手法は、従来のマスキング手法に比べて以下の利点がある:
高精度な自己教師学習を実現
学習時間が大幅に短縮
特別な構造や大規模なデコーダが不要
提案手法ROPIMは、ImageNet分類や言語セグメンテーションなどのベンチマークで最先端の性能を達成している。
Stats
画像パッチの復元誤差の分布を見ると、マスキングに比べてROPIMは多くの領域で誤差が小さい
一方で、ROPIMはマスキングよりも多くの領域で情報を失っている
しかし、ROPIMは補空間への射影を使うことで、失われた情報を効率的に回復できる
Quotes
"ROPIM projects the features of patch embeddings along their spatial mode into a random subspace. Subsequently, we use the complement of this random subspace to guide the loss function to recover the removed information."
"Compared with ROP, binary masking creates limited number of patterns, e.g., for 4 tokens one gets 24 masking and unmasking patterns only. Such a randomness is limited–the network cannot learn to recover from masking patterns that never occurred."