マスクオートエンコーダの学習された潜在表現は線形分離可能であり、セマンティクスも十分に学習できることを示す。
画像の冗長性を削減するために、事前学習済みのマスクオートエンコーダを利用して各パッチの重要度を自己教師あり的に推定し、それに基づいてパッチを順位付けする手法を提案する。
本研究では、Siamese Masked Autoencoders (SiamMAE) の枠組みを拡張した新しい自己教師あり学習手法 CropMAEを提案している。 CropMAEの主な特徴は以下の通り: ビデオフレームではなく単一の画像から表現を学習できる。これにより、より大規模なデータセットを活用でき、学習時間を大幅に短縮できる。 極端に高い割合(98.5%)でマスクされた画像の部分を再構築する pretext タスクを設定することで、オブジェクトの境界やプロパゲーションを効率的に学習できる。 SiamMAEと同様に、Siamese ネットワークを用いて2つの画像ビューを処理し、マスクされた部分を再構築する。 画像の random cropを用いることで、ビデオフレームにおける動きの情報なしでもオブジェクトの境界やプロパゲーションを学習できることを示した。 3つのビデオプロパゲーションタスクにおいて、SiamMAEと同等以上の性能を達成した。 学習速度においても、SiamMAEを大幅に上回る結果を示した。