眼球運動と注意の焦点化された性質は、視覚情報の予測と明らかにする自己教師あり的な課題を構成する。このアプローチは、生物学的な知覚の原理に沿ったマスク付き画像モデリングを可能にする。
マスクイメージモデリング(MIM)の前訓練を高速化するための効率的な訓練手法を提案し、単一マシンでMAE-Base/16モデルをImageNet 1Kデータセットで800エポック訓練できることを示した。