本研究では、マスクイメージモデリング(MIM)の前訓練を高速化するための効率的な訓練手法を提案している。
まず、データ読み込みのボトルネックを解消するために、FFCV[27]を改良したESSLを導入した。ESSLは、圧縮パラメータの最適化と「crop decode」手法により、データ読み込み速度を27.6%向上させた。
次に、段階的な解像度変更を用いた進化的な訓練手法を提案した。前訓練では、解像度を段階的に下げてから上げる「パリンドローム」スキームを採用し、10.9%の訓練時間短縮と同等の性能を実現した。一方、fine-tuningでは、解像度変更と強化データ増強の組み合わせにより、訓練時間を21時間から18時間に短縮した。
これらの改善により、単一マシン(8 A100 GPUs)でMAE-Base/16モデルをImageNet 1Kデータセットで800エポック訓練できることを示した。本手法は、自己教師あり学習アルゴリズムの高速な検証と初期テストを可能にし、研究の発展に寄与すると期待される。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы