本研究では、大規模事前学習を必要とせずに、長尾データセット上でビジョントランスフォーマーを効率的に訓練する手法DeiT-LTを提案する。DeiT-LTでは、CNNからの知識蒸留、OOD画像を用いた蒸留、SAM訓練されたCNNからの低ランク特徴の蒸留を組み合わせることで、ビジョントランスフォーマーの少数クラスに対する一般化性能を大幅に向上させている。


coremsg

長尾データセットにおけるビジョントランスフォーマー訓練のためのdistillation-strikes-back


長尾データセットにおけるビジョントランスフォーマー訓練のためのDistillation Strikes Back