核心概念
本研究では、大規模事前学習を必要とせずに、長尾データセット上でビジョントランスフォーマーを効率的に訓練する手法DeiT-LTを提案する。DeiT-LTでは、CNNからの知識蒸留、OOD画像を用いた蒸留、SAM訓練されたCNNからの低ランク特徴の蒸留を組み合わせることで、ビジョントランスフォーマーの少数クラスに対する一般化性能を大幅に向上させている。
要約
本研究では、ビジョントランスフォーマー(ViT)をデータ効率的に長尾データセット上で訓練する手法DeiT-LTを提案している。
- OOD画像を用いた蒸留:
- CNNをデータ拡張された画像で訓練し、その出力を使ってViTの蒸留を行う。
- これにより、ViTの早期ブロックで局所的な特徴を学習できるようになり、少数クラスの一般化性能が向上する。
- SAM訓練されたCNNからの低ランク特徴の蒸留:
- SAMで訓練されたCNNから蒸留することで、ViTの全ブロックにわたって低ランクで一般化性の高い特徴を学習できる。
- 分離された専門家の学習:
- 分類トークンCLSは多数クラスの専門家、蒸留トークンDISTは少数クラスの専門家として振る舞うようになる。
- これにより、単一のViTアーキテクチャ内で多数クラスと少数クラスの両方を効果的に学習できる。
提案手法DeiT-LTは、CIFAR-10 LT、CIFAR-100 LT、ImageNet-LT、iNaturalist-2018などの長尾データセットにおいて、CNNベースの最新手法を上回る性能を達成している。特に、大規模事前学習を必要とせずにViTを長尾データセット上で効率的に訓練できる点が大きな特徴である。
統計
長尾データセットにおいて、DeiT-LTはCNNベースの手法を上回る性能を達成している。
例えば、CIFAR-10 LTのρ=100の設定では、DeiT-LTはCNNベースの手法に比べて24.9%の性能向上を示している。
CIFAR-100 LTのρ=100の設定では、DeiT-LTはCNNベースの手法に比べて20.6%の性能向上を示している。
引用
"本研究では、大規模事前学習を必要とせずに、長尾データセット上でビジョントランスフォーマーを効率的に訓練する手法DeiT-LTを提案する。"
"DeiT-LTでは、CNNからの知識蒸留、OOD画像を用いた蒸留、SAM訓練されたCNNからの低ランク特徴の蒸留を組み合わせることで、ビジョントランスフォーマーの少数クラスに対する一般化性能を大幅に向上させている。"
"提案手法DeiT-LTは、CIFAR-10 LT、CIFAR-100 LT、ImageNet-LT、iNaturalist-2018などの長尾データセットにおいて、CNNベースの最新手法を上回る性能を達成している。"