核心概念
데이터 불균형 데이터셋에서 비전 트랜스포머를 효과적으로 학습하기 위해 CNN 교사 모델로부터의 증류 기법을 제안한다. 이를 통해 비전 트랜스포머가 다수 클래스와 소수 클래스에 대해 균형 잡힌 성능을 달성할 수 있다.
要約
이 논문은 데이터 불균형 데이터셋에서 비전 트랜스포머를 효과적으로 학습하는 방법을 제안한다.
-
데이터 불균형 데이터셋에서 비전 트랜스포머를 처음부터 학습하는 것은 어려운 문제이다. 이를 해결하기 위해 저자들은 CNN 교사 모델로부터의 증류 기법을 활용한다.
-
제안하는 DeiT-LT 기법에서는 다음과 같은 핵심 구성 요소를 포함한다:
- 분포 외 이미지를 활용한 증류: 교사 CNN 모델에 분포 외 이미지를 입력하여 증류를 수행한다. 이를 통해 비전 트랜스포머가 지역적이고 일반화된 특징을 학습할 수 있다.
- DRW 손실을 활용한 꼬리 클래스 전문가 학습: 증류 토큰(DIST)을 활용하여 DRW 손실로 꼬리 클래스에 집중하도록 학습한다.
- SAM 교사 모델로부터의 저차원 특징 증류: SAM 최적화로 학습된 교사 모델로부터 저차원 일반화 가능한 특징을 증류한다.
- 이러한 DeiT-LT 기법을 통해 비전 트랜스포머는 다수 클래스와 소수 클래스에 대해 균형 잡힌 성능을 달성할 수 있다. 실험 결과, DeiT-LT는 다양한 데이터셋에서 기존 방법들을 크게 능가하는 성능을 보인다.
統計
데이터 불균형 비율 ρ가 100일 때, CIFAR-10 LT 데이터셋에서 DeiT-LT(PaCo+SAM 교사) 모델의 전체 정확도는 87.5%이다.
데이터 불균형 비율 ρ가 100일 때, CIFAR-100 LT 데이터셋에서 DeiT-LT(PaCo+SAM 교사) 모델의 전체 정확도는 55.6%이다.
ImageNet-LT 데이터셋에서 DeiT-LT(PaCo+SAM 교사) 모델의 전체 정확도는 59.1%이다.
iNaturalist-2018 데이터셋에서 DeiT-LT(PaCo+SAM 교사) 모델의 전체 정확도는 75.1%이다.
引用
"DeiT-LT에서는 분포 외 이미지를 활용한 증류를 통해 비전 트랜스포머가 지역적이고 일반화된 특징을 학습할 수 있다."
"DeiT-LT에서는 DRW 손실을 활용하여 증류 토큰(DIST)이 꼬리 클래스에 집중하도록 학습한다."
"DeiT-LT에서는 SAM 최적화로 학습된 교사 모델로부터 저차원 일반화 가능한 특징을 증류한다."