핵심 개념
사전 학습된 비전 트랜스포머를 활용하여 소수 샘플 클래스 증분 학습 성능을 향상시키기 위해 클래스 간 통계량 보정 기법을 제안한다.
초록
본 연구는 소수 샘플 클래스 증분 학습(FSCIL) 문제를 다룬다. FSCIL은 이전에 학습한 클래스를 잊지 않으면서 새로운 클래스를 매우 적은 데이터(5개 샘플)로 학습하는 것을 목표로 한다.
기존 FSCIL 방법들은 첫 번째 태스크에서 좋은 특징 추출기를 학습하고, 이후 태스크에서는 고정된 모델을 사용하여 근접 평균 분류기(NCM)로 분류한다. 최근 연구에서는 ImageNet21k와 같은 대규모 데이터셋에서 사전 학습된 비전 트랜스포머(ViT) 모델을 활용하는 방법이 제안되었다.
본 연구에서는 첫 번째 태스크 학습 방법과 무관하게 소수 샘플 데이터를 더 잘 모델링하는 방법을 탐구한다. 최근 많-샘플 클래스 증분 학습(MSCIL) 연구에서 고차 통계량(공분산 행렬)을 활용하는 방법이 제안되었다. 그러나 소수 샘플 데이터에서는 이러한 통계량 추정이 어렵다는 문제가 있다.
이에 본 연구에서는 기존 클래스의 강건한 공분산 추정치를 활용하여 새로운 클래스의 공분산 행렬을 보정하는 방법을 제안한다. 이를 통해 FeCAM과 RanPAC과 같은 고차 통계량 기반 분류 방법의 성능을 크게 향상시킬 수 있다.
실험 결과, 제안 방법은 다양한 FSCIL 벤치마크에서 기존 방법 대비 큰 성능 향상을 보였다. 특히 소수 샘플 클래스의 분류 성능이 크게 개선되었으며, 이는 조화 평균 정확도 지표에서 확인할 수 있다.
통계
첫 번째 태스크에서 50개 클래스를 사용하고, 이후 태스크에서는 각 클래스당 5개의 샘플만 사용한다.
사전 학습된 ViT-B/16 모델을 사용하며, 첫 번째 태스크에서 어댑터를 통해 모델을 fine-tuning한다.
인용구
"Few-shot class-incremental learning (FSCIL) aims to adapt the model to new classes from very few data (5 samples) without forgetting the previously learned classes."
"We explore how these various methods work with few-shot data when using ViT models pre-trained on large-scale datasets like ImageNet-21k."
"We observe that using higher-order feature statistics, FeCAM and RanPAC already achieves better accuracy in the base task. In the incremental tasks, the proposed statistics calibration further improves both the methods and achieves a significant improvement after the last task."