Core Concepts
CLIP 기반 Few-shot 학습 방법의 효과성을 높이기 위해 적절한 보조 특징(Auxiliary Features)을 활용하여 효과적인 Logit Bias를 학습하는 방법을 제안한다.
Abstract
이 논문은 CLIP 기반 Few-shot 학습 방법의 효과성을 높이기 위한 방법을 제안한다. 기존 CLIP 기반 Few-shot 학습 방법들을 Logit Bias 관점에서 분석하고, Logit Bias 계산에 관여하는 3가지 핵심 요소(Logit Features, Logit Predictor, Logit Fusion)를 실험적으로 분석한다.
분석 결과를 바탕으로 저자들은 AMU-Tuning이라는 새로운 방법을 제안한다. AMU-Tuning은 적절한 보조 특징(Auxiliary Features)을 활용하여 Logit Bias를 계산하고, Multi-branch 학습 기반의 Feature-initialized 선형 분류기를 사용하여 Logit Predictor를 학습한다. 또한 Zero-shot CLIP의 예측 신뢰도를 고려한 Uncertainty-based Fusion을 통해 Logit Bias를 효과적으로 통합한다.
실험 결과, AMU-Tuning은 다양한 Few-shot 학습 벤치마크에서 기존 SOTA 방법들을 뛰어넘는 성능을 보여주었다. 특히 Out-of-Distribution 데이터에 대해서도 강건한 성능을 보였다.
Stats
CLIP 모델의 Zero-shot 성능은 60.33%이다.
AMU-Tuning은 16-shot 학습 시 70.02%의 성능을 달성했다.
AMU-Tuning은 Out-of-Distribution 데이터셋에서도 기존 SOTA 방법들을 뛰어넘는 성능을 보였다.
Quotes
"AMU-Tuning 방법은 적절한 보조 특징(Auxiliary Features)을 활용하여 효과적인 Logit Bias를 계산하고, Multi-branch 학습 기반의 Feature-initialized 선형 분류기와 Uncertainty-based Fusion을 통해 CLIP 기반 Few-shot 학습 성능을 크게 향상시킨다."