Core Concepts
사전 학습된 언어 모델의 일반화 능력을 효과적으로 활용하여 적은 데이터로도 우수한 성능의 Few-Shot Learning 모델을 구축할 수 있다.
Abstract
이 논문은 Few-Shot Learning 문제에 대한 새로운 접근법을 제안한다. 기존 연구들은 시각 정보와 언어 정보를 복잡한 융합 모듈을 통해 활용하였지만, 이 과정에서 사전 학습된 언어 모델의 일반화 능력이 충분히 활용되지 못했다.
저자들은 이를 개선하기 위해 시각 특징과 언어 특징을 단순히 더하는 방식의 멀티모달 특징 융합 기법을 제안한다. 또한 고정된 프롬프트 대신 학습 가능한 프롬프트를 사용하여 다양한 데이터셋에 유연하게 적용할 수 있도록 하였다.
추가적으로 자기 앙상블 및 자기 증류 기법을 활용하여 성능을 더욱 향상시켰다. 4개의 널리 사용되는 Few-Shot Learning 벤치마크 데이터셋에서 실험한 결과, 제안 모델이 기존 최신 기법들을 뛰어넘는 성능을 보였다. 특히 1-shot 학습 과제에서 두드러진 성과를 보였다.
Stats
1-shot 학습에서 제안 모델이 기존 최신 기법 대비 평균 3.3% 높은 정확도를 달성했다.
5-way 1-shot 학습 과제에서 miniImageNet 데이터셋에서 75.59%, CIFAR-FS 데이터셋에서 85.09%의 정확도를 달성했다.
Quotes
"사전 학습된 언어 모델의 뛰어난 일반화 능력은 Few-Shot Learning에서 중요하게 고려되어야 한다."
"복잡한 융합 모듈 대신 단순한 덧셈 연산으로도 언어 정보를 효과적으로 활용할 수 있다."