Core Concepts
제한된 샷 수로 인해 발생하는 편향된 시각적 지식을 반복적으로 보완하여 CLIP의 전이 성능을 향상시킨다.
Abstract
이 논문은 CLIP의 제한된 샷 학습 성능을 제한하는 근본적인 요인이 샷 수 부족으로 인한 편향된 시각적 지식이라는 점을 지적한다. 이를 해결하기 위해 저자들은 반복적 시각적 지식 완성(KCL) 방법을 제안한다. KCL은 레이블이 없는 테스트 데이터에서 높은 신뢰도를 가진 샘플을 선별하여 제한된 샷에 보완함으로써 편향된 지식을 점진적으로 개선한다. 이 과정은 보조 데이터나 합성 데이터 없이 진행되며, 기존 CLIP 기반 제한된 샷 학습 방법들에 플러그인 형태로 적용될 수 있다. 실험 결과, KCL은 11개 벤치마크 데이터셋에서 제한된 샷 및 제로 샷 학습 상황에서 기존 방법들 대비 큰 성능 향상을 보였다. 또한 KCL의 효율성과 합리성을 입증하는 추가 분석이 제시되었다.
Stats
제한된 샷 수로 인해 클래스 정보가 불완전하고 편향된 시각적 지식이 생성될 수 있다.
제한된 샷 하에서 KCL은 기존 방법들 대비 1-shot에서 3.04-3.60%, 2-shot에서 1.90-5.20%, 4-shot에서 1.32-4.69% 성능 향상을 달성했다.
KCL은 제로 샷 CLIP 대비 8.23%, SuS-X 대비 2.82% 성능 향상을 보였다.
Quotes
"제한된 샷 수로 인해 발생하는 편향된 시각적 지식이 CLIP의 전이 성능을 제한하는 근본적인 요인이다."
"KCL은 레이블이 없는 테스트 데이터에서 높은 신뢰도를 가진 샘플을 선별하여 제한된 샷에 보완함으로써 편향된 지식을 점진적으로 개선한다."