Core Concepts
비전-언어 모델의 프롬프트 학습에서 이미지 증강을 통해 추출한 속성 정보를 활용하여 학습 성능을 향상시킬 수 있다.
Abstract
최근 대규모 사전 학습된 비전-언어 모델(VLM)은 제로샷 학습 등 다양한 하위 작업에서 뛰어난 성능을 보여주고 있다. 이를 바탕으로 CoOp와 CoCoOp 등의 연구에서는 프롬프트 학습을 제안했는데, 이는 프롬프트 내의 문맥을 학습 가능한 벡터로 대체하여 수동으로 설계한 프롬프트보다 큰 성능 향상을 보여주었다.
그러나 이러한 프롬프트 학습 기법들은 여전히 보이지 않는 클래스에 대한 성능 향상이 제한적이다. 이를 해결하기 위해 전통적인 제로샷 학습 기법에서는 데이터 증강을 자주 사용해왔다.
본 연구에서는 CoOp와 CoCoOp의 중요한 문제점을 발견했는데, 전통적인 이미지 증강은 보이는 클래스에 편향된 문맥을 학습하여 보이지 않는 클래스에 대한 일반화 성능을 저하시킨다는 것이다.
이 문제를 해결하기 위해 본 연구에서는 적대적 토큰 임베딩을 제안하여 저수준 시각적 증강 특징과 고수준 클래스 정보를 분리하여 학습 가능한 프롬프트에 편향을 유도한다. 이를 통해 "속성 추가 프롬프트 학습(AAPL)"이라는 새로운 메커니즘을 개발했으며, 이는 보이지 않는 클래스에 대한 텍스트 특징 추출에 효과적이다.
11개 데이터셋에 대한 실험 결과, AAPL은 기존 방법들에 비해 적은 샷 학습, 제로샷 학습, 교차 데이터셋, 도메인 일반화 작업에서 전반적으로 우수한 성능을 보였다.
Stats
보이지 않는 클래스에 대한 일반화 성능이 기존 방법 대비 0.48% 향상되었다.
교차 데이터셋 전이 학습에서 평균 성능이 65.34%로 기존 방법 대비 0.4% 향상되었다.
도메인 일반화 실험에서 평균 성능이 60.12%로 기존 방법 대비 0.21% 향상되었다.
Quotes
"전통적인 이미지 증강은 보이는 클래스에 편향된 문맥을 학습하여 보이지 않는 클래스에 대한 일반화 성능을 저하시킨다."
"적대적 토큰 임베딩을 통해 저수준 시각적 증강 특징과 고수준 클래스 정보를 분리하여 학습 가능한 프롬프트에 편향을 유도한다."
"AAPL은 보이지 않는 클래스에 대한 텍스트 특징 추출에 효과적이다."