이 논문은 비전-언어 모델(VLM)의 제로샷 분류 성능을 향상시키기 위해 대량 언어 모델(LLM)을 활용하는 방법을 제안한다.
대량 언어 모델을 사용하여 각 클래스에 대한 텍스트 설명을 생성한다. 이 설명에는 시각적 특징, 서식지, 지리적 분포 등의 정보가 포함된다.
이렇게 생성된 텍스트 설명을 활용하여 CLIP 모델을 fine-tuning한다. 이때 각 이미지와 무작위로 선택된 해당 클래스의 텍스트를 연결하는 방식으로 학습을 진행한다.
실험 결과, 제안 방법은 다양한 fine-grained 데이터셋에서 기존 CLIP 모델 대비 4-5%의 성능 향상을 보였다. 특히 서식지 및 지리적 정보가 시각적 특징 정보와 상호보완적인 것으로 나타났다.
또한 제안 방법은 다른 데이터셋에서 학습한 모델을 활용하여 새로운 도메인의 성능을 향상시킬 수 있음을 보였다.
추가로 제안 방법은 단순한 구조와 적은 학습 시간으로도 효과적인 성능 향상을 달성할 수 있다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы