Core Concepts
점진적 다중 모달 조건부 프롬프트 튜닝(ProMPT)은 이미지와 텍스트 특징을 점진적으로 정렬하여 정확한 이미지 분류를 달성한다.
Abstract
이 논문은 점진적 다중 모달 조건부 프롬프트 튜닝(ProMPT)이라는 새로운 방법을 제안한다. ProMPT는 사전 학습된 비전-언어 모델(VLM)을 활용하여 이미지 분류 작업을 수행한다.
초기화 단계에서는 CLIP을 사용하여 이미지와 텍스트를 인코딩하고, 텍스트 특징 중 이미지와 가장 유사한 상위 a개를 선택한다.
다음으로 다중 모달 반복 진화(MIE) 모듈에서는 3가지 단계를 거친다:
- 클래스 조건부 비전 프롬프팅: 선택된 텍스트 특징을 통해 비전 프롬프트를 생성하여 이미지 인코딩에 활용한다.
- 인스턴스 조건부 텍스트 프롬프팅: 인코딩된 이미지 특징을 활용하여 텍스트 프롬프트를 생성한다.
- 특징 필터링: 이미지와 가장 유사한 상위 a개의 텍스트 특징을 선택한다.
이 과정을 반복하며 이미지와 텍스트 특징의 정렬을 점진적으로 개선한다. 실험 결과, ProMPT는 기존 방법들에 비해 우수한 일반화 성능을 보였다.
Stats
제안된 ProMPT 방법은 기존 CoCoOp 방법 대비 새로운 클래스에서 평균 3.2% 높은 정확도를 달성했다.
ProMPT는 EuroSAT 데이터셋에서 CoCoOp 대비 15.99% 높은 정확도를 보였다.
ProMPT는 FGVCAircraft 데이터셋에서 CoCoOp 대비 10.12% 높은 정확도를 보였다.
Quotes
"ProMPT exploits a recurrent structure, optimizing and aligning V-L features by iteratively utilizing image and current encoding information."
"ProMPT comprises an initialization and a multi-modal iterative evolution (MIE) module. Initialization is responsible for encoding image and text using a VLM, followed by a feature filter that selects text features similar to image."
"MIE then facilitates multi-modal prompting through class-conditional vision prompting, instance-conditional text prompting, and feature filtering."