이 논문은 비주얼-언어 모델(VLM)의 성능을 향상시키기 위한 새로운 텍스트 기반 클래스 인식 프롬프트 튜닝(TCP) 기법을 제안한다.
기존의 프롬프트 튜닝 방법들은 도메인 공유 프롬프트 토큰 또는 이미지 조건부 프롬프트 토큰을 사용하여 텍스트 분류기를 생성하였다. 그러나 이러한 토큰들은 보이지 않는 클래스에 대한 일반화 능력이 제한적이었다.
이를 해결하기 위해 TCP는 텍스트 지식 임베딩(TKE)을 활용하여 클래스 수준의 텍스트 지식을 클래스 인식 프롬프트로 매핑한다. 이렇게 생성된 클래스 인식 프롬프트는 텍스트 인코더에 삽입되어 보이지 않는 클래스에 대한 식별 능력을 향상시킨다.
실험 결과, TCP는 기존 방법들에 비해 보이지 않는 클래스에 대한 일반화 및 식별 성능이 우수하며, 학습 시간도 더 짧은 것으로 나타났다. 또한 TKE는 기존 프롬프트 튜닝 방법에 쉽게 통합될 수 있는 플러그 앤 플레이 모듈로 활용될 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문