본 연구는 CLIP과 같은 비전-언어 모델의 제로샷 일반화 성능 향상을 위한 방법을 제안한다. 기존 방법들은 테스트 시 프롬프트 튜닝을 통해 모델을 적응시키지만, 클래스 간 분포 불균형 문제를 간과했다.
이에 본 연구에서는 클래스 인식 프로토타입 정렬 및 구분 기법을 제안한다. 먼저 프로토타입 구분 손실을 통해 프롬프트를 업데이트하여 각 클래스를 효과적으로 구분한다. 이후 테스트 샘플과 증강된 샘플의 프로토타입을 소스 데이터의 클래스 프로토타입과 정렬하되, 각 클래스의 평균 확률을 가중치로 사용한다. 이를 통해 특정 클래스의 분포 편향으로 인한 문제를 해결할 수 있다.
제안 방법인 PromptSync는 기존 최고 성능 대비 도메인 일반화 과제에서 2.33%, 베이스-노벨 제로샷 일반화에서 1%, 크로스-데이터셋 전이에서 2.84% 향상된 성능을 보였다. 이는 PromptSync가 비전-언어 모델의 제로샷 일반화 성능을 효과적으로 향상시킬 수 있음을 보여준다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問