Core Concepts
비전-언어 모델의 고유한 표현 능력을 최대한 보존하면서도 유사성 기반 예측 확률을 통해 이를 향상시키는 훈련-자유 비지도 프롬프트 방법을 제안한다.
Abstract
이 논문은 비전-언어 모델의 고유한 표현 능력을 최대한 보존하면서도 유사성 기반 예측 확률을 통해 이를 향상시키는 훈련-자유 비지도 프롬프트 방법인 TFUP를 제안한다.
TFUP는 다음과 같은 과정으로 구성된다:
비지도 학습 데이터에서 고신뢰 샘플과 대표 샘플을 선별하여 Feature Cache Model(FCM)을 구축한다.
테스트 이미지와 캐시된 샘플 간의 다수준 유사도 측정(MSM)을 통해 유사성 기반 예측 확률을 생성한다.
이렇게 생성된 유사성 기반 예측 확률과 원래의 예측 확률을 결합하여 최종 예측 확률을 산출한다.
이를 통해 TFUP는 별도의 학습 없이도 기존 CLIP 모델을 크게 능가하는 성능을 달성한다. 또한 TFUP-T라는 훈련 기반 접근법을 통해 성능을 더욱 향상시켜 다양한 벤치마크에서 최신 수준의 성과를 보인다.
Stats
비지도 학습 데이터에서 선별한 고신뢰 샘플과 대표 샘플을 활용하여 Feature Cache Model(FCM)을 구축한다.
테스트 이미지와 캐시된 샘플 간의 다수준 유사도 측정(MSM)을 통해 유사성 기반 예측 확률을 생성한다.
유사성 기반 예측 확률과 원래의 예측 확률을 결합하여 최종 예측 확률을 산출한다.
Quotes
"비전-언어 모델의 고유한 표현 능력을 최대한 보존하면서도 유사성 기반 예측 확률을 통해 이를 향상시키는 훈련-자유 비지도 프롬프트 방법을 제안한다."
"TFUP는 별도의 학습 없이도 기존 CLIP 모델을 크게 능가하는 성능을 달성한다."
"TFUP-T라는 훈련 기반 접근법을 통해 성능을 더욱 향상시켜 다양한 벤치마크에서 최신 수준의 성과를 보인다."