Concepts de base
비전-언어 기반 모델의 제한적인 일반화 성능을 개선하기 위해 프롬프트 임베딩을 재매개화하는 효율적인 방법을 제안한다.
Résumé
이 연구는 비전-언어 기반 모델의 제한적인 일반화 성능을 개선하기 위한 방법을 제안한다. 기존의 프롬프트 학습 방법들은 고정된 텍스트 인코더의 한계로 인해 특정 데이터셋에 과적합되는 문제가 있었다.
이를 해결하기 위해 PRE(Prompt Learning with Reparameterization Encoder)를 제안한다. PRE는 프롬프트 임베딩을 재매개화하는 인코더 네트워크를 사용하여 도메인 특화 지식을 효과적으로 활용한다. 구체적으로:
- 프롬프트 임베딩을 직접 학습하는 대신, PRE는 프롬프트 인코더를 통해 프롬프트 임베딩을 재매개화한다. 이 프롬프트 인코더는 BiLSTM 네트워크로 구성되어 프롬프트 간 장기 의존성을 모델링할 수 있다.
- 프롬프트 인코더에 잔차 연결을 추가하여 사전 학습된 CLIP의 지식과 새로 학습된 지식을 효과적으로 결합한다.
- 8개의 벤치마크 데이터셋에 대한 실험 결과, PRE는 기존 방법들에 비해 새로운 클래스에서 평균 5.60% 높은 정확도와 3% 높은 조화 평균 성능을 보였다.
이를 통해 PRE는 비전-언어 모델의 일반화 성능을 향상시키는 효율적이고 효과적인 방법임을 입증한다.
Stats
새로운 클래스에서 평균 5.60% 높은 정확도를 달성했다.
조화 평균 성능에서 평균 3% 향상을 보였다.
Citations
"비전-언어 기반 모델의 제한적인 일반화 성능을 개선하기 위해 프롬프트 임베딩을 재매개화하는 효율적인 방법을 제안한다."
"PRE는 프롬프트 인코더를 통해 프롬프트 임베딩을 재매개화하여 도메인 특화 지식을 효과적으로 활용한다."
"8개의 벤치마크 데이터셋에 대한 실험 결과, PRE는 기존 방법들에 비해 새로운 클래스에서 평균 5.60% 높은 정확도와 3% 높은 조화 평균 성능을 보였다."