이 연구는 이미지-텍스트 이중 인코더 모델의 문장 유사도 기반 이미지 검색 성능 향상을 다룬다. 기존의 이중 인코더 모델은 문장 유사도가 높은 쿼리에 대해 매우 다른 검색 결과를 보여주는 문제가 있다. 이를 해결하기 위해 저자들은 사전 학습된 언어 모델을 활용하여 이중 인코더 모델을 적응시키는 다양한 전략을 제안한다.
첫째, 사전 학습된 언어 모델의 가중치를 고정한 채로 추가적인 정렬 레이어를 쌓는 방식으로 모델을 적응시킨다. 이를 통해 문장 유사도 기반 이미지 검색 성능이 크게 향상되었다.
둘째, 사전 학습된 언어 모델의 가중치를 미세 조정하거나 병목 어댑터를 추가하는 등의 다른 적응 전략들도 실험했지만, 정렬 레이어를 추가하는 방식이 가장 효과적인 것으로 나타났다.
셋째, 제안한 모델은 기존 CLIP 모델 대비 문장 유사도 기반 이미지 검색 성능이 크게 향상되었으며, 이미지 분류 및 검색 등의 다른 제로샷 태스크에서도 경쟁력 있는 성능을 보였다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Jiacheng Che... at arxiv.org 05-07-2024
https://arxiv.org/pdf/2405.03190.pdfDeeper Inquiries