본 논문에서는 대규모 이미지-캡션 데이터셋을 활용하여 텍스트 기반 쿼리로 이미지를 검색하는 제로샷 합성 이미지 검색(ZS-CIR) 작업을 위한 새로운 프레임워크인 MoTaDual을 제안합니다. MoTaDual은 텍스트 입력과 이미지 특징을 효과적으로 결합하여 검색 쿼리를 생성하고, 사전 훈련된 듀얼 인코더 모델을 활용하여 이미지 검색 성능을 향상시킵니다.
참조 이미지와 상대 캡션을 결합하여 시각적으로 유사한 타겟 이미지를 검색하는 제로샷 합성 이미지 검색 문제를 해결하기 위해, 참조 이미지를 CLIP 토큰 공간에 매핑하는 텍스트 역전 기법을 개선한 접근법을 제안한다.
구면 선형 보간법을 활용하여 이미지와 텍스트 표현을 직접 결합하고, 텍스트 앵커링 기법을 통해 모달리티 간 격차를 줄임으로써 제로샷 합성 이미지 검색 성능을 크게 향상시킬 수 있다.
본 연구는 훈련 없이 이미지와 텍스트 쿼리를 통해 목표 이미지를 검색하는 새로운 방법을 제안한다. 이를 위해 전역 검색 기준선과 지역 개념 재순위화 메커니즘을 도입하여, 전역 수준의 정보와 지역 수준의 정보를 모두 활용한다.