이 논문은 제로샷 합성 이미지 검색(Zero-Shot Composed Image Retrieval, ZS-CIR) 문제를 다룹니다. ZS-CIR은 이미지와 텍스트 쿼리를 활용하여 원본 이미지와 유사하면서도 텍스트에 명시된 변경 사항을 반영한 이미지를 검색하는 작업입니다.
기존 ZS-CIR 방법들은 이미지를 텍스트 토큰으로 변환하여 텍스트 인코더에 입력하는 방식을 사용했습니다. 하지만 이 방식은 원본 이미지 표현을 왜곡시키고 합성 임베딩을 텍스트 공간에 제한시킬 수 있습니다.
이를 해결하기 위해 저자들은 구면 선형 보간법(Slerp)을 활용하여 이미지와 텍스트 표현을 직접 결합하는 새로운 ZS-CIR 방법을 제안합니다. 또한 텍스트 앵커링 미세 조정(Text-Anchored-Tuning, TAT) 기법을 통해 이미지와 텍스트 표현 간 격차를 줄임으로써 Slerp 과정을 더욱 효과적으로 만듭니다.
실험 결과, Slerp와 TAT를 결합한 방법은 기존 ZS-CIR 방법들을 크게 능가하는 성능을 보였습니다. 특히 TAT는 매우 적은 수의 이미지-텍스트 쌍으로도 우수한 성능을 달성할 수 있었고, 감독 학습 기반 합성 이미지 검색 모델의 초기 체크포인트로도 활용될 수 있음을 확인했습니다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania