이 논문은 참조 이미지와 상대 캡션을 결합하여 시각적으로 유사한 타겟 이미지를 검색하는 제로샷 합성 이미지 검색(Zero-Shot Composed Image Retrieval, ZS-CIR) 문제를 다룬다.
제안하는 접근법 iSEARLE은 다음과 같은 두 단계로 구성된다:
최적화 기반 텍스트 역전(Optimization-based Textual Inversion, OTI): 참조 이미지를 CLIP 토큰 공간에 매핑하는 의사 단어 토큰을 생성한다. 이때 CLIP 텍스트 인코더와의 유사도 최대화와 GPT 기반 정규화 손실을 활용한다.
텍스트 역전 네트워크 ϕ 사전 학습: OTI로 생성한 의사 단어 토큰들의 지식을 증류하여 ϕ 네트워크를 학습한다. 이를 통해 단일 순전파로 의사 단어 토큰을 예측할 수 있게 된다.
추론 시, 참조 이미지의 의사 단어 토큰을 ϕ로 생성하고 상대 캡션과 결합하여 CLIP 텍스트 인코더로 특징을 추출한다. 이를 통해 표준 텍스트-이미지 검색을 수행한다.
또한 이 논문은 CIRCO라는 새로운 제로샷 합성 이미지 검색 벤치마크 데이터셋을 소개한다. CIRCO는 COCO 데이터셋을 기반으로 하며, 다중 정답 레이블과 세부적인 의미론적 분류를 제공한다.
실험 결과, iSEARLE은 FashionIQ, CIRR, CIRCO 데이터셋에서 최신 성능을 달성했으며, 도메인 변환과 객체 합성 설정에서도 우수한 일반화 능력을 보였다.
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問