본 연구는 훈련 없는 제로샷 합성 이미지 검색 문제를 다룬다. 기존 방법들은 비싼 비용의 트리플렛 데이터셋 학습이나 이미지-텍스트 쌍 미세 조정을 필요로 했다. 이와 달리 본 연구는 두 단계 접근법을 제안한다.
전역 검색 기준선(GRB): 참조 이미지 캡션과 수정 텍스트를 활용하여 설명적인 가짜 목표 캡션을 생성하고, 이를 기반으로 이미지-텍스트 정렬 공간에서 검색을 수행한다.
지역 개념 재순위화(LCR): 수정 텍스트에서 필수적으로 존재해야 하는 지역 개념을 식별하고, 이를 활용하여 GRB의 상위 결과를 재순위화한다. 이를 통해 참조 이미지의 모호한 요구사항을 해결한다.
제안 방법은 기존 최첨단 방법과 비교할 때 성능이 유사하지만, 훈련 없이도 우수한 성능을 보인다. 특히 CIRR, CIRCO, COCO 등의 오픈 도메인 데이터셋과 FashionIQ 패션 도메인 데이터셋에서 큰 성능 향상을 보였다.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Shitong Sun,... ב- arxiv.org 03-26-2024
https://arxiv.org/pdf/2312.08924.pdfשאלות מעמיקות