核心概念
본 연구는 훈련 없이 이미지와 텍스트 쿼리를 통해 목표 이미지를 검색하는 새로운 방법을 제안한다. 이를 위해 전역 검색 기준선과 지역 개념 재순위화 메커니즘을 도입하여, 전역 수준의 정보와 지역 수준의 정보를 모두 활용한다.
要約
본 연구는 훈련 없는 제로샷 합성 이미지 검색 문제를 다룬다. 기존 방법들은 비싼 비용의 트리플렛 데이터셋 학습이나 이미지-텍스트 쌍 미세 조정을 필요로 했다. 이와 달리 본 연구는 두 단계 접근법을 제안한다.
-
전역 검색 기준선(GRB): 참조 이미지 캡션과 수정 텍스트를 활용하여 설명적인 가짜 목표 캡션을 생성하고, 이를 기반으로 이미지-텍스트 정렬 공간에서 검색을 수행한다.
-
지역 개념 재순위화(LCR): 수정 텍스트에서 필수적으로 존재해야 하는 지역 개념을 식별하고, 이를 활용하여 GRB의 상위 결과를 재순위화한다. 이를 통해 참조 이미지의 모호한 요구사항을 해결한다.
제안 방법은 기존 최첨단 방법과 비교할 때 성능이 유사하지만, 훈련 없이도 우수한 성능을 보인다. 특히 CIRR, CIRCO, COCO 등의 오픈 도메인 데이터셋과 FashionIQ 패션 도메인 데이터셋에서 큰 성능 향상을 보였다.
統計
참조 이미지 캡션 생성: Tr = Captioner(Ir)
가짜 목표 캡션 생성: Tg = LLM(Pg, Tr, Tm)
전역 검색 점수: Sg^n = <Et(Tg), Ei(It^n)>
지역 개념 존재 확률: Sl^n = softmax(Logit_YES^n, Logit_NO^n)
최종 점수: Sn = Sg^n + γ * Sl^n
引用
"본 연구는 훈련 없이 이미지와 텍스트 쿼리를 통해 목표 이미지를 검색하는 새로운 방법을 제안한다."
"전역 검색 기준선(GRB)은 참조 이미지 캡션과 수정 텍스트를 활용하여 설명적인 가짜 목표 캡션을 생성하고, 이를 기반으로 이미지-텍스트 정렬 공간에서 검색을 수행한다."
"지역 개념 재순위화(LCR)는 수정 텍스트에서 필수적으로 존재해야 하는 지역 개념을 식별하고, 이를 활용하여 GRB의 상위 결과를 재순위화한다."