Core Concepts
대화형 이미지 검색 시스템은 사용자 관련성 피드백을 기반으로 질의를 지속적으로 개선하여 검색 성능을 향상시킬 수 있다.
Abstract
이 연구는 대화형 이미지 검색 시스템을 제안한다. 이 시스템은 사용자 관련성 피드백을 활용하여 질의를 지속적으로 개선하는 다단계 접근법을 사용한다. 구체적으로:
비전 언어 모델(VLM) 기반 이미지 캡셔닝을 통해 텍스트 기반 질의의 품질을 향상시킨다.
대형 언어 모델(LLM) 기반 디노이저를 도입하여 이미지 캡션의 부정확성과 중복성을 완화한다.
MSR-VTT 비디오 검색 데이터셋을 개선하여 각 질의에 대해 여러 개의 관련 이미지를 제공하는 새로운 평가 데이터셋을 구축한다.
기존 단일 단계 이미지 검색 모델 및 벡터 공간 기반 관련성 피드백 모델과 비교하여 제안 시스템의 우수성을 입증한다. 실험 결과 제안 시스템이 기존 방법 대비 10% 향상된 recall 성능을 달성한다.
Stats
제안 시스템은 6번의 상호작용 후 기존 방법 대비 10% 향상된 recall 성능을 달성했다.
질의 확장만으로도 기존 방법 대비 우수한 성능을 보였으며, LLM 기반 질의 편집이 추가로 성능을 향상시켰다.
Rocchio 방식의 벡터 공간 모델은 2번째 상호작용 이후 성능 향상이 정체되었지만, 제안 방식은 지속적으로 성능이 향상되었다.
Quotes
"대화형 이미지 검색 시스템은 사용자 관련성 피드백을 기반으로 질의를 지속적으로 개선하여 검색 성능을 향상시킬 수 있다."
"LLM 기반 디노이저는 이미지 캡션의 부정확성과 중복성을 완화하여 질의 품질을 향상시킨다."
"제안 시스템은 기존 방법 대비 10% 향상된 recall 성능을 달성했다."