이 논문은 이미지 검색 문제를 다룹니다. 이미지 검색은 사용자의 다양한 검색 의도를 포착하기 어려운 문제입니다. 기존 연구는 주로 시각적 유사성에 기반한 검색 결과를 제공했지만, 이는 사용자의 다양한 검색 의도를 충족시키지 못했습니다.
이 논문에서는 MagicLens라는 자기지도 이미지 검색 모델을 제안합니다. MagicLens는 웹페이지에서 자연스럽게 발생하는 이미지 쌍과 대규모 언어 모델을 활용하여 생성된 오픈엔드 지침을 활용하여 학습됩니다. 이를 통해 시각적 유사성을 넘어선 다양한 이미지 관계를 포착할 수 있습니다.
실험 결과, MagicLens는 기존 최신 모델 대비 50배 작은 모델 크기에도 불구하고 다양한 벤치마크에서 우수한 성능을 보였습니다. 특히 복잡하고 시각적 유사성을 넘어선 검색 의도에 대해 우수한 성능을 보였습니다. 이는 MagicLens가 오픈엔드 지침을 효과적으로 이해하고 활용할 수 있음을 보여줍니다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Kai Zhang,Yi... um arxiv.org 03-29-2024
https://arxiv.org/pdf/2403.19651.pdfTiefere Fragen