이 논문은 스케치와 텍스트라는 두 가지 주요 입력 모드를 동시에 활용하여 세부적인 이미지 검색을 수행하는 방법을 제안한다. 기존에는 스케치만을 사용하여 세부적인 이미지 검색을 수행했지만, 이 논문에서는 스케치와 텍스트의 상호보완적인 특성을 활용하여 색상, 질감 등의 속성을 포함한 더욱 정밀한 검색을 가능하게 한다.
구체적으로, 스케치를 CLIP 모델의 텍스트 인코더에 통과시켜 의사 단어 토큰을 생성하고, 이를 사용자가 입력한 텍스트와 결합하여 복합 쿼리를 생성한다. 이 복합 쿼리를 통해 스케치와 텍스트의 특성을 모두 활용할 수 있다. 또한 스케치와 이미지의 차이 신호를 활용하여 텍스트 정보를 모방하고, 중립 텍스트를 활용하여 CLIP 언어 모델의 문법 구조를 유지하는 등의 기술적 혁신을 통해 성능을 향상시켰다.
이 방법은 단순한 이미지 검색을 넘어, 복합 이미지 검색, 도메인 속성 전이, 세부적인 이미지 생성 등 다양한 응용 분야에 활용될 수 있다.
Til et annet språk
fra kildeinnhold
arxiv.org
Viktige innsikter hentet fra
by Subhadeep Ko... klokken arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07222.pdfDypere Spørsmål