Core Concepts
앱 개발자의 직관과 전문 평가자의 직관을 모두 고려하여 앱 이미지와 검색어 간의 매칭 성능을 크게 향상시킬 수 있는 새로운 크로스 모달 매칭 기법을 제안한다.
Abstract
이 논문은 앱 이미지와 검색어 간의 효율적인 매칭을 위한 새로운 접근법을 제안한다. 앱 개발자들은 다양한 관심사를 가진 사용자들을 유치하기 위해 각기 다른 이미지를 사용하여 앱을 홍보한다. 이때 개발자들은 자신들이 생각하는 가장 관련성 높은 검색어를 제안하기도 한다.
이 두 가지 관점, 즉 앱 개발자의 직관과 일반 사용자의 직관은 모두 중요하다. 따라서 이미지와 검색어 간의 관계를 이해하고, 개발자들에게 검색어에 가장 잘 맞는 이미지를 추천해 주는 모델을 제공하는 것이 중요한 과제이다.
저자들은 사전 학습된 크로스 모달 BERT 모델을 fine-tuning하여 (검색어, 앱 이미지, 레이블) 데이터셋에 적용하였다. 이를 통해 (이미지, 검색어) 매칭 작업에서 기존 모델들보다 8-17% 향상된 성능을 달성하였다. 이는 텍스트와 이미지 특징을 독립적으로 인코딩한 후 크로스 모달 인코더를 적용하는 접근법의 효과성을 보여준다.
Stats
앱 개발자의 직관을 기반으로 한 데이터셋에서 AUC 0.96, F1 0.89를 달성했으며, 전문 평가자의 직관을 기반으로 한 데이터셋에서 AUC 0.95, F1 0.87을 달성했다.