核心概念
대규모 데이터셋, 데이터 분포 변화, 새로운 도메인 등의 과제에 강건한 다중 모달 제품 매칭 시스템을 제안한다. 사전 학습된 이미지 및 텍스트 인코더를 활용한 간단한 프로젝션 방식이 비용 대비 성능 면에서 최신 기술 수준을 달성한다. 또한 사람 개입 프로세스와 모델 기반 예측을 결합하여 실제 운영 시스템에서 거의 완벽한 정확도를 달성할 수 있음을 보여준다.
摘要
이 논문은 온라인 마켓플레이스에서의 제품 매칭 문제를 다룬다. 다양한 판매자가 자신의 상품 목록을 제공하며, 이들 간 중복되는 제품을 식별하는 것이 핵심 과제이다. 비주얼 정보와 텍스트 정보가 모두 중요한 패션 제품 매칭의 특성상, 이미지와 텍스트를 활용한 다중 모달 접근법이 필요하다.
논문에서는 다음과 같은 핵심 내용을 다룬다:
사전 학습된 이미지 및 텍스트 인코더를 활용한 간단한 프로젝션 기반 다중 모달 인코더 모델 제안
CLIP 및 DINO 등 대규모 사전 학습 모델 비교 분석, CLIP 모델이 이미지 기반 제품 매칭에서 우수한 성능 발휘
대량의 부정적 샘플(매칭되지 않는 제품 쌍)을 효과적으로 활용하는 대규모 배치 기반 대조 학습 기법 제안
사람 개입 프로세스와 모델 기반 예측을 결합하여 실제 운영 시스템에서 거의 완벽한 정확도 달성
統計資料
제품 당 평균 4.5 ± 2개의 이미지가 있다.
제품 가격의 로그 값과 사이즈 개수가 추가 수치 특징으로 사용된다.