핵심 개념
대규모 데이터셋, 데이터 분포 변화, 새로운 도메인 등의 과제에 강건한 다중 모달 제품 매칭 시스템을 제안한다. 사전 학습된 이미지 및 텍스트 인코더를 활용한 간단한 프로젝션 방식이 비용 대비 성능 면에서 최신 기술 수준을 달성한다. 또한 사람 개입 프로세스와 모델 기반 예측을 결합하여 실제 운영 시스템에서 거의 완벽한 정확도를 달성할 수 있음을 보여준다.
초록
이 논문은 온라인 마켓플레이스에서의 제품 매칭 문제를 다룬다. 다양한 판매자가 자신의 상품 목록을 제공하며, 이들 간 중복되는 제품을 식별하는 것이 핵심 과제이다. 비주얼 정보와 텍스트 정보가 모두 중요한 패션 제품 매칭의 특성상, 이미지와 텍스트를 활용한 다중 모달 접근법이 필요하다.
논문에서는 다음과 같은 핵심 내용을 다룬다:
- 사전 학습된 이미지 및 텍스트 인코더를 활용한 간단한 프로젝션 기반 다중 모달 인코더 모델 제안
- CLIP 및 DINO 등 대규모 사전 학습 모델 비교 분석, CLIP 모델이 이미지 기반 제품 매칭에서 우수한 성능 발휘
- 대량의 부정적 샘플(매칭되지 않는 제품 쌍)을 효과적으로 활용하는 대규모 배치 기반 대조 학습 기법 제안
- 사람 개입 프로세스와 모델 기반 예측을 결합하여 실제 운영 시스템에서 거의 완벽한 정확도 달성
통계
제품 당 평균 4.5 ± 2개의 이미지가 있다.
제품 가격의 로그 값과 사이즈 개수가 추가 수치 특징으로 사용된다.