대규모 데이터셋, 데이터 분포 변화, 새로운 도메인 등의 과제에 강건한 다중 모달 제품 매칭 시스템을 제안한다. 사전 학습된 이미지 및 텍스트 인코더를 활용한 간단한 프로젝션 방식이 비용 대비 성능 면에서 최신 기술 수준을 달성한다. 또한 사람 개입 프로세스와 모델 기반 예측을 결합하여 실제 운영 시스템에서 거의 완벽한 정확도를 달성할 수 있음을 보여준다.