Core Concepts
ファッション eコマースにおいて、大規模なデータセット、データ分布の変化、未知のドメインといった課題に対処するための堅牢な多様なモーダルを活用した製品マッチングシステムを提案する。
Abstract
本論文では、ファッション eコマースにおける製品マッチングの課題に取り組んでいる。製品マッチングとは、同一の製品を識別することで、製品の発見性、キュレーション、価格設定を向上させるための重要な機能である。
大規模なデータセット、データ分布の変化、未知のドメインといった課題に直面する中で、以下のような取り組みを行っている:
事前学習された画像エンコーダーと文字エンコーダーを活用し、それらを単純な射影層でつなぐことで、コストと性能のバランスが取れた高性能な多様なモーダルエンコーダーを構築した。
CLIP エンコーダーが、DINO エンコーダーよりも画像のみの製品マッチングで強い性能を発揮することを発見した。
人間による検証プロセスを組み合わせることで、ほぼ完璧な精度を達成できることを示した。
全体として、大規模な事前学習モデルを直接活用することで、コストと複雑さを大幅に削減しつつ、高性能な製品マッチングシステムを構築できることを実証している。
Stats
提案手法のin-domain testデータセットでのAUCPRは66.1%
提案手法のout-domain testデータセットでのAUCPRは63.3%
提案手法のin-domain testデータセットでのRecall@1は84.2%
提案手法のout-domain testデータセットでのRecall@1は82.1%