Core Concepts
複雑な画像から特定の商品を効率的に検索するために、条件付き画像埋め込みを学習する手法を提案する。
Abstract
本論文では、ファッション商品の類似検索における新しい課題「Referred Visual Search (RVS)」を紹介する。RVSでは、ユーザーが画像とテキストによる条件を指定し、その条件に合致する商品を大規模な商品データベースから検索する。
具体的には以下の取り組みを行っている:
RVSのための大規模データセット「LAION-RVS-Fashion」を構築した。このデータセットには272,000以上の商品が含まれ、複雑な背景の画像と単一商品の画像が用意されている。
条件付き画像埋め込みを学習する新しい手法を提案した。Vision Transformerアーキテクチャを用いて、画像と条件情報(カテゴリやキャプション)を統合的に処理し、類似検索に適した特徴表現を学習する。
提案手法は、物体検出や領域分割を必要とせずに、条件に応じた類似検索を実現できる。大規模な検索ギャラリーに対しても高い精度を維持できることを示した。
提案手法は、カテゴリ情報やテキスト条件を用いた場合でも優れた性能を発揮し、従来の物体検出ベースの手法を上回る結果を得た。
Stats
提案手法のViT-B/16モデルは、2Mの検索ギャラリーに対して68.4%のRecall@1を達成した。
同モデルの98.8%の正解カテゴリ精度は、物体検出ベースの手法の94.3%を上回った。
Quotes
"複雑な画像から特定の商品を効率的に検索するために、条件付き画像埋め込みを学習する手法を提案する。"
"提案手法は、物体検出や領域分割を必要とせずに、条件に応じた類似検索を実現できる。"
"提案手法は、カテゴリ情報やテキスト条件を用いた場合でも優れた性能を発揮し、従来の物体検出ベースの手法を上回る結果を得た。"