核心概念
Eコマースに特化した大規模な画像テキストデータセットの重要性と有用性を示す。
要約
Eコマースウェブサイトから収集された15百万の画像キャプションペアで構成されるLet's Go Shopping(LGS)データセットは、研究者や実務家にとって貴重なリソースである。既存の汎用データセットと比較して、LGSは前景オブジェクトに焦点を当て、背景が複雑でない特徴を持つ画像を提供する。LGSは、既存のベンチマークデータセットで訓練された分類器がEコマースデータに容易に一般化しないことを示し、特定の自己教師付きビジュアル特徴抽出器がより良く一般化することを示している。さらに、LGSの高品質なEコマース専用画像とバイモーダル性は、ビジョン言語バイモーダルタスクにおいて優れた成果をもたらす。
統計
15百万の画像キャプションペアから構成されるLet's Go Shopping(LGS)データセット
Eコマースウェブサイトから収集された約10,000サイトから15百万の画像説明ペア
17.6%のImageNet-1kシンセットとEコマースコーパス間で共有される概念
引用
"Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes."
"We introduce the Let’s Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites."
"Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize."