Core Concepts
本論文では、レシートから重要な情報を抽出し、商品を分類するための新しい多言語データセットAMuRDを紹介する。このデータセットには、アラビア語と英語の47,720件のレシートサンプルが含まれ、商品名、価格、ブランドなどの詳細な注釈が付けられている。また、44の製品カテゴリーへの分類も行われている。
Abstract
本論文では、レシートから重要な情報を抽出し、商品を分類するための新しい多言語データセットAMuRDを紹介している。
データセットの構築:
100,000件のレシートを収集し、47,720件のサンプルを選定
商品名、価格、ブランド、重量、数量、包装情報などの詳細な注釈を付与
44の製品カテゴリーに分類
実験と評価:
伝統的な機械学習モデルと大規模言語モデル(LLM)を使用して分類と情報抽出を実施
LLaMA V1とV2モデルを fine-tuning し、優れた性能を発揮
0ショット、1ショット、few-shotの各設定で評価し、データ量の増加に伴う性能向上を確認
本データセットは、レシートからの重要情報抽出と商品分類の研究に有用な資源となる。多言語対応、詳細な注釈、製品カテゴリー分類など、従来のデータセットにはない特徴を備えている。
Stats
平均価格は36.69、中央値は23.95
最低価格は0.25、最高価格は512.00