核心概念
MessIRveは、スペイン語話者の情報ニーズを反映した大規模なスペイン語情報検索データセットである。
摘要
MessIRveは、以下の特徴を持つ新しいスペイン語情報検索データセットです:
Google の自動補完APIから収集した約73万件のクエリを含む。これらのクエリは、スペイン語話者の多様な地域からのものであり、英語から翻訳されたものではない。
クエリに対応する関連文書は、Wikipediaの記事から抽出したものである。これにより、広範な話題をカバーできる。
データセットの構築プロセスを詳細に記述しており、他のスペイン語情報検索データセットと比較して特徴を明確にしている。
質の評価を行い、クエリの正確性、明確性、文書の関連性が高いことを示している。
既存の情報検索モデルのベースラインを提示し、スペイン語情報検索の発展に寄与する。
このデータセットは、スペイン語話者のための情報アクセスツールの開発を促進し、スペイン語情報検索研究の進展に役立つことが期待されます。
統計資料
スペイン語情報検索では、関連文書の上位100件のうち約90%が関連していることが示された。
上位10件の文書の順位付けの質を示すnDCG@10は0.433であった。
引述
"MessIRveは、スペイン語話者の情報ニーズを反映した大規模なデータセットである。"
"このデータセットは、スペイン語話者のための情報アクセスツールの開発を促進し、スペイン語情報検索研究の進展に役立つことが期待される。"