MessIRveは、以下の特徴を持つ新しいスペイン語情報検索データセットです:
Google の自動補完APIから収集した約73万件のクエリを含む。これらのクエリは、スペイン語話者の多様な地域からのものであり、英語から翻訳されたものではない。
クエリに対応する関連文書は、Wikipediaの記事から抽出したものである。これにより、広範な話題をカバーできる。
データセットの構築プロセスを詳細に記述しており、他のスペイン語情報検索データセットと比較して特徴を明確にしている。
質の評価を行い、クエリの正確性、明確性、文書の関連性が高いことを示している。
既存の情報検索モデルのベースラインを提示し、スペイン語情報検索の発展に寄与する。
このデータセットは、スペイン語話者のための情報アクセスツールの開発を促進し、スペイン語情報検索研究の進展に役立つことが期待されます。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות