核心概念
異なる言語の特徴を考慮したデータセットの言語多様性を評価する新しい方法を提案。
要約
この研究では、Jaccard指数を使用して、異なるNLPデータセット間の言語多様性を比較する手法が提案されています。テキストベースの特徴(平均単語長)を用いて、文法的および形態的な多様性が評価されました。結果は、最も欠けている言語タイプが豊かな形態論を持つ言語であることを示しました。また、提案された手法は、従来の指標よりも透明性が高く、欠落している種類の言語を明確に示すことができます。
統計
97言語から成るmBERTトレーニングデータセットは15種類の言語ファミリーに属しています。
Bible 100データセットには103種類の言語が含まれており、30種類の言語ファミリーに属しています。
XTREMEデータセットには40種類の言語と14種類のファミリーが含まれています。
引用
"最も欠けている言語は形態論豊かなものであることがわかりました。"
"Jaccardスコアは、与えられたデータセットと参照との重なりや相違点を示す透明性があります。"