この研究では、Jaccard指数を使用して、異なるNLPデータセット間の言語多様性を比較する手法が提案されています。テキストベースの特徴(平均単語長)を用いて、文法的および形態的な多様性が評価されました。結果は、最も欠けている言語タイプが豊かな形態論を持つ言語であることを示しました。また、提案された手法は、従来の指標よりも透明性が高く、欠落している種類の言語を明確に示すことができます。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania