この研究では、Jaccard指数を使用して、異なるNLPデータセット間の言語多様性を比較する手法が提案されています。テキストベースの特徴(平均単語長)を用いて、文法的および形態的な多様性が評価されました。結果は、最も欠けている言語タイプが豊かな形態論を持つ言語であることを示しました。また、提案された手法は、従来の指標よりも透明性が高く、欠落している種類の言語を明確に示すことができます。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Tanja Samard... lúc arxiv.org 03-07-2024
https://arxiv.org/pdf/2403.03909.pdfYêu cầu sâu hơn