Основные понятия
マラーティー語の低リソース言語における大規模で多様なテキスト分類データセットの提供
Аннотация
本論文では、マラーティー語のテキスト分類のための大規模なデータセット「L3Cube-MahaNews」を提案している。このデータセットは、マラーティー語のニュース記事から収集された1.08万件以上のデータで構成されており、12の多様なカテゴリに分類されている。
データセットは、短文のニュースヘッドライン(SHC)、中長文のニュース記事段落(LPC)、長文のニュース記事全文(LDC)の3つのサブデータセットから成る。これにより、文書長の異なるデータを用意し、文書長に応じたモデルの評価が可能となる。
提案データセットに対して、モノリンガルのMahaBERTや多言語のindicBERT、MuRILなどの事前学習モデルを fine-tuning し、分類精度を評価した。その結果、モノリンガルのMahaBERTが最も高い精度を示した。また、データセット間の相互評価を行い、データセットの特性の違いを明らかにした。
本データセットは、マラーティー語のテキスト分類タスクにおける基準データとして活用できるほか、低リソース言語のNLPモデル開発にも役立つと期待される。
Статистика
全データセットの総レコード数は108,643件
SHCとLDCは各27,525件、LPCは53,593件のレコードから構成される
1レコードあたりの平均単語数はSHC:10.6、LPC:45.1、LDC:231.4