Core Concepts
L3Cube-IndicNewsは、インド地域の11言語を対象とした高品質のニュース記事分類データセットである。短いニュースヘッドラインから長文記事まで、一貫したラベル付けで3つのデータセットを提供している。
Abstract
L3Cube-IndicNewsは、インド地域の11言語(ヒンディー語、ベンガル語、マラーティー語、テルグ語、タミル語、グジャラート語、カンナダ語、オリヤー語、マラヤーラム語、パンジャブ語)を対象とした高品質のニュース記事分類データセットである。
データは主要ニュースサイトから収集され、10以上のニュースカテゴリーに分類されている。
データセットは3つのタイプに分かれている:
短いニュースヘッドラインと分類ラベルのShort Headlines Classification (SHC)
長文のニュース記事と分類ラベルのLong Document Classification (LDC)
ニュース記事の一部と分類ラベルのLong Paragraph Classification (LPC)
これらのデータセットを使って、モノリンガルBERTモデル、多言語BERTモデル、SBERTモデルの性能を評価した。
結果として、LDCデータセットでは高精度が得られ、SHCデータセットでは精度が低めだった。
今後の展望として、ラベルの拡張や手動検証データの追加、クロスデータセット分析などが考えられる。
Stats
長文記事分類(LDC)タスクでは、ベンガル語BERTモデルが最高精度を達成した。
短いニュースヘッドライン分類(SHC)タスクでは、全体的に精度が低めだった。