Core Concepts
本研究は、カザフ語感情分析のための最大かつ初めての公開データセット「KazSAnDRA」を提供する。このデータセットには、4つのドメインから収集された180,064件のレビューが含まれ、1から5までの数値評価が付与されている。また、ポーラリティ分類とスコア分類の2つのタスクに対して、4つの多言語機械学習モデルを開発・評価した。最高のF1スコアは、ポーラリティ分類で0.81、スコア分類で0.39を達成した。
Abstract
本研究は、カザフ語感情分析のための最大かつ初めての公開データセット「KazSAnDRA」を提供する。
データセットの構築:
4つのドメイン(マッピング、マーケットプレイス、オンラインライブラリ、Androidアプリストア)から180,064件のレビューを収集
各レビューには1から5までの数値評価が付与されている
レビューには、カザフ語のみならずロシア語、英語、アラビア語の単語も含まれる
レビューの形式は、カザフ語のキリル文字のみ、ラテン文字のみ、キリル・ラテン混在など多様
データの前処理と分割:
前処理では絵文字の除去、小文字化、句読点の除去などを実施
トレーニング、検証、テストデータに80:10:10の割合で分割
不均衡データに対してはランダムオーバーサンプリングとランダムアンダーサンプリングを適用
モデルの開発と評価:
ポーラリティ分類(ポジティブ/ネガティブ)とスコア分類(1-5)の2つのタスクを設定
4つの多言語モデル(mBERT、XLM-R、RemBERT、mBART-50)を fine-tuning
最高のF1スコアは、ポーラリティ分類で0.81、スコア分類で0.39を達成
Stats
ポーラリティ分類のテストデータにおいて、1,036件のポジティブレビューがネガティブと誤分類された。
スコア分類のテストデータにおいて、スコア2のレビューの正解率は55件と低かった。