核心概念
本論文では、シンハラ語の攻撃的な言語を特定するための大規模なデータセットSOLDを紹介し、様々な機械学習モデルを用いた実験結果を示す。
要約
本論文では、シンハラ語の攻撃的な言語を特定するための大規模なデータセットSOLDを紹介している。
まず、データ収集と注釈付けの過程を説明している。Twitterから10,000件のツイートを収集し、文レベルと単語レベルの攻撃的な言語の注釈を行った。文レベルの注釈では、攻撃的/非攻撃的の2つのラベルを付与し、単語レベルの注釈では、攻撃的な単語をハイライトした。
次に、様々な機械学習モデルを用いて、文レベルと単語レベルの攻撃的な言語の特定実験を行った。文レベルでは、SVMやBiLSTM、CNNなどの従来手法に加え、マルチリンガルなトランスフォーマーモデルも検討した。単語レベルでは、BiLSTMやトランスフォーマーモデルを用いた。
実験の結果、文レベルではXLM-Rが最も良い性能を示し、単語レベルでもXLM-Rが最も良い結果となった。また、単語レベルの弱教師あり学習手法であるTransformer+LIMEも一定の性能を示した。
最後に、低リソース言語における攻撃的な言語の特定における課題と、本研究の意義について議論している。
統計
攻撃的なツイートの割合は41%である。
攻撃的な単語の例としては、「ෙතාපි」(あなた)、「ෙගාන්」(愚か者)、「ෙතා්」(あなた)などがある。
引用
「攻撃的な投稿は自殺企図や精神的健康状態の悪化などの望ましくない結果を引き起こす」
「人間の監視員では膨大な投稿量に対応できないため、自動システムが必要不可欠である」