核心概念
ナイジェリアのTwitterデータを用いた憎悪表現検出モデルの評価により、従来の手法では実世界の性能を過大評価していることが明らかになった。ドメイン適応プリトレーニングとファインチューニングにより、実世界での性能を大幅に向上させることができる。また、人間レビューを活用したモデレーションアプローチの可能性も示された。
要約
本研究では、ナイジェリアのTwitterデータを用いた憎悪表現検出に関する包括的な分析を行っている。
まず、ナイジェリアのTwitterデータを収集し、憎悪表現を含む35,976件のツイートを注釈付けした「NAIJAHATE」データセットを構築した。さらに、ナイジェリアのTwitterドメインに適応したプリトレーニング済み言語モデル「NAIJAXLM-T」を開発した。
次に、従来の手法で開発された憎悪表現検出モデルを、バイアスの少ない代表的なデータセットで評価したところ、実世界の性能が大幅に過大評価されていることが明らかになった。一方、ドメイン適応プリトレーニングとファインチューニングを行うことで、実世界での性能を大幅に向上させることができた。
また、アクティブラーニングによる多様なデータ収集が、モデルの汎化性能を高めることも示された。
最後に、人間レビューを活用したモデレーションアプローチの可能性を検討し、ナイジェリアのTwitterにおいて、全ツイートの1%をレビューすれば、60%の憎悪ツイートを検出できることが明らかになった。ただし、ソーシャルメディアの利用が増加するにつれ、このアプローチのスケーラビリティが課題となる可能性が指摘された。
統計
ナイジェリアのTwitterにおける憎悪表現の割合は約0.16%である。