本研究では、ナイジェリアのTwitterデータを用いた憎悪表現検出に関する包括的な分析を行っている。
まず、ナイジェリアのTwitterデータを収集し、憎悪表現を含む35,976件のツイートを注釈付けした「NAIJAHATE」データセットを構築した。さらに、ナイジェリアのTwitterドメインに適応したプリトレーニング済み言語モデル「NAIJAXLM-T」を開発した。
次に、従来の手法で開発された憎悪表現検出モデルを、バイアスの少ない代表的なデータセットで評価したところ、実世界の性能が大幅に過大評価されていることが明らかになった。一方、ドメイン適応プリトレーニングとファインチューニングを行うことで、実世界での性能を大幅に向上させることができた。
また、アクティブラーニングによる多様なデータ収集が、モデルの汎化性能を高めることも示された。
最後に、人間レビューを活用したモデレーションアプローチの可能性を検討し、ナイジェリアのTwitterにおいて、全ツイートの1%をレビューすれば、60%の憎悪ツイートを検出できることが明らかになった。ただし、ソーシャルメディアの利用が増加するにつれ、このアプローチのスケーラビリティが課題となる可能性が指摘された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究