本研究では、ベトナムのソーシャルメディアテキストに対するターゲット別ヘイトスピーチ検出のための新しいデータセットであるViTHSDを紹介する。このデータセットには10,000件のコメントが含まれ、5つのターゲットと4つのレベル(Normal、Clean、Offensive、Hate)でラベル付けされている。
データ作成プロセスでは、パイロット注釈フェーズとメイン注釈タスクを経て、アノテーターの一致度を高めていった。最終的に、コーエンのカッパ係数0.45という中程度の一致度が得られた。
次に、ベースラインモデルとして、Bi-GRU-LSTM-CNNにBERTologyモデルを組み合わせたものを提案した。実験の結果、マルチリンガルモデルのXLM-Rが最も良い性能を示し、F1スコアで71.62%のターゲット検出精度と50.84%のターゲット+レベル検出精度を達成した。一方、ベトナム語モデルのViSoBERTは、ターゲット+レベル検出タスクでより良い結果を示した。
最後に、リアルタイムのコメント処理システムを提案した。ストリーミングデータを取り込み、前処理とモデル推論を行い、ターゲットとレベルの予測結果を出力するというものである。これにより、ソーシャルメディア上のヘイトスピーチを即座に検出し、対処することが可能となる。
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Cuong Nhat V... a las arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19252.pdfConsultas más profundas