toplogo
Sign In

ベトナムのソーシャルメディアテキストにおける憎しみの標的を利用したヘイトスピーチ検出


Core Concepts
ソーシャルメディアのテキストからターゲットを特定し、そのレベルを検出することで、有害なコンテンツを減らすことができる。
Abstract
本研究では、ベトナムのソーシャルメディアテキストに対するターゲット別ヘイトスピーチ検出のための新しいデータセットであるViTHSDを紹介する。このデータセットには10,000件のコメントが含まれ、5つのターゲットと4つのレベル(Normal、Clean、Offensive、Hate)でラベル付けされている。 データ作成プロセスでは、パイロット注釈フェーズとメイン注釈タスクを経て、アノテーターの一致度を高めていった。最終的に、コーエンのカッパ係数0.45という中程度の一致度が得られた。 次に、ベースラインモデルとして、Bi-GRU-LSTM-CNNにBERTologyモデルを組み合わせたものを提案した。実験の結果、マルチリンガルモデルのXLM-Rが最も良い性能を示し、F1スコアで71.62%のターゲット検出精度と50.84%のターゲット+レベル検出精度を達成した。一方、ベトナム語モデルのViSoBERTは、ターゲット+レベル検出タスクでより良い結果を示した。 最後に、リアルタイムのコメント処理システムを提案した。ストリーミングデータを取り込み、前処理とモデル推論を行い、ターゲットとレベルの予測結果を出力するというものである。これにより、ソーシャルメディア上のヘイトスピーチを即座に検出し、対処することが可能となる。
Stats
大半のコメントはindividualsとgroupsに関するものである。 宗教/信条に関するコメントは最も少ない。 人種/民族と政治に関するコメントの中には、憎しみのレベルが高いものが多い。
Quotes
"Dm chúng mày. (English: F*cking you guys)" "Bán Nam bán Nữ(English: semi-male, semi-female.)"

Deeper Inquiries

ターゲットの特定とレベルの判定以外に、ヘイトスピーチ検出にはどのような課題があるか。

ヘイトスピーチ検出には、いくつかの課題が存在します。まず、ヘイトスピーチはしばしば巧妙に表現されるため、機械学習モデルがその意図を正確に捉えることが難しいことが挙げられます。ユーザーは、過激な言葉を避けたり、微妙な表現を用いたりして検出を回避しようとする傾向があります。さらに、ヘイトスピーチは文脈によって異なる意味を持つことがあり、その文脈を正確に理解することも重要です。また、ヘイトスピーチは言葉のみならず、画像や動画などのマルチモーダルなコンテンツにも存在するため、これらの異なる形式を組み合わせて検出することも課題となります。さらに、ヘイトスピーチは文化や言語によって異なる表現があり、多言語対応や異なる文化背景を考慮する必要があります。
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star