핵심 개념
ドメイン外の攻撃的な例を収集することで、ヘイトスピーチ検出モデルの堅牢性を大幅に向上させることができる。
초록
本論文では、ドイツ語ヘイトスピーチデータセットGAHDを紹介する。GAHDは、動的な敵対的データ収集(DADC)を通じて構築された11,000件以上の例を含む。
R1では、アノテーターに自由に攻撃的な例を作成させた。
R2では、英語の攻撃的な例をドイツ語に翻訳し、アノテーターにそれらを検証・派生させるよう依頼した。
R3では、ターゲットモデルが誤ってヘイトスピーチと判断したドイツ語新聞記事の文を検証させた。
R4では、前のラウンドで収集した難しい例に対して、アノテーターにラベルを反転させる対照的な例を作成させた。
実験の結果、GAHDを使ってモデルを訓練すると、ドメイン内外のテストセットでマクロF1スコアが18-20ポイント向上した。また、アノテーターを支援する方法を組み合わせることで、より効果的な例が収集できることが分かった。さらに、大規模言語モデルやコンテンツ監視APIでもGAHDは依然として難しいことが示された。
통계
ヘイトスピーチを含む表現は、明示的な強い否定的感情の表出に関するものが多い。
ヘイトスピーチは、非人間化や、保護集団に対する否定的な属性の記述を通じて表現されることが多い。
ヘイトスピーチは、直接的な脅威や、規範的な主張の形で表現されることもある。
ヘイトスピーチは、差別的な言葉や、罵倒語を使って表現されることがある。
인용구
"ヘイトスピーチ検出モデルは、それらが訓練されたデータの質によってのみ良くなる。"
"動的な敵対的データ収集(DADC)は、この問題に取り組むことを目的としている。"
"DADC は時間がかかり、コストがかかり、アノテーターの創造性が限られていると、個々のアノテーターでは多様な例を見つけるのが難しい。"