核心概念
大規模言語モデル(LM)を用いたヘイトスピーチ検出において、人間による説明(ステレオタイプ)を組み込むことで、モデルの頑健性と文脈理解を向上させることができる。
本論文は、大規模言語モデル(LM)を用いたヘイトスピーチ検出における、頑健性と説明可能性の向上を目指した研究について述べています。
研究背景
ソーシャルメディアの普及に伴い、ヘイトスピーチの拡散が深刻化しています。自動検出によるヘイトスピーチ対策が求められる一方で、表現の自由を不当に侵害する過剰な検閲も懸念されています。
問題提起
従来のLMベースのヘイトスピーチ検出モデルは、単語とヘイト意図の関係を適切に捉えきれていない場合があり、単語レベルの摂動に脆弱であるという問題があります。
提案手法
本研究では、人間によるヘイトスピーチの説明(ステレオタイプ)をモデルに組み込むことで、文脈理解を促進し、頑健性を向上させる手法を提案しています。具体的には、Social Bias Framesデータセットを用いて、ステレオタイプとツイートの含意関係を学習する「ステレオタイプ意図含意(SIE)」タスクを新たに設計しました。
実験と結果
提案手法を評価するために、従来のLMベースのヘイトスピーチ検出モデルと、SIEタスクで学習したモデルに対して、単語レベルの摂動に対する頑健性を比較しました。結果として、SIEタスクで学習したモデルは、従来モデルと比較して、単語の削除や追加などの摂動に対して、より頑健であることが示されました。
考察
SIEタスクで学習することで、モデルはステレオタイプとツイートの文脈的な整合性を学習し、単語レベルの摂動の影響を受けにくくなると考えられます。
結論
本研究では、人間による説明を組み込むことで、LMベースのヘイトスピーチ検出モデルの頑健性と文脈理解を向上させることができることを示しました。
今後の展望
今後は、より複雑なステレオタイプや文脈を考慮したモデルの開発、および、より大規模なデータセットを用いた評価が課題として挙げられます。
統計
LM-HSモデルは、テストセットにおいて、精度は80.9%、F1スコアは84.0%を達成した。
単語レベルの摂動(Leave-one-out攻撃)により、LM-HSモデルの精度は11%低下した。
無関係な単語の追加攻撃(AA-R)により、LM-HSモデルの精度は38.4%低下した。
質問文開始語の追加攻撃(AA-Q)により、LM-HSモデルの精度は19.2%低下した。
SIEタスクで学習したLM-SIEモデルは、AA-R攻撃に対して11.3%、AA-Q攻撃に対して2.6%の精度低下にとどまった。
ユーザー調査の結果、SIEモデルが学習した単語ペアは、68%の確率でユーザーのSIEクラス推論に役立つものであった。