核心概念
LLMsを使った憎悪スピーチ検出モデルの性能は、ファインチューニングのパラメータや、トレーニングデータの特性に大きく依存する。また、モデルの分野横断的な汎化性能も重要な課題である。
要約
本研究では、LLMsを使った憎悪スピーチ検出モデルの性能を評価している。
まず、9つの公開データセットを使って、LLaMAとVicunaの基本モデルとファインチューニング済みモデルの自己ドメイン内の性能を比較した。その結果、LLMsを使うことで従来の最良モデルと比べて大幅に性能が向上することがわかった。ただし、ファインチューニングの効果は一定ではなく、LLaMAではむしろ性能が低下する場合もあった。
次に、各モデルの分野横断的な汎化性能を評価した。その結果、Gabデータセットでファインチューニングしたモデルが最も良い汎化性能を示した。一方で、YouTubeやFacebookのデータを使ったファインチューニングは汎化性能を低下させる傾向にあった。
さらに、モデルの汎化性能に影響する要因を分析した。その結果、トレーニングデータのラベル分布が最も重要な要因であることがわかった。一方で、トレーニングデータサイズやファインチューニングの有無の影響は限定的であった。
以上より、LLMsを使った憎悪スピーチ検出では、適切なデータセットでのファインチューニングが重要であり、ラベル分布に留意する必要があることが示された。また、分野横断的な汎化性能の評価が重要であり、本研究の分析フレームワークがその指針となることが期待される。
統計
Gabデータセットの最良モデルのF1スコアは0.896だったが、本研究の最良モデルは0.994となり、約10%の改善が見られた。
Redditデータセットの最良モデルのF1スコアは0.775だったが、本研究の最良モデルは0.960となり、約19%の改善が見られた。
ToramanデータセットのF1スコアは0.830だったが、本研究の最良モデルは0.985となり、約15%の改善が見られた。
ICWSMデータセットのF1スコアは0.960だったが、本研究の最良モデルは0.998となり、ほぼ完璧な性能を示した。