核心概念
SGHateCheckは、シンガポールとその周辺地域の言語的・文化的文脈に合わせて設計された新しい枠組みであり、最先端の言語モデルの限界を明らかにしている。
摘要
本論文は、シンガポールとその周辺地域の言語的・文化的文脈に適応した新しい憎悪スピーチ検出フレームワーク「SGHateCheck」を紹介している。
まず、SGHateCheckは、HateCheckとMHCのアプローチを拡張し、シンガポールの主要言語であるシンガポール英語、マレー語、タミル語、中国語に対応したテストケースを作成している。これらのテストケースは、憎悪的な内容と非憎悪的な内容を明確に区別するよう設計されており、言語的・文化的な微妙な違いを捉えることができる。
次に、SGHateCheckを使って、最先端の大規模言語モデルの性能を評価した。その結果、これらのモデルには以下のような課題が明らかになった:
- 曖昧な事例を非憎悪的に分類する傾向がある
- 言語間でモデルの性能にばらつきがある
- 引用された憎悪表現の検出や、非標的グループへの攻撃の認識など、特定の機能テストで弱い
これらの課題は、従来のデータセットを使った評価では見落とされていた可能性がある。SGHateCheckは、シンガポールやその他の東南アジア地域における効果的な憎悪スピーチ検出モデルの開発を促進することが期待される。
統計資料
「憎悪表現を含む発言は、そのグループに属するメンバーに対する虐待である」
「シンガポールの法的枠組みでは、人種、宗教、出身、性的指向、性別、障害、年齢が保護対象グループとされている」
「SGHateCheckは合計21,152のテストケースから構成され、そのうち15,052がネガティブ(憎悪的)、6,100がポジティブ(非憎悪的)とラベル付けされている」
「テストケースの平均長は10.5単語または42.6文字」
引述
「SGHateCheckは、シンガポールとその周辺地域の言語的・文化的文脈に適応した新しい枠組みであり、最先端の言語モデルの限界を明らかにしている」
「SGHateCheckは、より包括的で効果的な憎悪スピーチ検出モデルの開発を促進することが期待される」