Core Concepts
有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。
Abstract
本論文は、有害性テキストを検知するNLPモデルの堅牢性に焦点を当てている。
- 近年のNLP文献では、有害性言語予測モデルのロバスト性に十分な注意が払われていない一方で、これらのシステムは攻撃的な文脈で使用される可能性が高い。
- 本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案する。ToxicTrapは、単語レベルの小さな変更を行うことで、最先端のテキストクラシファイアに有害テキストを「無害」と誤認させる。
- ToxicTrapは、貪欲な検索戦略に基づいて迅速かつ効果的に有害な対抗例を生成する。2つの新しい目的関数の設計により、ToxicTrapは多クラスおよび多ラベルの有害言語検知器の弱点を特定できる。
- 実験の結果、最先端の有害性テキストクラシファイアは提案された攻撃に対して脆弱であり、多ラベルの場合には98%を超える攻撃成功率を達成することが示された。
- さらに、バニラの敵対的訓練とその改良版が、未知の攻撃に対しても有害性検知器のロバスト性を高められることが示された。
Stats
元のテキスト: "The village idiot."
攻撃後のテキスト: "The village douche."
元のテキストの有害性スコア: 92.83%
攻撃後のテキストの有害性スコア: 0.066%
敵対的訓練後のテキストの有害性スコア: 86.84%
Quotes
"ToxicTrap successfully fooled a SOTA toxicity predictor by perturbing one word in the original text using word synonym perturbation."
"After adversarial training (AT), the improved toxicity predictor can correctly flag the perturbed text into the toxicity class."