Ladda ner Linnk AI
•
Forskningsassistent
>
Logga in
insikt
-
有害性テキストに対する攻撃的な対抗手段の開発
ロバストな有害性予測モデルの構築に向けて
有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。
1