Завантажити Linnk AI
•
Помічник з досліджень
>
Увійти
ідея
-
有害性テキストに対する攻撃的な対抗手段の開発
ロバストな有害性予測モデルの構築に向けて
有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。
1