Linnk AI'yı İndirin
•
Araştırma Asistanı
>
Giriş Yap
içgörü
-
有害性テキストに対する攻撃的な対抗手段の開発
ロバストな有害性予測モデルの構築に向けて
有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。
1