下載 Linnk AI
•
AI 研究助理
>
登入
洞見
-
有害性テキストに対する攻撃的な対抗手段の開発
ロバストな有害性予測モデルの構築に向けて
有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。
1