有害性テキストに対する攻撃的な対抗手段の開発

登入

洞見 - 有害性テキストに対する攻撃的な対抗手段の開発

有害性テキストを検知するNLPモデルは、小さな単語レベルの変更によって簡単に欺くことができる。本研究では、ToxicTrapと呼ばれる新しい攻撃的手法を提案し、これらのモデルの脆弱性を明らかにする。

關於我們

產品

資源