이 논문은 SOTA 독성 언어 예측기의 견고성 문제를 다룹니다. 최근 NLP 문헌은 독성 언어 예측기의 견고성에 대해 거의 주목하지 않았지만, 이러한 시스템은 악의적인 상황에서 가장 많이 사용될 것입니다.
이 논문은 ToxicTrap이라는 새로운 적대적 공격을 제안합니다. ToxicTrap은 단어 수준의 작은 변화를 통해 SOTA 텍스트 분류기를 속여 독성 텍스트 샘플을 무해한 것으로 예측하게 합니다. ToxicTrap은 빠르고 효과적인 독성 적대적 예제 생성을 위해 탐욕 기반 검색 전략을 활용합니다. 두 가지 새로운 목표 함수 설계를 통해 ToxicTrap은 다중 클래스 및 다중 레이블 독성 언어 탐지기의 약점을 식별할 수 있습니다.
실험 결과, SOTA 독성 텍스트 분류기가 제안된 공격에 취약하다는 것을 보여줍니다. 다중 레이블 경우에서 98% 이상의 공격 성공률을 달성했습니다. 또한 기본 적대적 훈련과 개선된 버전이 이전에 보지 못한 공격에 대해서도 독성 탐지기의 견고성을 높일 수 있음을 보여줍니다.
To Another Language
from source content
arxiv.org
Głębsze pytania