Core Concepts
GenFighter는 훈련 데이터 분포를 학습하고 이를 기반으로 잠재적으로 악의적인 인스턴스를 식별하고 의미적으로 동등한 인스턴스로 변환하여 통합된 강력한 분류를 제공한다.
Abstract
이 논문은 자연어 처리(NLP) 작업, 특히 트랜스포머 모델을 대상으로 하는 단어 대체 기반 적대적 공격에 대한 방어 전략을 제안한다. 제안된 방법인 GenFighter는 훈련 데이터 분포를 학습하여 잠재적으로 악의적인 인스턴스를 식별하고 이를 의미적으로 동등한 인스턴스로 변환한다. 이후 이러한 변환된 인스턴스들의 분류 결과를 앙상블하여 통합된 강력한 분류를 제공한다.
실험 결과, GenFighter는 기존 최신 방어 기법들에 비해 공격 하에서의 정확도가 높고 공격 성공률이 낮으며, 공격을 수행하기 위해 필요한 쿼리 수가 많아 실제 시나리오에서 공격이 어려워진다는 것을 보여준다. 또한 ablation 연구를 통해 GenFighter의 각 하위 구성 요소가 성능 향상에 중요한 역할을 한다는 것을 확인하였다.
Stats
공격 성공률이 기존 방법 대비 평균 37.0% 감소
공격 하에서의 정확도가 기존 방법 대비 평균 41.6% 향상
공격에 필요한 쿼리 수가 기존 방법 대비 평균 7.8% 증가
Quotes
"GenFighter는 훈련 데이터 분포를 학습하여 잠재적으로 악의적인 인스턴스를 식별하고 의미적으로 동등한 인스턴스로 변환한다."
"GenFighter는 기존 최신 방어 기법들에 비해 공격 하에서의 정확도가 높고 공격 성공률이 낮으며, 공격을 수행하기 위해 필요한 쿼리 수가 많다."