Core Concepts
단어 수준 적대적 공격은 n-gram 빈도가 감소하는 경향을 보이며, 이를 활용하여 모델 강건성을 향상시킬 수 있다.
Abstract
이 연구는 단어 수준 텍스트 적대적 공격을 n-gram 빈도 관점에서 분석하고, 이를 활용한 모델 강건성 향상 방법을 제안한다.
주요 내용은 다음과 같다:
단어 수준 적대적 공격 사례 분석 결과, 약 90%의 경우 n-gram 빈도가 감소하는 경향(n-FD)을 보인다. 특히 2-gram 빈도 감소가 가장 두드러진다.
표준 모델은 n-FD 예제에 대해 성능이 낮은 것으로 확인되었다. 이는 모델이 빈도가 낮은 n-gram에 취약함을 시사한다.
이를 바탕으로 n-FD 예제를 활용한 적대적 학습 방법을 제안했다. 실험 결과, 기존 gradient 기반 방식과 유사한 수준의 모델 강건성 향상을 달성했다.
이 연구는 단어 수준 적대적 공격에 대한 새로운 이해를 제공하고, 모델 강건성 향상을 위한 새로운 방향을 제시한다.
Stats
단어 수준 적대적 공격은 약 90%의 경우 n-gram 빈도가 감소하는 경향을 보인다.
표준 모델은 n-FD 예제에 대해 성능이 낮다.
n-FD 예제를 활용한 적대적 학습 방법은 기존 gradient 기반 방식과 유사한 수준의 모델 강건성 향상을 달성했다.
Quotes
단어 수준 적대적 공격은 약 90%의 경우 n-gram 빈도가 감소하는 경향을 보인다.
표준 모델은 n-FD 예제에 대해 성능이 낮다.
n-FD 예제를 활용한 적대적 학습 방법은 기존 gradient 기반 방식과 유사한 수준의 모델 강건성 향상을 달성했다.