Core Concepts
본 연구에서는 문장 분류기에 대한 효과적이고 눈에 띄지 않는 역공격 방법인 Reversible Jump Attack (RJA)와 Metropolis-Hasting Modification Reduction (MMR)을 제안한다.
Abstract
본 연구에서는 문장 분류기에 대한 효과적이고 눈에 띄지 않는 역공격 방법을 제안한다.
Reversible Jump Attack (RJA):
RJA는 Reversible Jump Sampler를 활용하여 변경된 단어의 개수, 공격 대상 단어, 그리고 대체 단어를 조건부로 샘플링한다.
이를 통해 기존 방식보다 더 넓은 탐색 공간에서 효과적인 역공격 예시를 생성할 수 있다.
RJA는 공격 성능과 의미적 유사성 간의 균형을 유지하도록 설계되었다.
Metropolis-Hasting Modification Reduction (MMR):
MMR은 Metropolis-Hasting 알고리즘을 활용하여 역공격 예시의 수정 정도를 최소화한다.
MMR은 두 단계로 구성된다:
일부 공격 단어를 확률적으로 복원하여 수정 정도가 낮은 역공격 예시 생성
변경된 단어의 개수를 유지하면서 대체 단어 조합을 업데이트하여 공격 성능 향상
RJA-MMR:
RJA와 MMR을 통합한 RJA-MMR은 공격 성능, 눈에 띄지 않음, 문법 정확성 측면에서 기존 방법들을 뛰어넘는 성능을 보인다.
Stats
공격 대상 단어의 중요도는 분류기 출력 로짓의 변화로 계산된다.
대체 단어 후보는 마스크 언어 모델(MLM)과 시소러스(HowNet)의 교집합에서 선택된다.
Quotes
"RJA는 Reversible Jump Sampler를 활용하여 변경된 단어의 개수, 공격 대상 단어, 그리고 대체 단어를 조건부로 샘플링한다."
"MMR은 Metropolis-Hasting 알고리즘을 활용하여 역공격 예시의 수정 정도를 최소화한다."