Core Concepts
현재 대부분의 최신 텍스트 분류기는 수평 방향으로만 텍스트를 처리할 수 있는 한계가 있다. 이를 악용하여 수직 방향으로 단어를 쓰면 분류기는 이를 인식하지 못하지만 사람은 여전히 이해할 수 있다.
Abstract
이 논문은 수직 방향으로 단어를 쓰는 VertAttack이라는 새로운 공격 기법을 제안한다. VertAttack은 분류기가 가장 의존하는 단어를 찾아 이를 수직으로 변형한다. 실험 결과, VertAttack은 4개의 다른 트랜스포머 모델과 5개의 데이터셋에서 분류 정확도를 크게 떨어뜨릴 수 있었다. 예를 들어 SST2 데이터셋에서 RoBERTa의 정확도를 94%에서 13%로 낮출 수 있었다. 또한 VertAttack은 단어를 대체하지 않기 때문에 의미가 잘 보존된다. 사람 대상 실험에서도 77%의 변형된 텍스트를 정확히 분류할 수 있었다. 이는 향후 사람들이 자동 분류기를 어떻게 우회할 수 있는지 보여주며, 더 강력한 알고리즘 개발의 필요성을 시사한다.
Stats
원래 RoBERTa의 SST2 데이터셋 정확도는 94%였으나 VertAttack 후 13%로 떨어졌다.
원래 BERT의 AG News 데이터셋 정확도는 94.2%였으나 VertAttack 후 4.7%로 떨어졌다.
원래 Albert의 CoLA 데이터셋 정확도는 82.9%였으나 VertAttack 후 14.8%로 떨어졌다.
Quotes
"VertAttack은 현재 분류기의 한계(수직 텍스트 인식 불가)를 악용하여 분류 정확도를 크게 떨어뜨릴 수 있다."
"VertAttack으로 변형된 텍스트에 대해 사람은 77%의 정확도로 분류할 수 있었다."