핵심 개념
사용자 의도적 악의적 공격을 통해 기존 공격적 언어 탐지 모델의 성능이 저하되는 문제를 해결하기 위해, 레이어 단위 풀링 전략을 도입하여 모델의 강건성을 높임.
초록
이 연구는 온라인 상에서 자주 발생하는 공격적 언어에 대한 사용자 의도적 악의적 공격을 제안하고, 이에 대한 대응 전략으로 레이어 단위 풀링 전략을 소개한다.
먼저, 사용자 의도적 악의적 공격은 INSERT, COPY, DECOMPOSE의 세 가지 유형으로 분류된다. 이러한 공격은 특수 문자 삽입 또는 한국어의 고유한 특성을 활용하여 기존 모델의 성능을 저하시킨다.
이에 대응하기 위해 레이어 단위 풀링 전략을 도입한다. 이 전략은 마지막 레이어뿐만 아니라 이전 레이어의 정보도 활용하여, 공격성과 토큰 임베딩 모두를 효과적으로 포착한다. 실험 결과, 첫 레이어와 마지막 레이어의 정보를 활용하는 first-last 풀링 전략이 가장 강건한 것으로 나타났다.
특히 clean 텍스트로 사전 학습된 모델에 first-last 풀링을 적용하면, 노이즈 텍스트로 사전 학습된 모델과 유사한 성능을 보이며 공격에 강인한 것으로 확인되었다. 이는 추가적인 파라미터 학습 없이도 공격적 언어 탐지 성능을 높일 수 있음을 시사한다.
통계
공격 비율이 30%일 때 BERTclean의 F1 점수 하락: -4.38%
공격 비율이 60%일 때 BERTclean의 F1 점수 하락: -13.58%
공격 비율이 90%일 때 BERTclean의 F1 점수 하락: -20.60%
인용구
"사용자 의도적 악의적 공격을 통해 기존 공격적 언어 탐지 모델의 성능이 저하되는 문제를 해결하기 위해, 레이어 단위 풀링 전략을 도입하여 모델의 강건성을 높임."
"첫 레이어와 마지막 레이어의 정보를 활용하는 first-last 풀링 전략이 가장 강건한 것으로 나타났다."
"clean 텍스트로 사전 학습된 모델에 first-last 풀링을 적용하면, 노이즈 텍스트로 사전 학습된 모델과 유사한 성능을 보이며 공격에 강인한 것으로 확인되었다."