이 연구는 온라인 상에서 자주 발생하는 공격적 언어에 대한 사용자 의도적 악의적 공격을 제안하고, 이에 대한 대응 전략으로 레이어 단위 풀링 전략을 소개한다.
먼저, 사용자 의도적 악의적 공격은 INSERT, COPY, DECOMPOSE의 세 가지 유형으로 분류된다. 이러한 공격은 특수 문자 삽입 또는 한국어의 고유한 특성을 활용하여 기존 모델의 성능을 저하시킨다.
이에 대응하기 위해 레이어 단위 풀링 전략을 도입한다. 이 전략은 마지막 레이어뿐만 아니라 이전 레이어의 정보도 활용하여, 공격성과 토큰 임베딩 모두를 효과적으로 포착한다. 실험 결과, 첫 레이어와 마지막 레이어의 정보를 활용하는 first-last 풀링 전략이 가장 강건한 것으로 나타났다.
특히 clean 텍스트로 사전 학습된 모델에 first-last 풀링을 적용하면, 노이즈 텍스트로 사전 학습된 모델과 유사한 성능을 보이며 공격에 강인한 것으로 확인되었다. 이는 추가적인 파라미터 학습 없이도 공격적 언어 탐지 성능을 높일 수 있음을 시사한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询