Core Concepts
중국어 언어 모델의 변형 공격에 대한 강건성을 향상시키기 위해 중국어 문자 변형 그래프를 활용하는 새로운 방법을 제안한다.
Abstract
이 연구는 중국어 언어 모델의 변형 공격에 대한 강건성을 향상시키기 위한 새로운 방법인 CHANGE(CHinese vAriatioN Graph Enhancement)를 제안한다. CHANGE는 중국어 문자 변형 그래프를 언어 모델에 통합하는 두 가지 주요 구성 요소를 포함한다:
중국어 변형 그래프 통합(CVGI) 방법: 변형 그래프 정보를 활용하여 입력 문장을 재구성하고 2D 주의 집중 마스크를 생성하여 언어 모델에 통합한다.
변형 그래프 지도 사전 학습: 변형 그래프 정보를 활용하여 언어 모델의 공격 토큰 인식, 공격 방법 예측, 공격 문자 예측 등의 추가 사전 학습 작업을 수행한다.
실험 결과, CHANGE는 다양한 NLP 작업에서 기존 언어 모델들에 비해 우수한 성능을 보였으며, 특히 변형 공격에 대한 강건성이 크게 향상되었다. 이는 그래프 정보를 활용한 접근 방식이 언어 모델의 변형 공격에 대한 이해를 높이는 데 효과적임을 보여준다.
Stats
중국어 문자 변형 그래프는 발음, 시각, 문자-발음 변환 등 다양한 변형 관계를 포함한다.
변형 공격 시나리오에서 공격 경로는 그래프의 노드와 간선으로 표현된다.
Quotes
"중국어 언어 모델의 취약성은 중국어의 풍부한 문자 다양성/변형과 복잡한 구조로 인해 더욱 심각한 문제가 된다."
"CHANGE는 중국어 문자 변형 그래프를 활용하여 언어 모델의 변형 공격에 대한 강건성을 향상시키는 새로운 접근 방식을 제안한다."