核心概念
본 논문에서는 사전 훈련된 언어 모델(LERT), 신경망(CNN, BiLSTM), 적대적 훈련(FGM)을 결합하여 통신 사기 사건 텍스트 분류의 정확도와 강건성을 향상시킨 텍스트 분류 모델을 제안합니다.
摘要
개요
본 연구 논문에서는 통신 사기 사건 텍스트 분류를 위한 새로운 텍스트 분류 모델을 제안합니다. 저자는 수동 분류의 비효율성을 지적하고, 이를 해결하기 위해 LERT, CNN, BiLSTM, FGM을 결합한 모델을 제시합니다.
연구 배경
- 정보 사회의 발전과 함께 통신 네트워크 사기와 같은 사이버 범죄가 증가하고 있습니다.
- 중국에서는 2023년에만 437,000건의 통신 사기 사건이 발생했습니다.
- 사건의 효율적인 처리를 위해서는 텍스트 분류를 통한 사전 분류가 중요합니다.
- 하지만, 현재는 인력에 의존한 비효율적인 분류 방식을 사용하고 있습니다.
제안하는 모델
본 논문에서는 LERT-CNN-BiLSTM이라는 텍스트 분류 모델을 제안합니다.
- LERT를 사용하여 세 가지 유형의 언어적 특징(POS, NER, DEP)을 추출합니다.
- FGM 알고리즘을 사용하여 생성된 임베딩 레이어를 교란하여 모델의 강건성을 향상시킵니다.
- BiLSTM과 CNN을 사용하여 문맥적 구문 정보와 지역적 의미 정보를 각각 추출합니다.
- 다중 채널 융합 및 병렬 출력을 결합하여 최종 분류를 수행합니다.
실험 및 결과
- B시의 통신 사기 사건 데이터를 사용하여 모델을 학습하고 평가했습니다.
- 제안된 모델은 83.9%의 분류 정확도를 달성했습니다.
- 더 많은 데이터를 사용하여 모델을 학습한 결과 90%의 정확도를 달성했습니다.
결론 및 기여
- 본 논문은 LERT, CNN, BiLSTM, FGM을 결합한 새로운 텍스트 분류 모델을 제안했습니다.
- 제안된 모델은 통신 사기 사건 텍스트 분류 작업에서 높은 정확도를 달성했습니다.
- 본 연구는 다른 텍스트 분류 작업에도 적용될 수 있는 새로운 접근 방식을 제시합니다.
统计
2023년 한 해 동안 중국에서 발생한 통신 사기 사건은 437,000건입니다.
본 연구에서는 B시의 2023년 통신 사기 사건 데이터를 사용했습니다.
데이터는 무작위 추출을 통해 10,000건을 선정했습니다.
훈련, 검증, 테스트 데이터셋은 8:1:1 비율로 분할했습니다.
제안된 모델은 83.9%의 분류 정확도를 달성했습니다.
더 많은 데이터를 사용하여 모델을 학습한 결과 90%의 정확도를 달성했습니다.
引用
"In recent years, with the rapid development of the information society, major changes have taken place in the crime structure. Traditional crimes have continued to decline, while new forms of cybercrimes, such as telecommunications network fraud, have emerged as the predominant forms of crime."
"Therefore, this paper establishes a text classification model called LERT-CNN-BiLSTM. To further improve the model's robustness and generalization ability, we integrate the FGM adversarial training method commonly used in the image domain to perturb the embedding layer after preprocessing with LERT."