核心概念
언어학적 특성(통계, 가독성, 문체, 어휘 다양성, 수사 구조, 개체 격자)과 사전 훈련된 언어 모델 임베딩을 결합하여 기계 생성 텍스트와 인간 작성 텍스트를 효과적으로 구분할 수 있다.
摘要
이 논문은 SemEval-2024 Task 8의 단일 언어 트랙 Subtask A에 제출된 저자들의 시스템을 소개한다. 저자들은 기계 생성 텍스트(MGT)와 인간 작성 텍스트(HWT)를 구분하기 위해 다양한 언어학적 특성과 사전 훈련된 언어 모델 임베딩을 활용하는 접근법을 제안했다.
주요 내용은 다음과 같다:
- 텍스트 통계, 가독성, 문체, 어휘 다양성, 수사 구조 분석, 개체 격자 등 다양한 언어학적 특성을 추출하고 이들이 MGT 탐지 성능에 미치는 영향을 분석했다.
- 사전 훈련된 RoBERTa 모델의 [CLS] 토큰 임베딩과 언어학적 특성을 결합하여 이진 분류 모델을 학습했다.
- 훈련 데이터 선별을 통해 성능을 향상시켰는데, 특히 WikiHow 도메인의 HWT만을 사용하는 것이 효과적이었다.
- 실험 결과, 언어학적 특성만으로도 강력한 성능을 보였으며, 임베딩과 결합하면 더 나은 성능을 달성할 수 있었다.
- 제안한 모델은 다양한 생성 모델과 도메인에서 강력한 일반화 성능을 보였다.
统计
인간 작성 텍스트의 어려운 단어 수가 기계 생성 텍스트보다 많다.
인간 작성 텍스트의 어휘 수와 문장 수가 기계 생성 텍스트보다 많다.