Core Concepts
이 논문은 신할라어 공격적 언어 식별을 위한 대규모 데이터셋 SOLD를 소개하고, 다양한 기계 학습 모델을 통해 문장 수준과 토큰 수준에서의 공격적 언어 탐지 성능을 평가한다.
Abstract
이 논문은 신할라어 공격적 언어 식별을 위한 대규모 데이터셋 SOLD를 소개한다. SOLD는 10,000개의 트윗으로 구성되며, 문장 수준과 토큰 수준에서 공격적/비공격적으로 수동 주석되었다.
문장 수준 실험에서는 SVM, BiLSTM, CNN, 다국어 사전 훈련 언어 모델 등 다양한 기계 학습 모델을 평가했다. 결과적으로 XLM-R 모델이 가장 우수한 성능을 보였다.
토큰 수준 실험에서는 BiLSTM, 사전 훈련 언어 모델, 약한 감독 학습 방식인 Transformer+LIME을 평가했다. XLM-R 모델이 가장 우수한 성능을 보였다.
이 연구는 신할라어 공격적 언어 식별을 위한 첫 번째 대규모 데이터셋을 제공하고, 다양한 기계 학습 모델의 성능을 평가했다는 점에서 의의가 있다.
Stats
신할라어 공격적 언어 데이터셋 SOLD에는 10,000개의 트윗이 포함되어 있으며, 이 중 41%가 공격적으로 주석되었다.
대부분의 트윗은 0-20개의 토큰으로 구성되어 있다.
Quotes
"신할라어는 스리랑카에서 1,700만 명 이상이 사용하는 저자원 언어이지만, 온라인 상의 공격적 언어 식별 연구는 제한적이었다."
"SOLD는 신할라어 공격적 언어 식별을 위한 첫 번째 대규모 공개 데이터셋이다."