Core Concepts
코드 전환된 소셜 미디어 텍스트에서 선전 기법을 자동으로 탐지하는 것이 중요하다.
Abstract
이 연구는 코드 전환된 텍스트에서 선전 기법을 탐지하는 새로운 과제를 제안한다. 영어와 로만 우르두어 간 코드 전환된 1,030개의 텍스트를 수집하고 20가지 선전 기법으로 주석을 달았다. 다양한 실험을 수행하여 코드 전환된 텍스트를 직접 모델링하는 것이 번역된 텍스트를 사용하는 것보다 더 나은 성능을 보인다는 것을 발견했다. 또한 다국어 및 교차 언어 모델이 단일 언어 모델보다 우수한 성능을 보였다.
Stats
선전 기법 중 가장 많은 비중을 차지하는 것은 "Loaded Language"로 전체의 26.9%를 차지한다.
"Exaggeration/Minimisation"은 전체의 14.2%를 차지한다.
"Smears"와 "Name calling/Labeling"은 각각 14.8%와 21.8%를 차지한다.
Quotes
"코드 전환된 소셜 미디어 텍스트에서 선전 기법을 자동으로 탐지하는 것이 중요하다."
"코드 전환된 텍스트를 직접 모델링하는 것이 번역된 텍스트를 사용하는 것보다 더 나은 성능을 보인다."
"다국어 및 교차 언어 모델이 단일 언어 모델보다 우수한 성능을 보였다."