핵심 개념
다양한 도메인과 인구통계학적 특성을 가진 데이터를 활용하여 일반화된 온라인 괴롭힘 탐지 모델을 개발할 수 있다.
초록
이 연구는 공인물에 대한 온라인 괴롭힘을 탐지하기 위해 DODO 데이터셋을 활용하여 언어 모델을 학습하고 평가하였다. 주요 결과는 다음과 같다:
- 다양한 도메인과 인구통계학적 특성의 데이터를 소량 활용하는 것이 일반화 성능 향상에 큰 도움이 된다.
- 도메인 간 전이보다 인구통계학적 특성 간 전이가 더 효과적이다.
- 모든 도메인과 인구통계학적 특성이 일반화된 모델 학습에 동등하게 기여하지는 않는다.
- 데이터셋 간 유사성은 전이 가능성을 나타내는 신호가 된다.
이 연구 결과는 온라인 해악 모니터링을 위한 자동화된 시스템 개발에 활용될 수 있다. 특히 제한된 리소스 하에서도 비용 효율적이고 일반화된 모델을 구축할 수 있는 방향을 제시한다.
통계
온라인 괴롭힘은 공인물에게 더 많이 발생하며, 개인적이고 공개적인 공격으로 이어질 수 있다.
괴롭힘으로 인해 공인물이 공적 생활에서 철회되는 등 부정적 영향이 있다.
수작업 조사로는 한계가 있어 기계학습 기반 자동화 시스템이 필요하다.
인용구
"공인물과 시민 간 건설적인 토론은 민주주의 사회에 핵심적이다."
"온라인 상호작용의 즉시성, 용이성, 익명성으로 인해 괴롭힘 문제가 일상화되었다."