Core Concepts
다양한 기존 데이터셋을 활용하여 일반적인 악성 언어에 대한 이해를 높이고, 이를 바탕으로 소수의 타겟 데이터로도 효과적으로 모델을 특화시킬 수 있다.
Abstract
이 연구는 소셜 미디어 플랫폼의 다양한 요구사항에 대응하기 위해 기존에 구축된 악성 언어 탐지 데이터셋을 활용하는 방법을 제안한다.
먼저 다양한 외부 데이터셋을 활용하여 일반적인 악성 언어에 대한 이해를 높이는 모델을 학습한다. 이후 소수의 타겟 데이터로 해당 모델을 특화시킴으로써, 새로운 요구사항에 대응할 수 있는 모델을 효율적으로 구축할 수 있다.
실험 결과, 제안 방법은 다양한 언어와 플랫폼에서 우수한 성능을 보였다. 특히 소수의 타겟 데이터만 있는 경우에도 효과적이었으며, 심지어 타겟 데이터에 없는 레이블에 대해서도 성능 향상을 보였다. 이는 제안 방법이 일반적인 악성 언어에 대한 이해를 높일 수 있음을 보여준다.
Stats
소셜 미디어 플랫폼에서 악성 콘텐츠 탐지를 위해 다양한 언어와 플랫폼에 걸쳐 많은 데이터셋이 구축되었다.
그러나 새로운 요구사항이 지속적으로 발생하여 새로운 데이터셋 구축이 필요한 상황이다.
데이터셋 구축 비용을 줄이기 위해 기존 데이터셋을 활용하는 방법이 제안되었다.
Quotes
"이미 다양한 속성과 레이블 집합을 가진 많은 주석 코퍼스가 생성되었지만, 악성 발언의 형태와 대상은 계속 변화하고 있다."
"새로운 코퍼스의 주석은 비용이 많이 들기 때문에, 이미 가지고 있는 데이터셋을 활용하여 새로운 대상 레이블 집합 및/또는 언어에 대한 모델을 저렴하게 구축하는 것이 우리의 목표이다."