Core Concepts
이 연구는 온라인 플랫폼에서 암묵적으로 표현된 유해 콘텐츠의 대상을 식별하는 새로운 과제를 제안하고, 이를 위해 기존 데이터셋을 활용하여 대상 범위 주석이 포함된 새로운 데이터셋 Implicit-Target-Span(ITS)을 구축했다. 또한 이 과제에 대한 기준선 모델을 제시하고 분석하여 향후 연구를 위한 과제와 개선 방향을 제시한다.
Abstract
이 연구는 온라인 플랫폼에서 암묵적으로 표현된 유해 콘텐츠의 대상을 식별하는 새로운 과제인 암묵적 대상 범위 식별(iTSI)을 제안한다.
연구팀은 기존 3개의 암묵적 유해 콘텐츠 데이터셋(IHC, DynaHate, SBIC)을 활용하여 Implicit-Target-Span(ITS) 데이터셋을 구축했다. ITS 데이터셋에는 총 57,000개의 주석된 샘플이 포함되어 있으며, 샘플당 평균 1.7개의 대상 범위가 표시되어 있다.
연구팀은 ITS 데이터셋을 활용하여 기준선 모델 TargetDetect를 개발했다. TargetDetect는 순차 태깅 프레임워크를 기반으로 하며, BERT, RoBERTa 등의 트랜스포머 인코더를 사용한다. 실험 결과, RoBERTa-Large 인코더가 가장 좋은 성능을 보였다. 또한 ITS 데이터셋과 PLEAD 데이터셋 간 성능 비교를 통해 ITS 데이터셋이 유사한 수준의 성능을 보임을 확인했다.
오류 분석 결과, 경계 오류, 예측 대상 범위 수 불일치 등의 문제가 발견되었다. 또한 난독화된 대상, 암묵적이고 미묘한 대상 참조, 데이터셋 한계 등이 모델 실패의 주요 원인으로 나타났다.
이 연구는 암묵적 유해 콘텐츠의 대상 범위 식별을 위한 새로운 과제와 데이터셋을 제시하고, 기준선 모델을 제공함으로써 향후 연구를 위한 기반을 마련했다.
Stats
암묵적 대상 범위를 포함하는 유해 콘텐츠 데이터셋에서 약 19,000개의 고유한 대상이 발견되었다.
이는 기존 데이터셋에서 약 1,000개의 대상이 발견된 것에 비해 약 20배 증가한 수치이다.
Quotes
"암묵적 언어를 사용하는 유해 콘텐츠를 탐지하고 완화하는 것은 매우 어렵다."
"대상 범위를 식별하는 것은 더 미묘한 유해 발언을 인식하고 디지털 플랫폼의 유해 콘텐츠를 탐지하는 데 필수적이다."