이 논문은 온라인 상의 유해 발언 문제를 다룬다. 유해 발언은 명시적 유해 발언과 암묵적 유해 발언으로 구분된다. 명시적 유해 발언은 직접적인 공격적 언어를 포함하지만, 암묵적 유해 발언은 고정관념과 간접적인 언어를 사용한다. 따라서 모델이 암묵적 유해 발언을 탐지하고 설명하는 것이 중요하다.
기존 연구는 유해 발언 탐지와 설명을 텍스트 생성 문제로 다루었지만, 이는 오류 전파 문제를 야기할 수 있다. 또한 이러한 모델의 탐지 성능이 탐지 전용 모델보다 낮다는 것이 실험적으로 확인되었다.
이에 저자들은 ToXCL이라는 통합 프레임워크를 제안한다. ToXCL은 3개의 모듈로 구성된다:
실험 결과, ToXCL은 기존 모델들을 크게 능가하는 성능을 보였다. 특히 암묵적 유해 발언 탐지와 설명 모두에서 새로운 최고 성능을 달성했다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究