insight - 자연어 처리 - # 베트남 소셜 미디어 텍스트에서의 대상 기반 혐오 발언 탐지

베트남 소셜 미디어 텍스트에서 혐오 발언 탐지를 위한 대상의 증오 활용

Core Concepts

이 연구는 베트남 소셜 미디어 텍스트에서 대상 기반 혐오 발언 탐지를 위한 새로운 데이터셋과 모델을 제안한다.

Abstract

이 연구는 베트남 소셜 미디어 텍스트에서 혐오 발언 탐지를 위한 새로운 접근법을 제안한다. 먼저 ViTHSD라는 새로운 데이터셋을 구축했다. 이 데이터셋은 10,000개의 댓글로 구성되어 있으며, 각 댓글은 5개의 대상(개인, 집단, 종교/신념, 인종/민족, 정치)과 3개의 수준(깨끗, 공격적, 혐오)으로 라벨링되어 있다. 이 데이터셋을 바탕으로 대상 기반 혐오 발언 탐지를 위한 베이스라인 모델을 제안했다. 이 모델은 Bi-GRU-LSTM-CNN 아키텍처와 사전 훈련된 BERTology 모델을 결합한 것이다. 실험 결과, XLM-R 모델이 대상 탐지 과제에서 가장 좋은 성능을 보였고, ViSoBERT 모델이 대상과 수준 탐지 과제에서 가장 좋은 성능을 보였다. 또한 온라인 스트리밍 시스템을 제안하여 실시간으로 소셜 미디어 댓글을 처리하고 대상 기반 혐오 발언을 탐지할 수 있도록 했다.

Stats

대상 탐지 과제에서 XLM-R 모델의 F1 점수는 71.62%이다. 대상과 수준 탐지 과제에서 XLM-R 모델의 F1 점수는 50.84%이다. ViSoBERT 모델의 대상 탐지 과제 F1 점수는 70.10%이고, 대상과 수준 탐지 과제 F1 점수는 51.12%이다.

Quotes

"Toxic content and harmful speech are now very popular on the Internet. With the growth of social network users, toxic content will continue to spread rapidly." "Besides, the author in [6] introduces a solution for hate speech detection on social networks by the streaming approach using the online streaming platform, which helps the system process for real-time processing." "Inheriting from the hate speech detection definition from [3], hate speech contains two main components: the target and the hate content aimed at the target."

Key Insights Distilled From

Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts

by Cuong Nhat V... at arxiv.org 05-01-2024

https://arxiv.org/pdf/2404.19252.pdf

Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts

Deeper Inquiries

질문 1

소셜 미디어 사용자들이 혐오 발언을 피하기 위해 사용하는 은어, 약어, 은어 등을 효과적으로 처리하는 방법은 무엇일까? 답변 1 여기에

질문 2

대상과 수준 탐지 과제의 성능 향상을 위해 어떤 추가적인 특징 엔지니어링 기법을 적용할 수 있을까? 답변 2 여기에

질문 3

이 연구에서 제안한 온라인 스트리밍 시스템을 다른 언어권의 소셜 미디어 데이터에 적용하면 어떤 결과를 얻을 수 있을까? 답변 3 여기에

베트남 소셜 미디어 텍스트에서 혐오 발언 탐지를 위한 대상의 증오 활용

Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts

질문 1

질문 2

질문 3

Get PDF Summary in Seconds