toplogo
Sign In

페이스북 콘텐츠 정책에 부합하지 않는 혐오 스피치 탐지기 성능 평가


Core Concepts
페이스북의 41개 혐오 스피치 정책에 부합하는 혐오 및 비혐오 문장 데이터셋 HateModerate를 구축하고, 이를 통해 최신 혐오 스피치 탐지기의 정책 준수 성능을 평가하였다. 평가 결과, 대부분의 모델이 정책 준수에 실패하는 것으로 나타났으며, HateModerate를 활용한 모델 fine-tuning이 정책 준수 성능 향상에 효과적임을 확인하였다.
Abstract
이 연구는 페이스북의 41개 혐오 스피치 정책에 부합하는 혐오 및 비혐오 문장 데이터셋 HateModerate를 구축하였다. 데이터셋 구축을 위해 28명의 대학원생 annotator가 6단계의 과정을 거쳤다. 첫째, annotator들이 기존 데이터셋에서 각 정책에 부합하는 혐오 문장을 검색하였다. 둘째, 일부 정책에 대해 충분한 혐오 문장이 확보되지 않아 GPT-3를 활용해 추가 생성하였다. 셋째, 추가 annotator들이 각 문장이 정책에 부합하는지 검증하였다. 넷째, 각 정책에 대해 기존 데이터셋에서 비혐오 문장을 유사도 기반으로 검색하였다. 다섯째, 부족한 비혐오 문장은 GPT-3로 생성하였다. 여섯째, 추가 annotator들이 비혐오 문장을 검증하였다. 구축된 HateModerate 데이터셋은 총 7,704개의 문장(혐오 4,796개, 비혐오 2,908개)으로 구성되어 있다. 이를 활용해 Google Perspective API, OpenAI Moderation API, Facebook RoBERTa, Cardiff NLP RoBERTa 등 최신 혐오 스피치 탐지기의 정책 준수 성능을 평가하였다. 평가 결과, 대부분의 모델이 정책 준수에 실패하는 것으로 나타났다. 특히 심각도가 낮은 정책에 대해 모델 성능이 낮았다. 이후 HateModerate를 활용해 기존 모델을 fine-tuning한 결과, 정책 준수 성능이 크게 향상되었다. 이를 통해 HateModerate가 모델 성능 향상에 효과적임을 확인하였다.
Stats
대부분의 모델이 심각도가 낮은 정책에 대해 높은 실패율을 보였다. OpenAI 모델이 전반적으로 가장 우수한 성능을 보였다. 대부분의 모델이 비혐오 문장에 대해 높은 실패율을 보였다.
Quotes
"To protect users from massive hateful content, existing work has been vigorously investigating new NLP approaches and providing new resources and open-source tools for studying hate speech detection." "Despite the existing work on hate speech, there remains an important question that is not well addressed: Do hate speech detectors' behaviors conform to platforms' content policies?"

Key Insights Distilled From

by Jiangrui Zhe... at arxiv.org 03-20-2024

https://arxiv.org/pdf/2307.12418.pdf
HateModerate

Deeper Inquiries

페이스북 이외의 다른 플랫폼에 대해서도 유사한 데이터셋을 구축하여 모델 성능을 평가할 필요가 있다.

다른 플랫폼에 대한 유사한 데이터셋을 구축하는 것은 매우 중요합니다. 이를 위해서는 해당 플랫폼의 커뮤니티 표준 가이드라인을 기반으로 한 데이터셋을 구축해야 합니다. 먼저, 해당 플랫폼의 정책을 분석하고 이를 기반으로 하는 특정 규칙 및 가이드라인을 식별해야 합니다. 그런 다음, 이러한 가이드라인에 부합하는 혐오 스피치와 비혐오 스피치 예제를 수집하고 주석을 달아야 합니다. 이를 통해 모델이 다양한 플랫폼의 정책을 준수하는 능력을 평가할 수 있습니다. 이러한 작업은 플랫폼 간의 차이점을 이해하고 모델의 일반화 능력을 향상시키는 데 도움이 될 것입니다.

기존 데이터셋의 편향성을 해결하기 위해 어떤 추가적인 데이터 수집 및 검증 방법을 고려할 수 있을까?

기존 데이터셋의 편향성을 해결하기 위해 다음과 같은 추가적인 데이터 수집 및 검증 방법을 고려할 수 있습니다. 먼저, 다양한 출처에서 데이터를 수집하여 데이터의 다양성을 확보해야 합니다. 이를 통해 모델이 다양한 유형의 혐오 스피치를 인식하고 처리하는 능력을 향상시킬 수 있습니다. 또한, 데이터를 수집할 때 특정 그룹이나 주제에 편향되지 않도록 주의해야 합니다. 데이터의 균형을 유지하고 다양성을 고려하는 것이 중요합니다. 또한, 데이터를 검증할 때는 다수의 주석자를 활용하여 일관성을 유지하고 오류를 최소화해야 합니다. 이를 통해 모델의 학습 데이터의 품질을 향상시킬 수 있습니다.

혐오 스피치 탐지 모델의 정책 준수 성능 향상을 위해 어떤 다른 접근 방식을 시도해볼 수 있을까?

혐오 스피치 탐지 모델의 정책 준수 성능을 향상시키기 위해 다음과 같은 다른 접근 방식을 시도해볼 수 있습니다. 먼저, 정책에 대한 이해를 높이기 위해 모델을 해석 가능하게 만들어야 합니다. 모델이 어떤 기준으로 판단을 내리는지 이해할 수 있도록 설명 가능한 AI 기술을 활용해야 합니다. 또한, 정책에 대한 모델의 이행을 지속적으로 모니터링하고 평가하는 메커니즘을 도입해야 합니다. 이를 통해 모델이 정책을 준수하고 있는지 실시간으로 확인할 수 있습니다. 또한, 정책에 대한 업데이트가 있을 때마다 모델을 재학습시켜야 하며, 이를 통해 모델이 최신 정책을 준수할 수 있도록 해야 합니다. 이러한 접근 방식을 통해 모델의 정책 준수 성능을 지속적으로 향상시킬 수 있습니다.
0
visual_icon
generate_icon
translate_icon
scholar_search_icon
star