Core Concepts
주석자 지원 전략을 통해 다양한 적대적 사례를 효율적으로 수집하여 혐오 발언 탐지 모델의 강건성을 높일 수 있다.
Abstract
이 논문은 독일어 적대적 혐오 발언 데이터셋 GAHD를 소개한다. GAHD는 4라운드의 동적 적대적 데이터 수집(DADC) 과정을 통해 구축되었다. 각 라운드에서는 주석자들을 다양한 방식으로 지원하여 효율적이고 다양한 적대적 사례를 수집하였다.
R1에서는 주석자들이 자유롭게 적대적 사례를 생성하였다. R2에서는 영어 적대적 사례를 독일어로 번역하여 주석자들이 검증하고 새로운 사례를 생성하도록 하였다. R3에서는 모델이 혐오 발언으로 잘못 분류한 신문 문장을 주석자들이 검증하도록 하였다. R4에서는 이전 라운드의 어려운 사례를 바탕으로 주석자들이 대조 사례를 생성하도록 하였다.
실험 결과, GAHD를 활용하여 모델을 학습하면 기존 데이터셋 대비 18-20%p 성능이 향상되었다. 또한 다양한 주석자 지원 전략을 혼합하는 것이 가장 효과적이었다. GAHD는 대형 언어 모델과 상용 콘텐츠 필터링 API에도 도전적인 것으로 나타났다.
Stats
혐오 발언 탐지 모델의 성능이 기존 데이터셋 대비 18-20%p 향상되었다.
다양한 주석자 지원 전략을 혼합하는 것이 가장 효과적이었다.
대형 언어 모델과 상용 콘텐츠 필터링 API도 GAHD에서 어려움을 겪었다.
Quotes
"혐오 발언 탐지 모델은 학습 데이터의 품질만큼 강력할 수 있다."
"적대적 데이터 수집은 시간과 비용이 많이 들며, 주석자의 창의성이 제한적일 수 있다."
"다양한 주석자 지원 전략을 혼합하면 더 효과적인 적대적 사례를 수집할 수 있다."