Core Concepts
성차별적 언어는 은유적 언어로 표현되는 경우가 많으며, 중립적인 단어가 부정적 의미로 사용될 수 있다. 이러한 단어의 의미를 구분하는 것이 성차별 탐지에 도움이 될 수 있다.
Abstract
이 연구에서는 PejorativITy라는 새로운 이탈리아어 트위터 데이터셋을 구축하였다. 이 데이터셋은 단어 수준에서 성차별적 언어와 문장 수준에서 성차별을 수동으로 주석하였다. 이 정보를 활용하여 성차별 탐지 모델의 성능을 향상시키는 두 가지 접근법을 제안하였다: 1) 성차별적 정보 연결, 2) 모호한 단어를 명확한 단어로 대체. 실험 결과, 두 접근법 모두 분류 성능을 크게 향상시켰으며, 단어 의미 구분이 성차별 탐지를 위한 유망한 선행 단계임을 보여주었다. 또한 문맥 단어 임베딩 분석과 프롬프팅을 통해 대규모 언어 모델의 성차별적 단어 이해 능력을 분석하였다.
Stats
성차별적 트윗의 경우 전체 데이터셋의 33.1%를 차지한다.
성차별적 단어가 포함된 트윗은 전체 데이터셋의 32.6%를 차지한다.
성차별적 단어가 포함되지 않은 트윗은 전체 데이터셋의 0.5%를 차지한다.
Quotes
"성차별적 언어는 종종 은유적 언어로 표현된다. 중립적인 단어가 부정적 의미로 사용될 수 있다."
"단어 의미 구분이 성차별 탐지를 위한 유망한 선행 단계임을 보여주었다."