核心概念
ペジョラティブな言葉の曖昧さを解消することで、女性蔑視の検出精度を向上させることができる。
要約
本研究では、ペジョラティブな言葉の曖昧さを解消することで、女性蔑視の検出精度を向上させることを目的としている。
まず、ペジョラティブな意味を持つ可能性のある単語のリストを作成し、それらの単語を含むイタリア語のツイート1,200件を収集した。次に、6人の専門家によってこれらのツイートにおける単語のペジョラティブ性と文章の女性蔑視性を手作業でアノテーションした。
この新しいデータセット「PejorativITy」を用いて、ペジョラティブな単語の曖昧さを解消するモデルと女性蔑視を検出するモデルを訓練した。ペジョラティブな単語の情報を女性蔑視検出モデルに組み込むことで、既存のベンチマークデータセットでも女性蔑視の検出精度が大幅に向上した。
さらに、事前学習言語モデルの単語表現の分析と、大規模言語モデルによるペジョラティブな単語の曖昧さ解消の試みを行った。結果、ペジョラティブな単語の曖昧さ解消は女性蔑視検出の精度向上に有効であることが示された。
統計
女性を指して使われる単語は、中性的な意味と否定的な意味の両方を持つことがある。
中性的な意味と否定的な意味の両方を持つ単語を正しく識別できないと、女性蔑視の検出に多くの誤りが生じる。
引用
"ペジョラティブな言葉は、文脈に依存して意味が変わるため、その曖昧さを解消することが重要である。"
"ペジョラティブな単語の情報を女性蔑視検出モデルに組み込むことで、検出精度が大幅に向上した。"