Grunnleggende konsepter
オランダ語のコリファレンス解決システムは、伝統的な性別の代名詞に比べて、性別中立的な代名詞の処理が劣っている。カウンターファクチュアルデータ拡張によって、この性別バイアスを大幅に軽減できる。
Sammendrag
本研究は、オランダ語のコリファレンス解決システムの性別中立的な代名詞に対する性能を評価し、その偏りを是正する手法を検討した。
主な結果は以下の通り:
オランダ語のコリファレンス解決システムは、伝統的な性別の代名詞に比べて、性別中立的な代名詞の処理が劣っている。特に、「die」代名詞の処理が最も困難であった。
2つの偏り是正手法を検討した:
「delexicalization」は性能向上に効果がなかった。
「Counterfactual Data Augmentation (CDA)」は、性別中立的な代名詞の処理精度を大幅に向上させた。特に、少量のデータでも効果的であった。
CDAは、これまで見たことのない新しい代名詞(ネオプロノウン)の処理にも有効であった。
以上より、CDAは、オランダ語のコリファレンス解決システムの性別バイアスを効果的に軽減できる手法であることが示された。少量のデータでも適用可能で、新しい代名詞にも対応できるため、実用的な偏り是正手法といえる。
Statistikk
性別中立的な代名詞「hen」を使う文の正解率は75.85%であり、男性代名詞「hij」の88.36%と比べて12.51ポイント低かった。
性別中立的な代名詞「die」を使う文の正解率は57.49%と、さらに低かった。
Sitater
"オランダ語の性別中立的な代名詞は2016年に導入されたばかりで、英語の単数they ほど一般的ではない。"
"NLPモデルが非バイナリーの個人を抹消したり誤って性別を付与したりすることで、トランスジェンダーの人々の周辺化に貢献する可能性がある。"