本研究は、自然言語処理(NLP)モデルにおけるバイアスの3つの異なる源泉(表現バイアス、選択バイアス、オーバーアンプリフィケーションバイアス)を調査し、それらがトキシシティ検出タスクの公平性にどのような影響を及ぼすかを検討した。
まず、代表的な3つの言語モデル(BERT、ALBERT、RoBERTa)を用いてトキシシティ検出タスクを行い、性別、人種、宗教の3つの感受性属性に基づいて公平性を評価した。その結果、使用するデータセットの特性(バランスの取れたデータセットか否か)が公平性の評価に大きな影響を与えることが明らかになった。
次に、各バイアスの影響を調べた。表現バイアスは一貫して公平性と正の相関があることが示された。一方、選択バイアスとオーバーアンプリフィケーションバイアスの影響がより大きいことが明らかになった。特に、オーバーアンプリフィケーションバイアスの除去が最も効果的で、トキシシティ検出の公平性を大幅に改善することが分かった。
最後に、これらの知見に基づき、トキシシティ検出タスクの公平性を確保するためのガイドラインを提案した。
To Another Language
from source content
arxiv.org
Djupare frågor