本研究では、5つの言語(英語、イタリア語、オランダ語、ドイツ語、スウェーデン語)の10のベンチマークデータセットを評価し、すべてのデータセットにバイアスが存在することを明らかにした。特に、男性バイアス(女性に対する偏見)が多くのデータセットで確認された。
3つの新しい言語(イタリア語、オランダ語、ドイツ語)のデータセットを作成し、合計で約600万件のラベル付きサンプルを提供した。これらのデータセットを使って、最先端の多言語事前学習モデルであるmT5とmBERTを評価した。
さらに、有毒なコメントにもバイアスが含まれているという仮定を検証するため、MABデータセットからランダムに200件のサンプルを抽出し、アノテーションを行った。その結果、有毒なコメントにもバイアスが存在することが確認された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések