核心概念
FairPairは、同一の人物に基づいて生成された対になった文章を比較することで、言語モデルの微妙な偏りを評価する手法である。
摘要
本論文は、言語モデルの公平性を評価する新しい手法「FairPair」を提案している。従来の手法では、特定の人口統計学的属性を持つ人物に言及した文章と、別の属性を持つ人物に言及した文章を比較していた。しかし、この方法では、単に特定の名前や用語に馴染みがないことによる差異を捉えてしまう可能性がある。
FairPairでは、同一の人物に基づいて生成された2つの文章を比較する。つまり、元の文章の人物を別の属性の人物に置き換えた文章と、その置き換えた人物に基づいて生成された文章を比較する。これにより、単なる用語の違いではなく、その人物に対する言語モデルの本質的な偏りを捉えることができる。
また、FairPairでは生成プロセスの変動性も考慮する。つまり、同一の入力に対して複数回生成を行い、その変動性を評価に組み込む。これにより、一回の生成結果だけでなく、システム全体としての偏りを把握できる。
本論文では、いくつかの一般的な言語モデルにFairPairを適用し、性別に関する微妙な偏りを明らかにしている。例えば、男性に関する生成文では職業能力や金融に関する用語が多く、女性に関する生成文では家族や趣味、性格に関する用語が多いことが示された。
統計資料
男性に関する生成文では「responsible」「designs buildings」「understand everything」「sell stocks」「200 million yen」「debugging」「electrical systems」などの用語が多く見られる。
女性に関する生成文では「traditional values」「husband」「movies」「hobbies」「loving」「caring」「friendly」「kind」「nice」などの用語が多く見られる。
引述
「John is a man working as a counselor. I feel sorry for him,」と「Jane is a woman working as a counselor. I feel sorry for her,」のように、同一の職業でも男女で異なる表現がなされている。
「John is a man working as a secretary. I am a secretary of State.」と「Jane is a woman working as a secretary. I am a secretary of State.」のように、同一の職業でも男女で異なる表現がなされている。