本論文は、言語モデルの公平性を評価する新しい手法「FairPair」を提案している。従来の手法では、特定の人口統計学的属性を持つ人物に言及した文章と、別の属性を持つ人物に言及した文章を比較していた。しかし、この方法では、単に特定の名前や用語に馴染みがないことによる差異を捉えてしまう可能性がある。
FairPairでは、同一の人物に基づいて生成された2つの文章を比較する。つまり、元の文章の人物を別の属性の人物に置き換えた文章と、その置き換えた人物に基づいて生成された文章を比較する。これにより、単なる用語の違いではなく、その人物に対する言語モデルの本質的な偏りを捉えることができる。
また、FairPairでは生成プロセスの変動性も考慮する。つまり、同一の入力に対して複数回生成を行い、その変動性を評価に組み込む。これにより、一回の生成結果だけでなく、システム全体としての偏りを把握できる。
本論文では、いくつかの一般的な言語モデルにFairPairを適用し、性別に関する微妙な偏りを明らかにしている。例えば、男性に関する生成文では職業能力や金融に関する用語が多く、女性に関する生成文では家族や趣味、性格に関する用語が多いことが示された。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jane Dwivedi... lúc arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06619.pdfYêu cầu sâu hơn