核心概念
言語モデルの偏見は、明示的な集団メンバーシップの変更を通じて測定されることが多いが、これにより、優位な集団に関連付けられたテキストが不自然に見なされる可能性がある。これは、言語モデルの訓練データにおける報告バイアスが原因である可能性がある。
要約
本研究では、言語モデルの偏見を定量的に評価する際の問題点を指摘している。一般的なアプローチでは、テンプレートを使って特定の人種や民族に関連付けられたテキストを生成し、言語モデルの出力を比較することで偏見を測定する。しかし、著者らは、このアプローチには問題があると指摘する。
具体的には、言語モデルの訓練データには報告バイアスが存在し、白人に関連付けられたテキストは明示的に言及されることが少ない傾向にある。一方、テンプレートでは白人に関連付けられたテキストが明示的に生成される。この不一致により、言語モデルが白人に関連付けられたテキストを不自然に扱う可能性があり、これが偏見として観測される可能性がある。
著者らは、複数のデータセットと言語モデルを用いた実験を行い、この問題を実証的に示している。白人に関連付けられたテキストに対して、言語モデルが負の感情を過剰に検出する傾向が見られた。これは、真の偏見ではなく、訓練データと評価手法の不整合によるものだと考えられる。
今後の課題として、報告バイアスの影響を軽減するための評価手法の改善や、マルチモーダルモデルの活用などが提案されている。言語モデルの公平性を評価する際は、訓練データの特性を十分に考慮する必要があることが示唆された。
統計
言語モデルは、白人に関連付けられたテキストを、他の人種に関連付けられたテキストと比べて、より高い割合で負の感情を示すと判断する傾向がある。