核心概念
大規模言語モデル(LLM)は、人間の認識や統計データに比べて、職業における性差に関する中立的な視点を達成するのに苦労しており、依然として性差バイアスが存在する。
要約
大言語モデルにおける性差バイアスの評価
本論文は、大規模言語モデル(LLM)における性差バイアスを、人間の認識、米国労働統計データ、そして50%の中立ベンチマークと比較することで調査した研究論文である。
LLMが職業の性役割について、人間の認識、社会的なステレオタイプ、そして実際のデータとどのように整合しているかを明らかにする。
LLMの出力における性差バイアスを、人間の認識、米国労働統計データ、そして50%の中立ベンチマークと比較して評価する。
Kennisonらの性差認識データセットと米国労働統計データを用いて、職業と性別の関連性に関するデータセットを作成した。
5つのOpenAIモデル(gpt-3.5-turbo、gpt-4、gpt-4-turbo、gpt-4o、gpt-4o-mini)を用いて、職業に関する文章を与え、その職業の主体を男性と女性のどちらと認識するかを予測させた。
モデルの出力と、人間の認識、統計データ、50%の中立ベンチマークとの差異をKLダイバージェンスを用いて測定した。