本研究は、大規模言語モデルを表形式データの分類に適用した際の公平性について包括的に調査したものである。
まず、GPT-3.5を用いた零shot学習の実験では、性別や人種といった保護属性に基づく大きな公平性の格差が観察された。これは、大規模言語モデルが訓練データに含まれる社会的偏見を継承していることを示唆している。
次に、少量事例(in-context learning)を用いた実験では、公平性の一部改善が見られたものの、依然として従来の機械学習手法よりも大きな格差が残存した。さらに、少量事例の正解ラベルを反転させると、公平性指標の格差が大幅に縮小したことから、大規模言語モデル自体に内在する偏見の存在が明らかになった。
最後に、全訓練データを用いたファインチューニングでも、公平性の改善は見られたが、データのリサンプリングは大規模言語モデルには効果的ではないことが示された。
以上の結果から、大規模言語モデルは表形式データの分類において深刻な公平性の問題を抱えており、単純な手法では十分な解決が困難であることが明らかになった。高リスクな分野での活用を考えると、大規模言語モデルの偏見を効果的に軽減する新たな手法の開発が急務であると言える。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yanchen Liu,... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2310.14607.pdfDeeper Inquiries