本研究では、LLMsであるGPT-3.5がテーブルデータの分類を行う際の公平性について包括的に調査した。
まず、GPT-3.5をゼロショット設定で適用した場合、性別や人種といった保護属性に基づく公平性指標の格差が大きいことを示した。これは、LLMsが訓練データに含まれる社会的偏見を継承していることを示唆している。
次に、少量のサンプルを提示するインコンテキスト学習を行うと、公平性は部分的に改善されるものの、依然として伝統的なMLモデルよりも大きな格差が残ることを明らかにした。さらに、インコンテキストの少量サンプルのラベルを反転させると、公平性指標の格差がさらに縮小することから、LLMsに内在する偏見の存在が示唆された。
最後に、全訓練データでのファインチューニングを行っても、データのリサンプリングはLLMsの公平性改善に十分ではないことを示した。これらの結果は、LLMsに内在する偏見を効果的に軽減するための新たな手法の開発が必要であることを示唆している。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yanchen Liu,... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2310.14607.pdfDeeper Inquiries