Core Concepts
大規模言語モデルは訓練データの偏見を再現し、さらに悪化させる可能性がある。本研究では、ステレオタイプ検出のための新しいデータセットを開発し、様々な機械学習アプローチを探索することで、ステレオタイプ検出の基準を確立する。さらに、説明可能な人工知能手法を使用して、モデルの決定プロセスを分析し、最新の大規模言語モデルにおけるステレオタイプの存在を評価する。
Abstract
本研究は、大規模言語モデル(LLM)のバイアス評価に焦点を当てている。特に、テキストベースのステレオタイプ分類と偏見ベンチマークに取り組んでいる。
まず、51,867件のインスタンスからなる「Multi-Grain Stereotype (MGS)」データセットを開発した。このデータセットには、ジェンダー、人種、職業、宗教に関するステレオタイプが含まれている。次に、様々な機械学習アプローチを使ってベースラインを確立し、異なるアーキテクチャとサイズのLLMを微調整した。
ステレオタイプ検出器の決定プロセスを理解するために、SHAP、LIME、BERTVizなどの説明可能な人工知能(XAI)手法を使用した。さらに、ステレオタイプ喚起プロンプトを開発し、最新のLLMにおけるステレオタイプの存在を評価した。
主な発見は以下の通り:
複数の次元でステレオタイプ検出器をトレーニングすると、単一次元のモデルよりも優れた結果が得られる。
MGSデータセットを使用すると、個別のデータセットを使用するよりも、in-datasetおよびcross-datasetの一般化能力が向上する。
GPTファミリーの新しいバージョンでは、ステレオタイプの含有量が減少している。
Stats
大規模言語モデルの訓練には、書籍コーパスやウィキペディアコーパスなどの大規模なデータセットが使用されているが、これらのデータセットには体系的な偏見が含まれている可能性がある。
偏見は、政治的な極端化や人種差別的な法システムなどの実世界への悪影響を引き起こす可能性がある。
既存の研究は、LLMの偏見ベンチマークかテキストベースのステレオタイプ検出に焦点を当てているが、両者の相互作用は十分に検討されていない。
Quotes
"大規模言語モデルは訓練データの偏見を再現し、さらに悪化させる可能性がある。"
"ステレオタイプ検出は、公平性評価のための包括的なフレームワークに組み込まれる重要性が高まっている。"
"偏見の軽減は、人種や性別に関して進展が見られるが、職業や宗教に関する偏見の軽減は十分ではない。"