この論文では、大規模言語モデル(LLM)を人間の参加者の代替として使用することの問題点を分析しています。
LLMには以下の2つの根本的な限界があることが示されています:
誤描写: LLMは特定の人口統計学的グループについて、そのグループの内部者の視点ではなく、外部者の見方を反映してしまう可能性がある。これは、LLMの訓練データにグループの所属が明示的に関連付けられていないためである。
グループの平準化: LLMは、人口統計学的グループ内の多様性を無視し、グループを一次元的に表現してしまう。これは、LLMの訓練目的が最尤の出力を生成することにあるためである。
さらに、人口統計学的属性に基づいてLLMに「アイデンティティ」を付与することには、アイデンティティの本質化につながる問題がある。
これらの限界は、LLMの訓練手法が現在の形式のオンラインテキストデータに依存し、交差エントロピーなどの尤度損失関数を使用している限り、新しいモデルでも解決されない可能性が高い。
これらの限界は、歴史的に疎外されてきた人口統計学的グループにとって有害であり、LLMを人間の参加者の代替として使用することには慎重であるべきだと主張されています。ただし、人間の参加者を補完する目的で使用する場合は、一定の軽減策を講じることで、これらの弊害を低減できる可能性がある。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor