Core Concepts
大規模言語モデル(LLMs)における社会的バイアスの評価と緩和手法に関する包括的な調査。
Stats
LLMsは「巨大なインターネットベースのデータ」で訓練されており、既存のステレオタイプや不適切な言葉を受け継ぎ、既に脆弱でマージナライズされたコミュニティに不均等な影響を与える可能性がある。
バイアス評価メトリクスは異なる基本レベルでバイアスを評価するために使用されており、埋め込み、確率、生成されたテキストなどが含まれている。
Quotes
"Rapid advancements of large language models (LLMs) have enabled the processing, understanding, and generation of human-like text."
"Despite the growing recognition of the biases embedded in LLMs has emerged an abundance of works proposing techniques to measure or remove social bias."