Core Concepts
大規模言語モデル(LLMs)に対する人々の認識とバイアスについての体系的レビューから、異なるバイアスや関連概念が研究され、LLMsのパフォーマンスへの評価が多様であることが明らかになった。
Abstract
この研究では、231件の論文から15件を選定し、人間評価者を募集してLLMsとの経験を評価した。研究では、異なるバイアスや関連概念、4つの広範なLLMアプリケーション領域、評価者たちが持つLLMsパフォーマンスへの認識、これらの認識に影響を与える要因、およびLLMアプリケーションに対する懸念について報告されています。これらの知見は開発者やデザイナーが将来的なユーザ中心型LLMs開発や適用に役立つだけでなく、バイアスを考慮した人間中心AI設計全般にも一般化できます。
Stats
15件の論文から選定された
231件からフルテキストレビューされた15件
20ページまでの論文あり
https://doi.org/10.1145/nnnnnnn.nnnnnnn
Quotes
"Previous work has shown that different descriptions of gender-based violence (GBV) influence the reader’s perception of who is to blame for the violence, possibly reinforcing stereotypes which see the victim as partly responsible, too."
"It is insufficient to merely exclude toxic data from training, as the model would not know how to answer hostile out-of-domain inputs, and positive biases where models tend to agree rather than contradict would lead to undesirable outcomes."
"Language models tend to output repetitive and vague responses. They have no model of the truth; they are learning correlations from large amounts of text and thus are able to generate falsehoods."