核心概念
大規模言語モデル(LLM)は、人間と似た意思決定パターンを示すが、社会人口統計学的特徴を組み込むと、バイアスが生じ、倫理的な懸念が生じる可能性がある。
要約
大規模言語モデルの意思決定行動分析:バイアスと倫理的課題
本稿は、不確実な状況下における大規模言語モデル(LLM)の意思決定行動を評価するためのフレームワークを提案し、人間の意思決定との比較分析を行っています。
近年、ChatGPT、Claude、GeminiなどのLLMは、人間のような高度な応答を生成することで様々な分野に革命をもたらしています。LLMは、日常生活の質問応答から、医療、金融などの分野における複雑な意思決定支援システムまで、幅広く活用されています。LLMが意思決定プロセスに不可欠なものになるにつれて、LLMが人間と比較してどのようにリスクや不確実性を処理するのか、社会人口統計学的特徴がLLMの意思決定プロセスに導入された場合にどの程度バイアスを示すのか、LLMが様々な状況や集団において公平かつ倫理的な意思決定を行うことができると信頼できるのか、といった疑問が浮上してきます。
本稿では、行動経済学の理論に基づき、LLMの意思決定行動を評価するための包括的なフレームワークを開発しました。具体的には、Tanaka、Camerer、Nguyenによって提案された価値関数モデル(TCNモデル)を用いて、リスク選好、確率加重、損失回避という3つの主要な行動パラメータを推定します。
実験と結果
ChatGPT-4-Turbo、Claude-3-Opus、Gemini-1.0-Proの3つの最先端の商用LLMモデルを対象に、コンテキストフリーな設定と、性別、年齢、学歴、婚姻状況、居住地などの社会人口統計学的特徴を組み込んだ設定の2つのコンテキスト設定で実験を行いました。
その結果、LLMは一般的に、リスク回避、損失回避、小さな確率の過大評価など、人間と似たパターンを示すことが明らかになりました。しかし、これらの行動がどの程度表現されるかは、LLMによって大きく異なりました。
社会人口統計学的特徴の影響
社会人口統計学的特徴を組み込むと、LLMの意思決定行動に顕著な変化が見られました。例えば、Claudeは、若いユーザーや農村部のユーザーに対して、小さな確率を過大評価する傾向が有意に高くなりました。また、ChatGPTは、女性の意思決定において、リスク回避の低下が見られました。