Resumé
この研究は、大規模言語モデル(LLM)の性格特性を心理学的な観点から包括的に分析しています。
5つの要因(指示、項目、言語、選択肢のラベル、選択肢の順序)を系統的に変化させて、GPT-3.5-Turbo、GPT-4-Turbo、Gemini-Pro、LLaMA-3.1の4つのLLMの信頼性を評価しました。
2,500の設定で分析した結果、LLMは Big Five Inventory(BFI)に対して一貫した反応を示し、十分な信頼性があることが明らかになりました。
さらに、特定の指示によってGPT-3.5-Turboが多様な性格特性を表現できることを示しました。環境の設定、性格の割り当て、キャラクターの演じ分けなどの手法を用いて、LLMの性格分布を操作できることが分かりました。
この研究は、LLMの性格特性を理解し、多様な人間集団を正確に表現する能力を持つLLMを開発するための重要な知見を提供しています。
Statistik
GPT-3.5-Turboの5つの性格特性の標準偏差は0.3、0.3、0.4、0.3、0.4で、人間データの0.7、0.7、0.9、0.7、0.8よりも低い。
GPT-3.5-Turboの2023年9月中旬から2024年1月末までの2週間ごとの測定結果に有意な差はなく、高い再テスト信頼性が示された。
Citater
"LLMsの性格特性を理解し、多様な人間集団を正確に表現する能力を持つLLMを開発することは重要である。"
"LLMsは一貫した性格特性を示し、BFIに対して十分な信頼性があることが明らかになった。"
"特定の指示によってGPT-3.5-Turboが多様な性格特性を表現できることが示された。"