Keskeiset käsitteet
大規模言語モデルは、抽象的な道徳的価値観と具体的な道徳的違反の評価において矛盾する、偽善的な行動を示す。
本稿では、大規模言語モデル(LLM)が道徳的な偽善者であるかどうかを、道徳基盤理論に基づいて調査した研究について解説する。
研究の背景
LLMは人工知能の中心的存在となりつつあるが、人間の重要な価値観への適合性をどのように評価するかは、依然として課題として残されている。本研究では、最新のLLMであるGPT-4とClaude 2.1が、道徳的な偽善者であるかどうかを調査した。
研究方法
本研究では、道徳基盤理論に基づく2つの調査手法を用いた。
道徳基盤質問紙(MFQ): 抽象的な道徳的判断において、どの価値観が道徳的に重要であるとみなされるかを調査する。
道徳基盤ヴィネット(MFV): 各道徳基盤に関連する具体的なシナリオにおける道徳的認知を評価する。
これらの異なる抽象化レベルの道徳的評価の間における価値観の対立を、偽善として特徴づけた。
研究結果
どちらのモデルも、人間と比較して、それぞれの調査手法内では妥当な一貫性を示した。しかし、MFQに示された抽象的な価値観と、MFVの具体的な道徳的違反の評価とを比較すると、矛盾した偽善的な行動を示した。
考察
LLMは、MFV内、およびMFQの一部の項目において、人間と比較して妥当な一貫性を示したものの、MFQで表明された抽象的な道徳的価値観と、MFVにおける具体的なシナリオにおける道徳的判断との間には、有意な相関関係は見られなかった。これは、LLMが、人間であれば偽善的とみなされるような、抽象的な価値観と具体的な行動との間で矛盾を示す可能性があることを示唆している。
結論
本研究の結果は、LLMの道徳的な推論能力を理解し、人間の価値観と整合したLLMを開発するために、偽善という概念を考慮することの重要性を示唆している。
Tilastot
GPT-4は司法試験で90パーセンタイル、LSATで90パーセンタイル、GREの一部で90パーセンタイルの成績を収めた。
本研究で使用されたLLM、GPT-4とClaude 2.1は、MFVの評価とMFQの一部の項目において、人間と比較して妥当な一貫性を示した。
しかし、MFQで表明された抽象的な道徳的価値観と、MFVにおける具体的なシナリオにおける道徳的判断との間には、有意な相関関係は見られなかった。