Основные понятия
大規模言語モデルは人間とは異なる独自の構造化された価値観を持っている。
Аннотация
本研究は、大規模言語モデル(LLM)の独自の価値観を明らかにするため、新しい枠組み「ValueLex」を提案している。
価値観の構築:
- 30以上のLLMに対して、価値を表す単語を引き出す質問を行い、43,884の単語を収集した。
- 因子分析とクラスタリングを行い、3つの主要な価値観次元(能力、性格、誠実性)と6つの下位次元を特定した。
価値観の評価:
- 文章補完テストを用いて、LLMの価値観傾向を定量的に評価した。
- 大規模モデルほど能力への志向が強く、訓練手法によっても価値観が異なることが分かった。
- LLMの価値観は人間のものとは異なる構造を持つが、一部の共通点も見られた。
本研究は、LLMの独自の価値観を体系的に明らかにし、LLMの安全性や倫理性を評価する新しい枠組みを提示した。今後の AI 倫理の議論に重要な知見を与えている。
Статистика
大規模モデルほど能力への志向が強い
教示調整によって価値観の一貫性が高まる一方、アラインメントによって多様性が高まる
人間の価値観と一部共通点があるが、LLMの価値観は人間とは異なる構造を持つ
Цитаты
「LLMは人間とは異なる独自の構造化された価値観を持っている」
「LLMの価値観は人間のものとは異なる構造を持つが、一部の共通点も見られた」