Core Concepts
大規模言語モデルに人間の価値観を効果的に注入するために、高次元の人間価値表現を提案する。これにより、異なる言語や文化における価値観の違いを明らかにし、言語モデルの価値観の透明性と説明可能性を高めることができる。
Abstract
本研究では、大規模言語モデル(LLM)に人間の価値観を効果的に注入するために、高次元の人間価値表現「UniVaR」を提案している。UniVaRは、言語やモデルアーキテクチャに依存せず、LLMに埋め込まれた人間の価値観を抽出・分析することができる。
具体的には以下の手順で進められている:
人間の価値観に関する既存の調査研究を参考に、価値観を引き出すための質問セットを作成する。
作成した質問セットをLLMに入力し、その回答を収集する。これにより、LLMに埋め込まれた価値観を引き出す。
収集した質問-回答ペアを用いて、多視点自己教師あり学習を行い、UniVaRを学習する。UniVaRは、LLMに埋め込まれた価値観の高次元表現を学習する。
UniVaRを用いて、複数のLLMや言語間での価値観の分布を可視化・分析する。これにより、LLMに反映された価値観の違いを明らかにする。
本研究の成果により、LLMに埋め込まれた価値観の理解が深まり、LLMの価値観アライメントの向上につながることが期待される。また、UniVaRは言語やモデルに依存せず、様々なLLMの価値観を分析できるため、LLMの開発や利用における透明性と説明可能性の向上にも貢献する。
Stats
言語モデルは、トレーニングデータに含まれる価値観を反映する傾向がある。
例えば、英語の言語モデルは北米の沿岸部の自由主義的な価値観を、中国の言語モデルは中国の価値観を反映する可能性がある。
しかし、リリース時点では、各言語モデルに埋め込まれた価値観の全体像は必ずしも明らかではない。
Quotes
「異なる言語のLLMは、それぞれ異なる価値観を反映する傾向がある。」
「LLMの開発者でさえ、リリース時点では、自身のモデルに埋め込まれた価値観の全体像を把握できていないことが多い。」