Core Concepts
LLMにおける多言語人間価値概念の存在を実証し、クロスリンガルなコントロール可能性を探求する。
Abstract
この研究では、7種類の人間価値、16の言語、3つのLLMファミリーを対象に幅広い分析を行いました。LLMが効果的に多言語人間価値概念をエンコードしていることを経験的に確認しました。さらに、クロスリンガルなコントロール実験から、LLMの多言語脆弱性とバリューアラインメントへのクロスリンガルな制御可能性を明らかにしました。
Stats
LLaMA2-chatシリーズは約90%が英語データであり、他の言語と比較してコンセプト表現が不一致である。
BLOOMZ-7B1はバランスの取れたマルチリンガリティを示し、相互クロスリンガル転送パターンが見られる。
大規模モデルほど非英語有害指示に反応する傾向がある。
Quotes
"大規模モデルほど非英語有害指示に反応する傾向がある。"
"バランスの取れたマルチリンガリティは相互クロスリンガル転送パターンを促進する。"
"LLaMA2-chatシリーズは約90%が英語データであり、他の言語と比較してコンセプト表現が不一致である。"