本研究では、大規模言語モデルの潜在空間内に存在する人間が理解可能な概念を特定する手法を提案している。
まず、主語と目的語の関係を線形変換として表現するLinear Relational Embedding (LRE)を学習する。次に、LREの擬似逆行列を用いて、主語の潜在表現から目的語の概念方向ベクトル(Linear Relational Concept, LRC)を導出する。
LRCは、概念を表す方向ベクトルとしての性質を持ち、同時に高精度な概念分類器としても機能する。実験の結果、LRCは従来の手法よりも概念分類精度とモデル出力に対する因果的な制御性が高いことが示された。
特に、LREを非終端層の目的語表現に適用することで、単一トークンの目的語だけでなく複数トークンの目的語に対しても高い性能を発揮することが明らかになった。
本手法は、大規模言語モデルの内部表現を解釈し、概念の生成過程を理解する上で有用な手法となる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究