Core Concepts
言語モデルは、数値や順序を表す語彙の内部表現を通して、基本的な数的概念を学習している。
Abstract
本論文は、Transformer系の言語モデルが数的推論能力を持つことに着目し、その内部表現を分析している。具体的には、ALBERT言語モデルの異なるサイズのバージョンを対象に、数字や順序を表す語彙の埋め込み表現を主成分分析によって可視化した。その結果、以下のような知見が得られた:
数字とその文字表現は別のクラスターを形成するが、同じ方向に並ぶ
数値の大きさに応じて埋め込み表現が順序づけられ、対数的な分布を示す
10を超える数値では表現が密集する傾向がある
丸数字(10の倍数)は中央に位置する
順序を表す語彙も同様に順序づけられた表現を持つが、高順位のものは近接する
これらの結果は、文章のみを学習対象としたTransformer系言語モデルが、数的概念を内部的に表現できることを示している。数的推論能力の向上に向けた新たな可能性を開くものと考えられる。
Stats
数値と順序を表す語彙の内部表現は、数値の大きさや順序を反映している。