核心概念
事前学習された言語モデルは数値の理解が不十分であるため、数値理解タスクの性能が低い。本研究では、言語モデルの訓練データに数値のアンカーを生成することで、数値の意味的プライミングを行い、数値理解を向上させる。
要約
本研究では、事前学習された言語モデルの数値理解能力を向上させるため、訓練データ中の数値にアンカーを生成する手法を提案している。
具体的には以下の手順で行う:
訓練データから出現する全ての数値を抽出し、ガウシアンミクスチャーモデルを用いて代表的な数値(アンカー)を決定する。
訓練データ中の数値にアンカーを付与する。アンカーには以下の2種類を用いる:
線形表現: 数値をその最近傍のアンカーに対応付ける
圧縮表現: 数値の対数値をその最近傍のアンカーに対応付ける
さらに、アンカーの位置(左右)を示す特殊トークンを付与することで、数値の相対的な大小関係の理解も促進する。
上記の手法で前処理された訓練データを用いて、言語モデルを事前学習する。
提案手法の有効性を検証するため、数値理解タスクにおいて、提案手法と既存手法を比較評価した。その結果、提案手法は既存手法と比べて、特に大きな数値に対する数値理解能力が高いことが示された。また、圧縮表現とアンカーの位置情報を組み合わせることで、数値の大小関係の理解も向上することが確認された。
統計
数値範囲[1,100]と[100,1k]では、全てのモデルが良好な性能を示す。
数値範囲[1k,10k]と[10k,1010]では、ベースラインモデルの性能が大幅に低下するが、提案手法のモデルは一貫して高い性能を維持する。
数値の大きさの推定では、対数圧縮表現(ln Anchors)が有効であり、数値の順序関係の推定では、方向性プライミング(Anchors (⇄))が有効である。