Core Concepts
言語モデルは、地理情報を隠れた表現に埋め込むことができ、その地理的知識はモデルのサイズが拡大するにつれて一貫してスケールすることが示されています。
Abstract
自己教師付き言語モデルの隠れた表現を分析する多くの研究が行われており、これらのモデルがトレーニングデータから言語知識をどのように組み込んでいるかに関する洞察を提供しています。地理的表現が含まれることもあります。最近では、大規模な言語モデル(LLM)へこの結果を拡張した研究も行われています。本論文では、言語モデルのスケーリング時に地理的知識がどのように進化するかを観察し、その能力がどのように変化するかを示しています。さらに、大きな言語モデルでもトレーニングデータ固有の地理的バイアスを軽減できないことも明らかにしています。
Stats
39,504個の場所名とそれに対応する経度・緯度を含むWorld dataset使用
テストセットインスタンスの予測座標(R2 = 34.34〜74.97)
BERT-Large(336Mパラメータ)はPythia-1B(3倍以上)と同等に正確
Quotes
"大規模な言語モデルは基本プロンプトで世界地図上に地理座標を納得させることができる"
"大きなモデルほどジオグラフィカリー・バイアスされやすい"
"国名出現頻度とモデル性能は相関関係がある"