Core Concepts
小さなトランスフォーマーが2つの正の整数の最大公約数(GCD)を計算するために訓練される際、モデルは入力と出力を見ることで完全に特徴付けられます。訓練が進むにつれて、モデルは整数Dのリストを学び、予測します。
Abstract
ABSTRACT:
小さなトランスフォーマーがGCDを計算するために訓練される。
訓練分布が性能に影響。
ログ一様なオペランドおよびアウトカムはパフォーマンス向上。
INTRODUCTION:
トランスフォーマーは数学問題に適用されている。
大規模言語モデルは加法や乗法を学習し、範囲外でも汎化可能。
EXPERIMENTAL SETTINGS:
GCD計算は教師あり翻訳タスクとしてフレーム化される。
モデルサイズはパフォーマンスにほとんど影響しない。
LEARNING THE GREATEST COMMON DIVISOR - BASE EXPERIMENTS:
ベースごとの正確なGCD数値と精度が示される。
LARGE COMPOSITE BASES B - GROKKING SMALL PRIMES:
大きな基底Bでは非除数も学習される現象が発生する。
LEARNING FROM LOG-UNIFORM OPERANDS:
ログ一様なオペランドから学習することでパフォーマンス向上が見られる。
LEARNING FROM UNIFORM OUTCOMES:
一様なアウトカムから学習することでモデル性能が改善されるが、説明可能性が低下する。
Stats
小さなGCD(最大38)、ログ一様オペランド(73)、ログ一様アウトカム(91)