Konsep Inti
변환기 모델은 입력 쌍의 최대공약수를 계산하기 위해 기저 표현의 약수들과 작은 소수들의 곱으로 이루어진 정수 리스트를 학습한다. 학습 분포에 따라 모델 성능이 크게 달라지며, 균형 잡힌 최대공약수 분포로 학습하면 설명 가능성이 부분적으로 손실된다.
Abstrak
이 논문은 작은 변환기 모델이 두 양의 정수의 최대공약수(GCD)를 계산하는 방법을 설명한다. 모델은 학습 과정에서 기저 표현의 약수들과 작은 소수들의 곱으로 이루어진 정수 리스트 D를 학습하며, 입력 쌍 (a, b)에 대해 D에서 a와 b를 모두 나누는 가장 큰 정수를 예측한다.
학습 분포가 모델 성능에 큰 영향을 미친다. 균일 연산자로 학습한 모델은 100 이하 GCD 중 38개만 정확히 예측할 수 있지만, 로그-균일 연산자로 학습하면 73개, 로그-균일 GCD 분포로 학습하면 91개까지 예측할 수 있다. 그러나 균형 잡힌 GCD 분포로 학습하면 설명 가능성이 부분적으로 손실된다.
Statistik
균일 연산자로 학습한 모델은 100 이하 GCD 중 38개만 정확히 예측할 수 있다.
로그-균일 연산자로 학습한 모델은 100 이하 GCD 중 73개를 정확히 예측할 수 있다.
로그-균일 GCD 분포로 학습한 모델은 100 이하 GCD 중 91개를 정확히 예측할 수 있다.
Kutipan
"Transformers learn to cluster input pairs with the same GCD. All pairs of integers (a, b) with the same GCD k are predicted the same."
"Transformer predictions can be fully characterized. During training, the model learns a set of integers D, and predicts, for any input pair (a, b), the largest element in D that divides a and b."
"Early during training, transformers learn to predict products of divisors of the base used to represent integers. Small primes are "grokked" (Power et al., 2022) after extended training."