Core Concepts
언어 모델은 순수한 텍스트 학습을 통해 기본적인 수학적 개념을 직관적으로 학습할 수 있다.
Abstract
이 논문은 언어 모델 내부의 수치 표현을 분석하는 새로운 방법을 제안하고, 이를 통해 ALBERT 모델군의 수치 표현을 조사한다. 구체적으로:
다양한 크기의 ALBERT 모델들이 일관되게 주성분 분석을 통해 수치 개념의 순서와 크기를 나타내는 것을 발견했다.
숫자와 그 문자 표현은 별도의 클러스터를 형성하지만, 같은 방향으로 증가한다.
큰 숫자일수록 더 밀집되어 있어, 로그 스케일 표현을 사용하는 것으로 보인다.
배수와 같은 특정 숫자들은 중앙에 위치한다.
이러한 결과는 순수한 텍스트 학습만으로도 언어 모델이 기본적인 수학 개념을 학습할 수 있음을 보여준다. 이는 수치 추론 능력이 필요한 NLP 응용 분야에 활용될 수 있다.
Stats
숫자 0부터 20까지와 그 문자 표현은 서로 다른 클러스터를 형성한다.
각 클러스터 내에서 숫자 값은 대체로 순서대로 배열된다.
숫자와 문자 표현은 같은 방향으로 증가한다.
10을 넘어가면 숫자들이 점점 더 밀집된다.