본 논문에서는 선형 트랜스포머를 사용하여 희소 문맥 기반 바이그램 모델을 학습하고 전이하는 방법을 분석하여 트랜스포머의 문맥 정보 및 전역 지식 학습 능력에 대한 이론적 토대를 제시합니다.
트랜스포머 모델 학습 시 Adam optimizer가 SGD보다 성능이 우수한 이유는 트랜스포머의 Hessian 행렬에서 나타나는 '블록 이질성' 때문이며, 이는 서로 다른 파라미터 블록 간의 Hessian 스펙트럼 차이가 크게 나타나는 현상을 의미한다.
트랜스포머의 손실 지형은 데이터, 가중치 및 어텐션 모멘트에 대한 높은 비선형적 의존성과 헤테로젠한 구조를 특징으로 하며, 이는 소프트맥스 및 쿼리-키 매개변수화와 같은 트랜스포머 고유의 설계 선택으로 인해 발생합니다.
선형 트랜스포머 모델을 선형 회귀 문제에 적용하면 실제 트랜스포머 최적화에서 관찰되는 다양한 특징들을 재현할 수 있다. 이는 선형 트랜스포머 모델이 트랜스포머 최적화를 이해하는 데 유용한 추상화 모델이 될 수 있음을 시사한다.
선형 트랜스포머 모델을 선형 회귀 문제에 적용하면 실제 트랜스포머 최적화에서 관찰되는 다양한 특징들을 재현할 수 있다. 이는 선형 트랜스포머 모델이 트랜스포머 최적화를 이해하는 데 유용한 추상화 모델이 될 수 있음을 시사한다.