이 연구는 트랜스포머 모델의 계층적 일반화 행동의 원인을 탐구한다. 주요 내용은 다음과 같다:
다양한 학습 목표(언어 모델링, 시퀀스-투-시퀀스 모델링, 접두사 언어 모델링, 시퀀스 분류, 클로즈 완성)를 사용하여 트랜스포머 모델을 학습시킨 결과, 언어 모델링 목표만이 일관적으로 계층적 일반화를 달성했다. 이는 전체 토큰 시퀀스(입력과 출력)를 모델링하는 것이 계층적 구조 학습에 중요함을 시사한다.
학습된 모델에서 서로 다른 일반화 행동(계층적 규칙과 선형 규칙)을 나타내는 하위 네트워크를 발견할 수 있었다. 이러한 하위 네트워크는 모호한 학습 데이터로 인해 지속적으로 공존한다. 명확한 데이터를 사용하면 선형 규칙 하위 네트워크가 사라진다.
베이지안 관점에서 볼 때, 트랜스포머 언어 모델이 계층적으로 일반화하는 이유는 계층적 문법이 선형 문법보다 데이터를 더 단순하게 설명하기 때문인 것으로 나타났다. 이는 트랜스포머가 계층적 일반화를 선호하는 이유를 설명한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문