이 논문은 다층 트랜스포머 아키텍처의 학습 메커니즘을 이해하기 위한 새로운 수학적 프레임워크인 JoMA(Joint MLP/Attention)를 제안한다. JoMA는 트랜스포머의 자기 어텐션 레이어를 통합하여 MLP 레이어의 수정된 동역학을 도출한다.
선형 활성화 함수의 경우, JoMA는 기존 연구와 일치하여 어텐션이 점점 희소해진다는 것을 보여준다. 반면 비선형 활성화 함수의 경우, 어텐션은 먼저 희소해지다가 점차 밀집해지는 패턴을 보인다. 이는 모델이 먼저 가장 중요한 특징을 학습하고 나서 점차 덜 중요한 특징으로 확장해 나가는 것을 의미한다.
이러한 학습 패턴의 중요성은 다층 트랜스포머 설정에서 더욱 두드러진다. 논문은 계층적 트리 생성 모델을 가정하고, 이 모델에서 JoMA의 동역학이 어떻게 계층적 개념 학습을 설명할 수 있는지 보여준다. 즉, 하위 레벨 토큰들의 높은 동시 발생은 먼저 주목을 받고, 이후 상위 레벨 토큰들의 동시 발생이 점차 학습된다. 이는 실제 사전 학습 모델(OPT, Pythia)과 실세계 데이터셋(Wikitext2, Wikitext103)으로 학습한 모델에서도 관찰된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Yuandong Tia... at arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.00535.pdfDeeper Inquiries