다층 트랜스포머 아키텍처의 학습 메커니즘을 이해하기 위해 MLP와 어텐션 레이어의 결합 동역학을 분석하였다. 이를 통해 어텐션이 먼저 희소해지다가 점차 밀집해지는 패턴을 보이며, 이는 데이터의 계층적 구조를 학습하는 데 중요한 역할을 한다는 것을 밝혔다.