핵심 개념
2차원으로 시각화 가능한 소규모 트랜스포머 모델을 통해 신경망 학습 과정의 역학 관계를 심층적으로 분석하고, 이를 통해 얻은 인사이트를 바탕으로 학습 과정 개선 및 미래 연구 방향을 제시한다.
초록
신경망 학습 과정에 대한 시각적 사례 연구: 2차원 임베딩을 통한 트랜스포머 모델 분석
본 연구는 2차원 임베딩으로 제한된 소규모 트랜스포머 모델의 학습 과정을 시각적으로 분석하여 신경망 내부에서 일어나는 복잡한 메커니즘에 대한 이해를 높이는 것을 목표로 한다.
연구진은 임베딩 차원을 2로 제한한 트랜스포머 모델을 사용하여 Sparse Modular Addition이라는 간단한 수학적 과제를 학습시켰다. 이를 통해 모델의 각 레이어에서 일어나는 변화를 2차원 평면에 시각화하여 분석할 수 있었다. 또한, 학습 과정을 시각적으로 표현하기 위해 Position Embeddings, (Normalized) Embeddings, Attention Map, Value transform, Sequence embeddings/transforms, Transform level lines, MLP receptors (and assemblers), Loss and accuracy 등 다양한 시각화 도구를 활용했다.