Khái niệm cốt lõi
본 연구는 트랜스포머 모델의 신호 전파에 대한 종합적인 이론적 프레임워크를 제공하여, 매우 깊은 트랜스포머 모델의 학습 안정성 문제를 해결한다.
Tóm tắt
본 연구는 트랜스포머 모델의 각 구성 요소와 전체 모델에 대한 신호 전파의 폐쇄형 수식을 도출하였다. 이를 통해 트랜스포머 모델의 주요 안정성 문제인 기울기 소실/폭발, 랭크 붕괴, 높은 주의 점수로 인한 불안정성을 이해하고 해결할 수 있었다.
연구진은 DeepScaleLM이라는 새로운 초기화 및 스케일링 방법을 제안하였다. DeepScaleLM은 모델 깊이에 관계없이 출력과 기울기의 모멘트를 보존하여, 수백 개의 레이어로 구성된 매우 깊은 모델을 안정적으로 학습할 수 있게 한다.
실험 결과, DeepScaleLM을 적용한 모델은 기존 모델 대비 언어 모델링, 음성 번역, 이미지 분류 등 다양한 태스크와 모델 구조에서 성능이 향상되었다. 또한 질문 답변 태스크 성능 향상과 이미지 분류 강건성 향상으로 이어졌다.
Thống kê
매우 깊은 192개 레이어 모델에서도 출력 분산이 선형적으로 증가하고 기울기 분산이 쌍곡선적으로 증가한다.
포스트-LN 모델에서는 기울기가 지수적으로 소실/폭발한다.
잘못된 Q/K 초기화로 인해 기울기가 지수적으로 폭발할 수 있다.
Trích dẫn
"본 연구는 트랜스포머 모델의 신호 전파에 대한 종합적인 이론적 프레임워크를 제공하여, 매우 깊은 트랜스포머 모델의 학습 안정성 문제를 해결한다."
"DeepScaleLM은 모델 깊이에 관계없이 출력과 기울기의 모멘트를 보존하여, 수백 개의 레이어로 구성된 매우 깊은 모델을 안정적으로 학습할 수 있게 한다."