핵심 개념
대규모 언어 모델은 메모리, 지연 시간, 전력 요구사항에 어려움을 겪지만, 동적 레이어 스파스성을 활용하면 이를 해결할 수 있다. Radial Networks는 토큰 단위로 레이어를 동적으로 라우팅하여 모델 크기를 늘리면서도 계산 비용을 크게 줄일 수 있다.
초록
이 논문은 대규모 언어 모델의 동적 레이어 스파스성을 분석하고, 이를 활용한 Radial Networks 모델을 제안한다.
- 대규모 언어 모델의 레이어 별 기여도 분석:
- 모델 크기가 커질수록 각 레이어의 기여도가 감소하는 경향을 보임
- 초기 레이어의 기여도가 후반부 레이어보다 높은 U자 형태의 분포
- 이는 기존의 조기 종료(early-exit) 기법이 적절하지 않음을 시사
- Radial Networks 모델 제안:
- 토큰 단위로 레이어를 동적으로 라우팅하는 새로운 신경망 구조
- 학습된 라우터 모듈이 각 토큰의 다음 레이어를 선택
- 레이어 재사용을 통해 모델 크기 확장 가능
- 토큰 별 계산량 변화로 전체 추론 비용 감소
- 실험 결과:
- 대규모 언어 모델과 비전 모델에서 동적 레이어 스파스성 확인
- Radial Networks가 기존 순차 모델 대비 성능 및 효율성 향상
통계
OPT-125M 모델의 중간 residual ratio는 20%에 불과
OPT-66B 모델의 중간 residual ratio는 5.9%로 매우 낮음
OPT-13B 모델에서 대부분의 레이어가 5% 미만의 residual ratio를 보임
인용구
"As these transformers grow larger, they create opportunities for dynamic layer sparsity, which can skip individual layers on an input-by-input basis."
"This work shows that the layer contributions vary among models and tasks, and often the earlier layers of the network contribute more than the later layers."