核心概念
SLTrain은 대규모 언어 모델(LLM) 사전 훈련 시 메모리 및 파라미터 효율성을 극대화하기 위해 희소 행렬과 저랭크 행렬을 결합하여 가중치 행렬을 효과적으로 학습하는 새로운 접근 방식입니다.
要約
SLTrain: 희소성과 저랭크 특성을 활용한 효율적인 LLM 사전 훈련 방법
본 연구 논문에서는 대규모 언어 모델(LLM)의 사전 훈련 과정에서 메모리 및 파라미터 효율성을 향상시키는 새로운 접근 방식인 SLTrain을 제안합니다. SLTrain은 가중치 행렬을 저랭크 행렬과 희소 행렬의 합으로 분해하여 모델의 표현력을 유지하면서도 학습 및 저장에 필요한 자원을 크게 줄입니다.
본 연구는 LLM 사전 훈련 과정에서 메모리 및 파라미터 효율성을 개선하여, 제한된 하드웨어 자원으로도 고성능 LLM을 구축할 수 있도록 하는 것을 목표로 합니다.
SLTrain은 가중치 행렬 W를 저랭크 행렬 BA와 희소 행렬 S의 합으로 나타냅니다. 여기서 B와 A는 저차원 행렬이며, S는 무작위로 선택된 고정된 지지 집합을 가지는 희소 행렬입니다. 이러한 표현 방식을 통해 모델의 파라미터 수를 줄이고, 희소 행렬의 특성을 활용하여 메모리 사용량을 최소화합니다. 또한, SLTrain은 GPU 연산에 최적화된 방식으로 구현되어 학습 속도 저하 없이 효율적인 학습을 가능하게 합니다.