Conceptos Básicos
Q-GaLore는 4비트 투영과 레이어 적응형 저차원 경사도를 사용하여 32GB GPU에서 70억 개 매개변수의 대규모 언어 모델을 처음부터 학습할 수 있게 해줍니다.
Resumen
이 글은 GaLore라는 방법을 소개하고 있습니다. GaLore는 경사도를 저차원 부공간에 투영하여 메모리 사용량을 줄이는 방법입니다. 이를 통해 32GB GPU에서 70억 개 매개변수의 대규모 언어 모델을 처음부터 학습할 수 있습니다.
이번에는 GaLore에 양자화를 추가한 Q-GaLore를 소개합니다. Q-GaLore는 4비트 데이터 타입으로 투영을 수행하고 모델 가중치를 8비트로 양자화합니다. 이를 통해 메모리 사용량을 더욱 줄일 수 있어 16GB GPU에서도 대규모 언어 모델을 처음부터 학습할 수 있게 되었습니다.
Estadísticas
32GB GPU에서 70억 개 매개변수의 대규모 언어 모델을 처음부터 학습할 수 있습니다.
16GB GPU에서도 대규모 언어 모델을 처음부터 학습할 수 있습니다.
Citas
"Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients"