이 글은 GaLore라는 방법을 소개하고 있습니다. GaLore는 경사도를 저차원 부공간에 투영하여 메모리 사용량을 줄이는 방법입니다. 이를 통해 32GB GPU에서 70억 개 매개변수의 대규모 언어 모델을 처음부터 학습할 수 있습니다.
이번에는 GaLore에 양자화를 추가한 Q-GaLore를 소개합니다. Q-GaLore는 4비트 데이터 타입으로 투영을 수행하고 모델 가중치를 8비트로 양자화합니다. 이를 통해 메모리 사용량을 더욱 줄일 수 있어 16GB GPU에서도 대규모 언어 모델을 처음부터 학습할 수 있게 되었습니다.
他の言語に翻訳
原文コンテンツから
medium.com
抽出されたキーインサイト
by Benjamin Mar... 場所 medium.com 07-21-2024
https://medium.com/@bnjmn_marie/q-galore-train-llms-from-scratch-with-a-16-gb-gpu-7f2a827cfd87深掘り質問