本記事では、LLMのトレーニングにおけるメモリ効率化手法「Q-GaLore」について説明している。
GaLoreは、勾配を低ランク部分空間に射影することでメモリ使用量を削減する手法であり、32 GB GPUでも7B規模のLLMのファインチューニングやプリトレーニングが可能になった。
Q-GaLoreは、GaLoreにQuantizationを導入したバリアントである。具体的には、勾配の射影をINT4データ型で行い、モデルの重みもINT8に量子化している。
これらの量子化により、16 GB GPUでも7B規模のLLMのファインチューニングやプリトレーニングが可能になった。
To Another Language
from source content
medium.com
Key Insights Distilled From
by Benjamin Mar... at medium.com 07-21-2024
https://medium.com/@bnjmn_marie/q-galore-train-llms-from-scratch-with-a-16-gb-gpu-7f2a827cfd87Deeper Inquiries