Conceitos essenciais
提案されたGaLoreは、大規模言語モデルの効率的なトレーニングを可能にし、メモリ使用量を最大65.5%削減しつつ、効率とパフォーマンスを維持します。
Resumo
GaLoreは、LLMのトレーニングにおけるメモリ効率を向上させる革新的な手法です。従来の低ランクアプローチよりも優れたパフォーマンスを実現し、大規模なモデルのトレーニングを可能にします。この手法は、プリトレーニングやファインチューニングの両方で成功を収めており、消費者向けGPUで7Bモデルのトレーニングが初めて可能となりました。GaLoreは8ビット最適化技術と組み合わせてメモリ使用量をさらに削減し、GLUEタスクで優れた結果を達成しています。
Estatísticas
GaLoreはオプティマイザー状態のメモリ使用量を最大65.5%削減しました。
GaLoreは8ビットAdamと比較して24.5G(52.3%)のメモリ削減を実現しました。
8ビットGaLoreは7Bモデルのトレーニング時に22.0Gのメモリしか必要とせず、24GB VRAM容量内で動作可能です。
Citações
"GaLore significantly reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for large-scale LLM pre-training and fine-tuning."
"Our approach enables training of larger models on hardware with lower memory, helping to minimize energy consumption and carbon footprint associated with training LLMs."