Das Paper untersucht die Effizienz des Trainings großer Sprachmodelle auf einer einzelnen GPU mit begrenztem Speicher durch die Verwendung von NVMe SSDs. Es stellt das Fuyou-Trainingssystem vor, das die GPU-Auslastung maximiert und die Modellgröße optimiert. Durch die Implementierung von synchronem Out-of-Core-CPU-Optimierer, vollständig pipelined Activation Swapping und automatisches Aktivierungsscheduling ermöglicht Fuyou das Training von Modellen bis zu 805B auf A100-80GB. Experimente zeigen eine deutlich höhere Durchsatzrate im Vergleich zu anderen Baselines.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Changyue Lia... at arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.06504.pdfDeeper Inquiries