Core Concepts
Effiziente Fehlerfeedback-Technik ermöglicht die Komprimierung von Voraussetzungen ohne Konvergenzverlust.
Stats
In diesem Papier wird eine Komprimierung von bis zu 99% der Voraussetzungen gezeigt.
Eine Standard-Rezeptur für das Feintuning des mittelgroßen BERT-Base-Modells erfordert mehr als 450 GB GPU-RAM.
Die Sparse MFAC-Variante benötigt maximal 22,5 GB GPU-RAM im Vergleich zu 21,3 GB für SGD mit Momentum.
Quotes
"Unsere Methode ermöglicht es erstmals, Experimente mit vollständigen Matrixvoraussetzungen innerhalb der Speicherkapazität einer einzelnen GPU durchzuführen."