Durch den Einsatz von 2:4-Spärlichkeit kann das Vortraining großer Transformer-Modelle beschleunigt werden, ohne dass dabei Genauigkeit verloren geht.