Effiziente und skalierbare Strategien zum kontinuierlichen Vortrainieren großer Sprachmodelle
Eine einfache und skalierbare Kombination aus Lernraten-Aufwärmung, Lernraten-Reduzierung und Replay früherer Daten ermöglicht es, kontinuierlich vortrainierte Sprachmodelle zu erhalten, deren Leistung mit der von komplett neu trainierten Modellen vergleichbar ist, bei deutlich geringerem Rechenaufwand.