Effizientes Übertragen von Vortrainierten Gewichten auf Transformermodelle mit Linearen Kosten
Durch das Übertragen von kompatiblen Gewichtskomponenten von vortrainierten Sprachmodellen auf Transformermodelle mit linearen Kosten können die Trainingszeiten signifikant reduziert und die Leistung verbessert werden, ohne die Modelle komplett von Grund auf neu trainieren zu müssen.