Core Concepts
Durch das Übertragen von kompatiblen Gewichtskomponenten von vortrainierten Sprachmodellen auf Transformermodelle mit linearen Kosten können die Trainingszeiten signifikant reduziert und die Leistung verbessert werden, ohne die Modelle komplett von Grund auf neu trainieren zu müssen.
Abstract
Die Studie untersucht eine Methode namens "Cross-Architecture Transfer Learning" (XATL), bei der Gewichtskomponenten von vortrainierten Sprachmodellen auf Transformermodelle mit linearen Kosten (LCI) übertragen werden. Dies soll die Trainingszeiten verkürzen und die Leistung verbessern, ohne die Modelle komplett neu trainieren zu müssen.
Die Autoren führen Experimente mit verschiedenen LCI-Architekturen durch, darunter RetNet und Mamba. Sie untersuchen, welche Gewichtskomponenten am effektivsten übertragen werden können und ob das Einfrieren der übertragenen Gewichte sinnvoll ist. Die Ergebnisse zeigen, dass XATL die Trainingszeit um bis zu 2,5-fach reduzieren und die Leistung um bis zu 2,6% verbessern kann, verglichen mit dem Training von Grund auf. Die XATL-Modelle erreichen dabei eine ähnliche oder sogar bessere Leistung als vergleichbare Transformermodelle, die von Grund auf trainiert wurden.
Die Autoren betonen, dass XATL eine vielversprechende Methode ist, um die Kosten für das Training neuer Sprachmodellarchitekturen zu senken und deren Leistung zu verbessern.
Stats
Die Leistung der XATL-Modelle auf verschiedenen Benchmarks ist im Durchschnitt 2,6% besser als die der von Grund auf trainierten Modelle.
Die Trainingszeit der XATL-Modelle ist im Durchschnitt 2,5-fach kürzer als die der von Grund auf trainierten Modelle.
Quotes
"Durch das Übertragen von kompatiblen Gewichtskomponenten von vortrainierten Sprachmodellen auf Transformermodelle mit linearen Kosten können die Trainingszeiten signifikant reduziert und die Leistung verbessert werden, ohne die Modelle komplett von Grund auf neu trainieren zu müssen."
"XATL kann die Trainingszeit um bis zu 2,5-fach reduzieren und die Leistung um bis zu 2,6% verbessern, verglichen mit dem Training von Grund auf."