Die Studie zeigt empirisch und theoretisch, dass weder die mittelsuchende Eigenschaft der vorwärts gerichteten Kullback-Leibler-Divergenz (FKL) noch die modussuchende Eigenschaft der rückwärts gerichteten Kullback-Leibler-Divergenz (RKL) in der Wissensübertragung für Große Sprachmodelle zutreffen. Stattdessen konvergieren FKL und RKL nach einer ausreichenden Anzahl von Epochen zum gleichen Optimierungsziel. Um diese Konvergenz in der Praxis bei begrenzter Epochenzahl zu verbessern, schlägt die Studie eine adaptive Kullback-Leibler-Divergenz (AKL) vor, die die Gewichte von FKL und RKL basierend auf den Verteilungen von Lehrer- und Schülermodell anpasst.
Die vorgeschlagene CBQ-Methode führt eine kreuzblockbasierte Rekonstruktion durch, um die Quantisierungsparameter von Gewichten und Aktivierungen gemeinsam zu optimieren. Dadurch werden Fehlerakkumulationen über das gesamte Modell hinweg reduziert und eine effiziente Quantisierung großer Sprachmodelle ermöglicht.
Wir schlagen eine neuartige gewichtsbasierte Destillation (WID) vor, die das Wissen direkt vom Lehrermodell auf das Schülermodell überträgt, ohne zusätzliche Ausrichtungsverluste zu verwenden.