Eine einheitliche Schichtüberspringungsstrategie, die die Anzahl der zu überspringenden Schichten basierend auf dem Ziel-Beschleunigungsverhältnis bestimmt und die entsprechende Anzahl von Zwischenschichtberechnungen auf ausgewogene Weise überspringt, kann die Inferenzleistung und den tatsächlichen Modell-Durchsatz im Vergleich zu bestehenden dynamischen Ansätzen signifikant verbessern.
Eine leichtgewichtige Quantisierungs-Feinabstimmungstechnik unter Verwendung von Wissensübertragung (KD-QAT) wird vorgeschlagen, um die Leistung von 4-Bit-gewichtsquantisierten großen Sprachmodellen für Anwendungsfälle wie Chat-Anwendungen auf Geräten zu verbessern.
Durch die Neuausrichtung der Kanalabmessungen können Aktivierungsausreißer in großen Sprachmodellen isoliert und die Quantisierung mit geringer Bittiefe verbessert werden.