In dieser Arbeit wird ein neuartiger Ansatz für parametereffizientes und recheneffizientes Transferlernen (PCETL) von multimodalen Large Language Models (MLLMs) vorgestellt, genannt "Efficient Attention Skipping" (EAS).
Der Kerngedanke von EAS ist, dass nicht alle Aufmerksamkeitsmodule (MHAs) für die Anpassung an Downstream-Aufgaben erforderlich sind. Basierend auf dieser Beobachtung evaluiert EAS die Redundanz der MHAs und überspringt die weniger wichtigen, um die Inferenzgeschwindigkeit zu erhöhen.
Um die durch Adapter verursachte zusätzliche Latenz zu vermeiden, führt EAS auch eine neuartige, parametereffiziente Komponente ein, den "Propagation-of-Information Adapter" (PIA). PIA kann nicht nur die übersprungenen MHAs für die Anpassung ersetzen, sondern auch nahtlos in die Feed-Forward-Netze (FFNs) des Modells umparametrisiert werden, ohne zusätzliche Kosten während der Inferenz zu verursachen.
Die Experimente zeigen, dass EAS nicht nur eine hohe Leistung und Parametereffizienz beibehält, sondern die Inferenzgeschwindigkeit auch deutlich steigern kann. Zum Beispiel kann LaVIN-EAS 89,98% Genauigkeit auf ScienceQA erreichen, während es die Inferenzzeit um den Faktor 2,2 im Vergleich zu LaVIN2 beschleunigt.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések