Effizientes Aufmerksamkeits-Skipping: Parametereffizientes und recheneffizientes Transferlernen für multimodale Large Language Models
Nicht alle Aufmerksamkeit ist für das effiziente Transferlernen von multimodalen Large Language Models erforderlich. Durch selektives Überspringen redundanter Aufmerksamkeitsmodule und Verwendung einer neuartigen Propagation-of-Information Adapter-Architektur kann die Inferenzgeschwindigkeit deutlich gesteigert werden, ohne die Leistung zu beeinträchtigen.