Dynamische visuelle und sprachliche Expertentunierung für multimodale Large Language Models
Die Autoren stellen HyperLLaVA vor, ein Modell, das die statischen Parameter des Projektors und des Large Language Models durch dynamische, auf visuelle und sprachliche Führung basierende Experten ersetzt, um die Leistung auf verschiedenen multimodalen Aufgaben zu verbessern.