Die Studie zeigt, dass maskierte multimodale Transformer-Architekturen auch bei spärlich ausgerichteten Modalitäten robuste Einbettungsräume lernen können. Eine Erweiterung des maskierten multimodalen Transformer-Modells, die modale unvollständige Kanäle in den Multihead-Aufmerksamkeitsmechanismus einbezieht, wird als "modale Kanalaufmerksamkeit" (MCA) vorgestellt.
VL-Mamba, ein auf Zustandsraummodellen basierendes multimodales Großsprachmodell, bietet eine effiziente Alternative zu Transformer-basierten Architekturen für multimodale Lernaufgaben.
Die Autoren stellen HyperLLaVA vor, ein Modell, das die statischen Parameter des Projektors und des Large Language Models durch dynamische, auf visuelle und sprachliche Führung basierende Experten ersetzt, um die Leistung auf verschiedenen multimodalen Aufgaben zu verbessern.
Eine neuartige instanzbasierte multimodale Trojaner-Attacke auf Visual Question Answering-Modelle, die durch adversarisches Lernen im Neuron-Aktivierungsraum eine effiziente Anpassung an feinabgestimmte Modelle ermöglicht.
Octavius ist ein neuartiges und erweiterbares Framework, das eine Kombination aus Mixture-of-Experts (MoE) und LoRA verwendet, um Interferenzen zwischen verschiedenen Aufgaben und Modalitäten in Multimodalen Großsprachmodellen (MLLMs) effizient zu reduzieren.