Multimodale Lernmodelle

insight - Multimodale Lernmodelle

Robuste multimodale Fusion durch modale Kanalaufmerksamkeit

Die Studie zeigt, dass maskierte multimodale Transformer-Architekturen auch bei spärlich ausgerichteten Modalitäten robuste Einbettungsräume lernen können. Eine Erweiterung des maskierten multimodalen Transformer-Modells, die modale unvollständige Kanäle in den Multihead-Aufmerksamkeitsmechanismus einbezieht, wird als "modale Kanalaufmerksamkeit" (MCA) vorgestellt.

Effiziente Verarbeitung und Analyse von Inhalten zur Gewinnung von Erkenntnissen: VL-Mamba, ein auf Zustandsraummodellen basierendes multimodales Großsprachmodell

VL-Mamba, ein auf Zustandsraummodellen basierendes multimodales Großsprachmodell, bietet eine effiziente Alternative zu Transformer-basierten Architekturen für multimodale Lernaufgaben.

Dynamische visuelle und sprachliche Expertentunierung für multimodale Large Language Models

Die Autoren stellen HyperLLaVA vor, ein Modell, das die statischen Parameter des Projektors und des Large Language Models durch dynamische, auf visuelle und sprachliche Führung basierende Experten ersetzt, um die Leistung auf verschiedenen multimodalen Aufgaben zu verbessern.

Instanzbasierte Trojaner-Angriffe auf Visual Question Answering durch adversarisches Lernen im Neuron-Aktivierungsraum

Eine neuartige instanzbasierte multimodale Trojaner-Attacke auf Visual Question Answering-Modelle, die durch adversarisches Lernen im Neuron-Aktivierungsraum eine effiziente Anpassung an feinabgestimmte Modelle ermöglicht.

Octavius: Effizientes Lernen von Multimodalen Großsprachmodellen durch LoRA-MoE zur Reduzierung von Aufgabeninterferenzen

Octavius ist ein neuartiges und erweiterbares Framework, das eine Kombination aus Mixture-of-Experts (MoE) und LoRA verwendet, um Interferenzen zwischen verschiedenen Aufgaben und Modalitäten in Multimodalen Großsprachmodellen (MLLMs) effizient zu reduzieren.

About

Products

Resources