Omni-SMoLA ist eine Architektur, die viele multimodale Experten effizient mischt und sowohl eine hohe Spezialist- als auch Generalist-Leistung erreicht. Im Gegensatz zu früheren Modellen, bei denen wir eine Leistungsminderung im Durchschnitt beobachten, wenn die Modelle auf eine breite Palette von Aufgaben trainiert werden, zeigen wir, dass die SMoLA-Experten mit geringer Rangzahl verschiedene Fähigkeiten und Aufgaben modellieren können und die Leistung eines generalistischen Modells insgesamt verbessern.
Großen multimodalen Modellen gelingt es oft nicht, die visuellen Informationen in ihren Antworten korrekt widerzuspiegeln, was zu multimodaler Halluzination führt. VOLCANO, ein multimodales Selbstfeedback-gesteuertes Überarbeitungsmodell, kann diese Halluzination effektiv reduzieren, indem es natürlichsprachliches Feedback zur Verbesserung seiner Antworten nutzt.
Durch die Verwendung von Szenen-Graphen in einem Zero-Shot Chain-of-Thought Prompting-Verfahren kann das kompositionelle visuelle Verständnis von Großen Multimodalen Modellen verbessert werden, ohne dass annotierte Trainingsdaten oder Finetuning erforderlich sind.