Die Leistung von Multimodellen in "Zero-Shot"-Aufgaben skaliert linear mit der exponentiell wachsenden Häufigkeit der Konzepte in den Vortrainings-Datensätzen.
Ein neuartiges, vollständig unüberwachtes Lernframework namens ESREAL, das Halluzinationen in Vision-Language-Modellen durch genaue Lokalisierung und Bestrafung halluzinierter Token effektiv reduziert.
Nicht alle Aufmerksamkeit ist für das effiziente Transferlernen von multimodalen Large Language Models erforderlich. Durch selektives Überspringen redundanter Aufmerksamkeitsmodule und Verwendung einer neuartigen Propagation-of-Information Adapter-Architektur kann die Inferenzgeschwindigkeit deutlich gesteigert werden, ohne die Leistung zu beeinträchtigen.