Kernkonzepte
Inkonsistenz ist ein potenzieller Auslöser für Zahlenhalluzinationen in großen Bild-Sprach-Modellen.
Zusammenfassung
In diesem Artikel wird die Prävalenz von Zahlenhalluzinationen in großen Bild-Sprach-Modellen untersucht. Es wird eine neue Form der Halluzination, die als Zahlenhalluzination bezeichnet wird, eingeführt und eine Methode zur Konsistenzschulung vorgeschlagen, um diese zu mildern. Die Analyse zeigt, dass Inkonsistenz ein Hauptproblem darstellt und zur Zahlenhalluzination beiträgt.
Einleitung: LVLMs haben Erfolg, aber kämpfen mit Halluzinationen.
Zahlenhalluzinationen: Neue Form der Halluzination, Daten und Bewertungsmetriken.
Konsistenzanalyse: Inkonsistenzen in verschiedenen Aufgaben und Perspektiven.
Milderung von Zahlenhalluzinationen: Konsistenztraining als Lösung.
Experimente und Ergebnisse: Effektivität des Konsistenztrainings.
Verwandte Arbeiten: Untersuchungen zu LVLMs und Zählungsaufgaben.
Statistiken
LVLMs leiden unter schweren Zahlenhalluzinationen.
Alle Modelle zeigen eine durchschnittliche MAE von etwa 2.
LLaVA-v1.5-Modelle haben ebenfalls Zahlenhalluzinationen.
Zitate
"Inkonsistenz ist ein potenzieller Auslöser für Zahlenhalluzinationen."
"Konsistenztraining führt zu einer durchschnittlichen Verbesserung von 8%."