Diese Studie untersucht das Phänomen der visuellen Halluzinationen in Vision-Language-Modellen (VLMs) und bietet eine umfassende Kategorisierung. Es werden acht Hauptkategorien von visuellen Halluzinationen identifiziert: Kontextuelle Vermutung, Identitätsinkongruenz, geografischer Irrtum, visuelle Illusion, Geschlechtsanomalie, VLM als Klassifikator, falsche Lesart und numerische Abweichung.
Um diese Kategorien zu untersuchen, wurde ein Datensatz namens Visual HallucInation eLiciTation (VHILT) erstellt, der 2.000 Beispiele für Bildunterschriften und Visuelle Frage-Antwort-Aufgaben (VQA) umfasst, die von acht VLMs generiert wurden. Jede Instanz wurde von menschlichen Annotatoren den entsprechenden Halluzinationskategorien zugeordnet.
Darüber hinaus werden in dieser Studie drei Hauptfamilien von Techniken zur Minderung von Halluzinationen vorgestellt: datengesteuerte Ansätze, Anpassungen des Trainings und Nachbearbeitungstechniken. Diese Techniken zielen darauf ab, die Faktizität und Genauigkeit der Ausgaben von VLMs zu verbessern.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Vipula Rawte... a las arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17306.pdfConsultas más profundas