Diese Studie untersucht das Phänomen der visuellen Halluzinationen in Vision-Language-Modellen (VLMs) und bietet eine umfassende Kategorisierung. Es werden acht Hauptkategorien von visuellen Halluzinationen identifiziert: Kontextuelle Vermutung, Identitätsinkongruenz, geografischer Irrtum, visuelle Illusion, Geschlechtsanomalie, VLM als Klassifikator, falsche Lesart und numerische Abweichung.
Um diese Kategorien zu untersuchen, wurde ein Datensatz namens Visual HallucInation eLiciTation (VHILT) erstellt, der 2.000 Beispiele für Bildunterschriften und Visuelle Frage-Antwort-Aufgaben (VQA) umfasst, die von acht VLMs generiert wurden. Jede Instanz wurde von menschlichen Annotatoren den entsprechenden Halluzinationskategorien zugeordnet.
Darüber hinaus werden in dieser Studie drei Hauptfamilien von Techniken zur Minderung von Halluzinationen vorgestellt: datengesteuerte Ansätze, Anpassungen des Trainings und Nachbearbeitungstechniken. Diese Techniken zielen darauf ab, die Faktizität und Genauigkeit der Ausgaben von VLMs zu verbessern.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Vipula Rawte... في arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17306.pdfاستفسارات أعمق