Diese Studie untersucht das Phänomen der visuellen Halluzinationen in Vision-Language-Modellen (VLMs) und bietet eine umfassende Kategorisierung. Es werden acht Hauptkategorien von visuellen Halluzinationen identifiziert: Kontextuelle Vermutung, Identitätsinkongruenz, geografischer Irrtum, visuelle Illusion, Geschlechtsanomalie, VLM als Klassifikator, falsche Lesart und numerische Abweichung.
Um diese Kategorien zu untersuchen, wurde ein Datensatz namens Visual HallucInation eLiciTation (VHILT) erstellt, der 2.000 Beispiele für Bildunterschriften und Visuelle Frage-Antwort-Aufgaben (VQA) umfasst, die von acht VLMs generiert wurden. Jede Instanz wurde von menschlichen Annotatoren den entsprechenden Halluzinationskategorien zugeordnet.
Darüber hinaus werden in dieser Studie drei Hauptfamilien von Techniken zur Minderung von Halluzinationen vorgestellt: datengesteuerte Ansätze, Anpassungen des Trainings und Nachbearbeitungstechniken. Diese Techniken zielen darauf ab, die Faktizität und Genauigkeit der Ausgaben von VLMs zu verbessern.
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Vipula Rawte... klo arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17306.pdfSyvällisempiä Kysymyksiä