Khái niệm cốt lõi
Ein neuartiges, vollständig unüberwachtes Lernframework namens ESREAL, das Halluzinationen in Vision-Language-Modellen durch genaue Lokalisierung und Bestrafung halluzinierter Token effektiv reduziert.
Tóm tắt
Die Studie stellt ein neuartiges, vollständig unüberwachtes Lernframework namens ESREAL vor, das Halluzinationen in Vision-Language-Modellen (VLMs) effektiv reduziert. ESREAL nutzt eine referenzfreie Halluzinationserkennungspipeline, die auf semantischer Rekonstruktion basiert, um die Anwesenheit und Art von Token-Halluzinationen in generierten Bildunterschriften zu identifizieren.
Die Erkennungspipeline besteht aus drei Modulen:
- Das semantische Rekonstruktionsmodul erstellt ein rekonstruiertes Bild basierend auf der generierten Bildunterschrift.
- Das Ausrichtungsmodul ordnet Objekttoken in der generierten Unterschrift den entsprechenden Regionen in Original- und rekonstruiertem Bild zu.
- Das Bewertungsmodul berechnet Token-Halluzinationswerte, indem es die semantische Ähnlichkeit der ausgerichteten Regionen basierend auf der Art der Halluzination bewertet.
Anschließend nutzt ESREAL diese Token-Halluzinationswerte als feinkörnige Strafen in einem Proximal Policy Optimization (PPO) Algorithmus, um die Generierung halluzinatorischer Inhalte gezielt zu unterdrücken.
Die Experimente zeigen, dass ESREAL die Halluzinationen in LLaVA, InstructBLIP und mPLUG-Owl2 um 32,81%, 27,08% bzw. 7,46% auf der CHAIR-Metrik reduziert, ohne die Leistung auf aufgabenspezifischen Metriken wie CIDEr, ROUGE-L und BLEU zu beeinträchtigen.
Thống kê
Die Halluzinationen in den Bildunterschriften von LLaVA, InstructBLIP und mPLUG-Owl2 wurden um 32,81%, 27,08% bzw. 7,46% auf der CHAIR-Metrik reduziert.
Der FaithScore, der eine breitere Palette von Halluzinationstypen erfasst, verbesserte sich für LLaVA von 0,7401 auf 0,7846, für InstructBLIP von 0,7113 auf 0,7834 und für mPLUG-Owl2 von 0,7171 auf 0,7202.
Trích dẫn
"Halluzinationen in Vision-Language-Modellen stellen eine erhebliche Herausforderung für ihre Zuverlässigkeit dar, insbesondere bei der Generierung langer Bildunterschriften."
"ESREAL nutzt die von der Erkennungspipeline produzierten Werte als feinkörnige Strafen in einem Proximal Policy Optimization (PPO) Algorithmus, um die Generierung halluzinatorischer Inhalte gezielt zu unterdrücken."