Effiziente Erkennung und Reduzierung von Halluzinationen in Vision-Language-Modellen durch semantische Rekonstruktion
Ein neuartiges, vollständig unüberwachtes Lernframework namens ESREAL, das Halluzinationen in Vision-Language-Modellen durch genaue Lokalisierung und Bestrafung halluzinierter Token effektiv reduziert.