Dieser Artikel stellt einen neuen Datensatz namens UNK-VQA vor, der speziell entwickelt wurde, um die Herausforderung von Fragen, die Modelle nicht beantworten können, anzugehen. Dazu werden bestehende Daten durch gezielte Störungen entweder am Bild oder an der Frage erweitert. Die Identifizierung unantwortbarer Fragen wird so erschwert, da die Frage-Bild-Semantik nahe an der ursprünglichen ungestörten Verteilung bleibt.
Der Artikel evaluiert die Null- und Wenig-Schuss-Leistung mehrerer aufstrebender multimodaler Großmodelle auf dem neu eingeführten Datensatz und zeigt ihre erheblichen Einschränkungen auf. Darüber hinaus wird eine einfache Methode vorgestellt, um diese unantwortbaren Fragen zu bewältigen.
Der Datensatz soll als wertvoller Benchmark dienen, um die Abstentionsfähigkeit von VQA-Modellen zu verbessern und so die Zuverlässigkeit von KI-Systemen zu erhöhen.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yangyang Guo... alle arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.10942.pdfDomande più approfondite