Dieser Artikel stellt einen neuen Datensatz namens UNK-VQA vor, der speziell entwickelt wurde, um die Herausforderung von Fragen, die Modelle nicht beantworten können, anzugehen. Dazu werden bestehende Daten durch gezielte Störungen entweder am Bild oder an der Frage erweitert. Die Identifizierung unantwortbarer Fragen wird so erschwert, da die Frage-Bild-Semantik nahe an der ursprünglichen ungestörten Verteilung bleibt.
Der Artikel evaluiert die Null- und Wenig-Schuss-Leistung mehrerer aufstrebender multimodaler Großmodelle auf dem neu eingeführten Datensatz und zeigt ihre erheblichen Einschränkungen auf. Darüber hinaus wird eine einfache Methode vorgestellt, um diese unantwortbaren Fragen zu bewältigen.
Der Datensatz soll als wertvoller Benchmark dienen, um die Abstentionsfähigkeit von VQA-Modellen zu verbessern und so die Zuverlässigkeit von KI-Systemen zu erhöhen.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yangyang Guo... a las arxiv.org 03-18-2024
https://arxiv.org/pdf/2310.10942.pdfConsultas más profundas