Dieser Artikel stellt einen neuen Datensatz namens UNK-VQA vor, der speziell entwickelt wurde, um die Herausforderung von Fragen, die Modelle nicht beantworten können, anzugehen. Dazu werden bestehende Daten durch gezielte Störungen entweder am Bild oder an der Frage erweitert. Die Identifizierung unantwortbarer Fragen wird so erschwert, da die Frage-Bild-Semantik nahe an der ursprünglichen ungestörten Verteilung bleibt.
Der Artikel evaluiert die Null- und Wenig-Schuss-Leistung mehrerer aufstrebender multimodaler Großmodelle auf dem neu eingeführten Datensatz und zeigt ihre erheblichen Einschränkungen auf. Darüber hinaus wird eine einfache Methode vorgestellt, um diese unantwortbaren Fragen zu bewältigen.
Der Datensatz soll als wertvoller Benchmark dienen, um die Abstentionsfähigkeit von VQA-Modellen zu verbessern und so die Zuverlässigkeit von KI-Systemen zu erhöhen.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы