核心概念
Dieser Datensatz zielt darauf ab, die Fähigkeit von VQA-Modellen zu verbessern, unantwortbare Fragen zu erkennen und sich zu enthalten, um die Zuverlässigkeit von KI-Systemen zu erhöhen.
摘要
Dieser Artikel stellt einen neuen Datensatz namens UNK-VQA vor, der speziell entwickelt wurde, um die Herausforderung von Fragen, die Modelle nicht beantworten können, anzugehen. Dazu werden bestehende Daten durch gezielte Störungen entweder am Bild oder an der Frage erweitert. Die Identifizierung unantwortbarer Fragen wird so erschwert, da die Frage-Bild-Semantik nahe an der ursprünglichen ungestörten Verteilung bleibt.
Der Artikel evaluiert die Null- und Wenig-Schuss-Leistung mehrerer aufstrebender multimodaler Großmodelle auf dem neu eingeführten Datensatz und zeigt ihre erheblichen Einschränkungen auf. Darüber hinaus wird eine einfache Methode vorgestellt, um diese unantwortbaren Fragen zu bewältigen.
Der Datensatz soll als wertvoller Benchmark dienen, um die Abstentionsfähigkeit von VQA-Modellen zu verbessern und so die Zuverlässigkeit von KI-Systemen zu erhöhen.
統計資料
Die Mehrheit der Fragen beginnt mit dem Wort "Was".
Die meisten Annotatoren zeigen ein hohes Maß an Vertrauen und erreichen einen starken Konsens in Bezug auf die Beantwortbarkeit der Fragen.
Die häufigste Begründung für die Unbeantwortbarkeit ist "Unklar zu verstehen".
Bei beantwortbaren Fragen verschieben sich die Antworten oft von den ursprünglichen Grundwahrheitsantworten zu den vom Basismodell vorhergesagten Antworten.
引述
"Lehren Visual Question Answering (VQA)-Modelle, sich zu enthalten, wenn Fragen nicht beantwortet werden können, ist für den Aufbau eines vertrauenswürdigen KI-Systems notwendig."
"Dieser Datensatz reflektiert die Tatsache, dass bestehende multimodale Großmodelle im Vergleich zu ihren Pendants im Sprachbereich nicht so allwissend sind."