Dieser Artikel führt eine neue Herausforderung für Vision-Sprache-Modelle (VLMs) ein, die als "Erkennung unlösbarer Probleme" (Unsolvable Problem Detection, UPD) bezeichnet wird. UPD besteht aus drei Teilaufgaben: Erkennung fehlender Antworten (Absent Answer Detection, AAD), Erkennung inkompatibeler Antwortsätze (Incompatible Answer Set Detection, IASD) und Erkennung inkompatibeler Bild-Frage-Paare (Incompatible Visual Question Detection, IVQD).
Die Autoren entwickeln Benchmarks für diese drei UPD-Teilaufgaben, basierend auf dem MMBench-Datensatz. Sie evaluieren verschiedene leistungsstarke VLMs, darunter LLaVA-1.5, CogVLM, Qwen-VL-Chat, LLaVA-NeXT und GPT-4V, auf diesen Benchmarks. Die Ergebnisse zeigen, dass die meisten VLMs Schwierigkeiten haben, unsolvable Probleme zu erkennen, und oft falsche Antworten geben, selbst wenn ihre Standardgenauigkeit auf MMBench-Aufgaben angemessen ist.
Die Autoren untersuchen auch zwei Ansätze, um VLMs robuster gegen UPD-Probleme zu machen: Prompt-Engineering und Instruktions-Feinabstimmung. Prompt-Engineering mit zusätzlichen Optionen oder Anweisungen verbessert die Leistung einiger VLMs, ist aber nicht für alle Modelle und Teilaufgaben effektiv. Die Instruktions-Feinabstimmung führt zu Verbesserungen, hat aber immer noch Schwierigkeiten, insbesondere bei kleineren VLMs und in der AAD-Teilaufgabe.
Insgesamt zeigen die Ergebnisse, dass UPD eine neue und bedeutende Herausforderung für VLMs darstellt, die weitere Forschung erfordert, um die Zuverlässigkeit und Sicherheit dieser Modelle zu verbessern.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Atsuyuki Miy... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.20331.pdfDeeper Inquiries