Dieser Artikel führt eine neue Herausforderung für Vision-Sprache-Modelle (VLMs) ein, die als "Erkennung unlösbarer Probleme" (Unsolvable Problem Detection, UPD) bezeichnet wird. UPD besteht aus drei Teilaufgaben: Erkennung fehlender Antworten (Absent Answer Detection, AAD), Erkennung inkompatibeler Antwortsätze (Incompatible Answer Set Detection, IASD) und Erkennung inkompatibeler Bild-Frage-Paare (Incompatible Visual Question Detection, IVQD).
Die Autoren entwickeln Benchmarks für diese drei UPD-Teilaufgaben, basierend auf dem MMBench-Datensatz. Sie evaluieren verschiedene leistungsstarke VLMs, darunter LLaVA-1.5, CogVLM, Qwen-VL-Chat, LLaVA-NeXT und GPT-4V, auf diesen Benchmarks. Die Ergebnisse zeigen, dass die meisten VLMs Schwierigkeiten haben, unsolvable Probleme zu erkennen, und oft falsche Antworten geben, selbst wenn ihre Standardgenauigkeit auf MMBench-Aufgaben angemessen ist.
Die Autoren untersuchen auch zwei Ansätze, um VLMs robuster gegen UPD-Probleme zu machen: Prompt-Engineering und Instruktions-Feinabstimmung. Prompt-Engineering mit zusätzlichen Optionen oder Anweisungen verbessert die Leistung einiger VLMs, ist aber nicht für alle Modelle und Teilaufgaben effektiv. Die Instruktions-Feinabstimmung führt zu Verbesserungen, hat aber immer noch Schwierigkeiten, insbesondere bei kleineren VLMs und in der AAD-Teilaufgabe.
Insgesamt zeigen die Ergebnisse, dass UPD eine neue und bedeutende Herausforderung für VLMs darstellt, die weitere Forschung erfordert, um die Zuverlässigkeit und Sicherheit dieser Modelle zu verbessern.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania