Kernkonzepte
視覚言語モデルは、解決不可能な問題に直面した際に適切に答えを控えることができない。
Zusammenfassung
本論文は、視覚言語モデル(VLM)の信頼性を評価する新しい課題「解決不可能な問題の検出(Unsolvable Problem Detection: UPD)」を提案している。UPDは、3つの設定で構成される:
答えの欠落検出(Absent Answer Detection: AAD) - 正解選択肢が存在しない場合に、モデルが答えを控えられるかを評価する。
不適合な答え選択肢検出(Incompatible Answer Set Detection: IASD) - 答え選択肢が問題文や画像と全く関係ない場合に、モデルが答えを控えられるかを評価する。
不適合な視覚問題検出(Incompatible Visual Question Detection: IVQD) - 問題文と画像が関係ない場合に、モデルが答えを控えられるかを評価する。
著者らは、MMBenchマークを基に、AAD、IASD、IVQDの3つのベンチマークを構築した。5つの最新のオープンソースVLMと2つのクローズドソースVLMを評価した結果、ほとんどのVLMが解決不可能な問題に直面しても適切に答えを控えられないことが明らかになった。GPT-4VとLLaVA-Next-34Bが他のVLMよりも良い性能を示したが、一部の能力や設定では依然として課題があることが分かった。
著者らは、プロンプトエンジニアリングによる訓練フリーの解決策と、教示チューニングによる訓練ベースの解決策を検討したが、いずれも完全な解決には至らず、UPDの課題の複雑さを示している。今後の研究では、より革新的なアプローチが必要とされる。
Statistiken
視覚言語モデルは、解決不可能な問題に直面しても適切に答えを控えることができない。