Core Concepts
VLMはオープンセット条件に脆弱であり、適切な研究が必要である。
Abstract
VLM(Vision-Language Models)はクローズドセット仮定を導入し、オープンセット条件に対して脆弱性を示す。
クラス分類と物体検出の両方でVLMはオープンセットエラーを生じさせる。
ネガティブエンベッディングの効果的な選択や不確実性メジャーの改善が必要。
アプリケーション固有のデータセットにおける研究やオープンセットエラーのコストへの考慮も重要。
Stats
VLM分類器は95%再現率では約半数がオープンセットエラーを生じる。
VLM物体検出器は平均して画像あたり20〜300件のオープンセットエラーを示す。
Quotes
"VLM分類器は高い再現率でパフォーマンスが低下し、VLM検出器は高い精度でパフォーマンスが低下する。"