Core Concepts
CLIP の黒箱性を解消し、物体認識の説明可能性を向上させる。
Abstract
本論文は、大規模な Vision Language Model (VLM) であるCLIPの説明可能性を高める新しい手法を提案している。
まず、物体認識タスクにおける説明可能性を、カテゴリーと根拠の結合確率分布に基づいて数学的に定義する。この定義に基づき、2段階のプロンプトベースのモデルを提案する。第1段階では、画像から視覚的な根拠(rationale)を予測し、第2段階ではその根拠を利用してカテゴリーを予測する。
この手法により、CLIP の分類精度を維持しつつ、意味のある根拠を提供することができる。6つの多様なデータセットでの実験結果が示すように、提案手法は単一データセットおよびゼロショット設定の両方で、従来手法を大きく上回る説明可能な物体認識性能を達成している。
さらに、提案手法の各コンポーネントの寄与を分析する ablation study を行い、本手法の有効性を検証している。
Stats
画像に大きな目がある
画像に毛深い尾がある
画像に壁がある
Quotes
"大規模な Vision Language Model (VLM) であるCLIPの黒箱性を解消し、物体認識の説明可能性を向上させる"
"カテゴリーと根拠の結合確率分布に基づいて説明可能性を数学的に定義する"
"2段階のプロンプトベースのモデルを提案し、CLIP の分類精度を維持しつつ、意味のある根拠を提供する"