本研究では、専門家定義概念に基づくビジョン-言語概念ボトルネックモデル(VL-CBM)の信頼性と解釈可能性を高めるために、概念アラインメントの改善に取り組んでいる。
まず、CUB、RIVAL、AwA2などのデータセットを用いて、CLIP (VLM)モデルの概念スコアの忠実性を検証した。その結果、CLIP モデルは高い分類性能を示す一方で、概念精度が低く、細粒度な概念を正しく関連付けることができないことが明らかになった。
そこで、提案するContrastive Semi-Supervised (CSS) 学習手法を用いて、少数の人手ラベル付き概念例を活用して概念アラインメントを改善した。CSSは、同一クラスの概念スコアの一貫性を高め、クラス間の概念スコアを弁別することで、概念精度と分類精度を大幅に向上させることができた。
さらに、細粒度分類問題における混同クラスを特定し、それらのクラスの概念空間を介入することで、全体的な分類性能をさらに向上させた。
実験の結果、提案手法はCUBデータセットで81.45%の分類精度と63.53%の概念精度を達成し、従来手法を上回る性能を示した。RIVAL、AwA2、WBCAttデータセットでも同様の効果が確認された。
本研究の成果は、専門家定義概念に基づくVL-CBMの信頼性と解釈可能性を大幅に向上させ、医療分野などの重要な応用分野への活用が期待される。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Nithish Muth... ב- arxiv.org 05-06-2024
https://arxiv.org/pdf/2405.01825.pdfשאלות מעמיקות