Core Concepts
視覚言語モデルを使用して、人間が理解可能な概念に基づいてビジョンモデルを分析する手法を提案する。
Abstract
本論文では、視覚言語モデル(VLM)を使用して、ビジョンモデルを人間が理解可能な概念に基づいて分析する手法を提案している。
まず、Conspec言語を提案し、この言語を使ってビジョンモデルの仕様を概念に基づいて記述できるようにする。Conspecでは、概念間の強さの関係を表す述語を定義することができる。
次に、VLMを使ってConspec述語の意味を定義する。VLMは大量の画像-テキストペアで学習されているため、画像に含まれる概念を表すベクトルを自然言語から抽出できる。さらに、ビジョンモデルの表現空間とVLMの表現空間の間の線形写像を学習することで、ビジョンモデルの概念表現をVLMの概念表現を使って定義できる。
最後に、提案手法を ResNet18 モデルと CLIP VLMを使って実装し、RIVAL10データセットで評価する。実験結果から、提案手法によってビジョンモデルの概念ベースの仕様を効率的に検証できることが示された。
Stats
提案手法を用いて、ResNet18モデルの仕様を効率的に検証できることが示された。
ResNet18モデルの出力クラスが「トラック」の場合、「長方形」>「模様」の概念関係が成り立つ可能性が高いことが分かった。
ResNet18モデルの出力クラスが「車」の場合、「車輪」>「有色の目」の概念関係が成り立つ可能性が低いことが分かった。
Quotes
"VLMsは、ビジョンモデルを分析するための新しい機会を提供する。なぜなら、それらは自然言語を使ってビジュアルデータを解釈することができるからである。"
"提案手法は、VLMを使ってビジョンモデルの概念表現を定義することで、ビジョンモデルの意味的な形式分析を可能にする。"