本論文では、視覚言語モデル(VLM)を使用して、ビジョンモデルを人間が理解可能な概念に基づいて分析する手法を提案している。
まず、Conspec言語を提案し、この言語を使ってビジョンモデルの仕様を概念に基づいて記述できるようにする。Conspecでは、概念間の強さの関係を表す述語を定義することができる。
次に、VLMを使ってConspec述語の意味を定義する。VLMは大量の画像-テキストペアで学習されているため、画像に含まれる概念を表すベクトルを自然言語から抽出できる。さらに、ビジョンモデルの表現空間とVLMの表現空間の間の線形写像を学習することで、ビジョンモデルの概念表現をVLMの概念表現を使って定義できる。
最後に、提案手法を ResNet18 モデルと CLIP VLMを使って実装し、RIVAL10データセットで評価する。実験結果から、提案手法によってビジョンモデルの概念ベースの仕様を効率的に検証できることが示された。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor