Core Concepts
画像の特徴を比較し、分類の基礎となる類似性を形成する、透明な予測を生成する解釈可能なコンピュータビジョンモデルが重要である。
Abstract
透明な予測を生成するために、新しい説明可能な画像分類アプローチであるComponent Features(ComFe)が導入されました。このアプローチは、Transformerデコーダーと階層的混合モデリングを使用しており、グローバル画像ラベルのみを使用して画像の部品を識別し、予測に情報提供する能力があります。ComFeは、以前の解釈可能なモデルよりも高い精度を達成し、各データセットごとにハイパーパラメータを個別に調整する必要がありません。さらに、ComFeは一般化および堅牢性のベンチマークで非解釈可能な線形ヘッドよりも優れたパフォーマンスを発揮します。
Stats
ComFeは以前の解釈可能なモデルよりも高い精度を達成します。
ComFeは一般化および堅牢性の面で非解釈可能な線形ヘッドよりも優れたパフォーマンスを発揮します。
ComFeは大規模な画像データセットに対応できます。
Quotes
"Interpretable computer vision models can produce transparent predictions, where the features of an image are compared with prototypes from a training dataset and the similarity between them forms a basis for classification."
"We demonstrate that ComFe obtains higher accuracy compared to previous interpretable models across a range of fine-grained vision benchmarks, without the need to individually tune hyperparameters for each dataset."
"ComFe outperforms a non-interpretable linear head across a range of datasets, including ImageNet, and improves performance on generalisation and robustness benchmarks."