核心概念
本稿では、従来のCNNベースのプロトタイプネットワークの限界に対処し、ViTバックボーンと空間的に変形可能なプロトタイプを組み合わせることで、より正確かつ解釈可能な画像分類を実現するProtoViTを提案する。
要約
ProtoViT: 適応型プロトタイプベースビジョントランスフォーマーを用いた解釈可能な画像分類
Ma, C., Donnelly, J., Liu, W., Vosoughi, S., Rudin, C., & Chen, C. (2024). Interpretable Image Classification with Adaptive Prototype-based Vision Transformers. Advances in Neural Information Processing Systems, 36.
本研究は、深層学習モデルの解釈可能性を高めることを目的とし、特に画像分類タスクにおいて、Vision Transformer (ViT) バックボーンと適応的に学習されたプロトタイプを組み合わせることで、高精度かつ解釈可能なモデルを開発することを目指している。