Core Concepts
CoProNNは、ドメイン専門家が自然言語を使って視覚タスクの説明を簡単に作成できるようにする新しいアプローチです。テキストから画像生成の最近の進歩を活用し、視覚的な概念ベースのプロトタイプを生成します。これらのプロトタイプは、単純なk-最近傍ルーチンを使って、コンピュータビジョンモデルの予測を説明するために使用されます。
Abstract
本論文では、CoProNNと呼ばれる新しいアプローチを提案しています。CoProNNは、ドメイン専門家が自然言語を使って視覚タスクの説明を簡単に作成できるようにするものです。
具体的には以下のような流れになります:
分類器の訓練: 標準的なコンピュータビジョンのバックボーンを微調整して、与えられたデータセットの画像を分類するDNNを訓練します。
事後的な説明手法の適合: ドメイン専門家は、初心者でも分類できるような、タスクに関連する視覚的な概念を定義します。これらの概念をテキストから画像生成モデル(Stable Diffusion)のプロンプトとして使用し、概念ベースのプロトタイプ画像を生成します。これらのプロトタイプ画像は、事前に訓練した分類器のフローズンバックボーンに通して特徴ベクトルを抽出し、k-最近傍法で処理されます。
テスト画像に対して、k-最近傍法で計算された各概念のプロトタイプとの類似度に基づいて、説明が生成されます。説明の形式は、"この画像はクラスAに分類されます。なぜなら、概念X、Yが存在し、概念Z、Wが存在しないからです"といったものです。
提案手法は、ドメイン専門家が容易に新しいタスクに適応できるよう設計されており、既存の概念ベースの説明手法と比較して優れた性能を示しています。ユーザースタディでも、提案手法が人間-AI協調を促進することが示されました。
Stats
画像分類タスクでは、提案手法のCoProNNが既存手法のTCAVやIBDよりも関連概念を高い確信度で特定できることが示されました。
ユーザースタディでは、CoProNNの説明を受けたユーザーの方が、AIの予測を正しく理解し、分類精度が向上することが示されました。
Quotes
"CoProNNは、ドメイン専門家が自然言語を使って視覚タスクの説明を簡単に作成できるようにする新しいアプローチです。"
"提案手法は、ドメイン専門家が容易に新しいタスクに適応できるよう設計されており、既存の概念ベースの説明手法と比較して優れた性能を示しています。"
"ユーザースタディでも、提案手法が人間-AI協調を促進することが示されました。"