Основні поняття
ゼロショット異常検出において、細粒度の異常説明と位置特定の高精度化により、検出と位置特定の性能を大幅に向上させる。
Анотація
本論文は、ゼロショット異常検出(ZSAD)の課題に取り組んでいる。従来のZSAD手法は、一般的な「異常」や「欠陥」といった記述を使用していたが、これらでは異常の多様性を捉えきれないという問題があった。
そこで本手法では以下の2つの新しい手法を提案している:
- 細粒度の異常説明(FG-Des)
- 大規模言語モデル(LLM)を使って、各アイテムカテゴリに対する具体的な異常タイプを生成する
- 手動で作成した柔軟なテキストテンプレートを使い、異常説明をテキスト特徴に組み込む
これにより、異常検出の精度と解釈性が向上する。
- 高品質な位置特定(HQ-Loc)
- Grounding DINOによる初期的な位置特定
- 位置情報を組み込んだテキストプロンプト
- 多様な大きさや形状の異常に対応するMulti-scale Multi-shape Cross-modal Interaction (MMCI)モジュール
これにより、異常の位置特定精度が向上する。
実験の結果、提案手法FiLoは、MVTec、VisAデータセットにおいて、従来手法を大きく上回る性能を示した。特に、VisAデータセットでは、画像レベルAUCが83.9%、ピクセルレベルAUCが95.9%を達成し、最先端の性能を示した。
Статистика
異常検出の画像レベルAUCが83.9%
異常位置特定のピクセルレベルAUCが95.9%
Цитати
"従来のZSAD手法は、一般的な「異常」や「欠陥」といった記述を使用していたが、これらでは異常の多様性を捉えきれないという問題があった。"
"大規模言語モデル(LLM)を使って、各アイテムカテゴリに対する具体的な異常タイプを生成する"
"多様な大きさや形状の異常に対応するMulti-scale Multi-shape Cross-modal Interaction (MMCI)モジュール"