Concepts de base
本稿では、大規模な視覚言語モデルCLIPに基づいた新しい異常検出フレームワークSOWAを提案する。SOWAは、CLIPの階層的な特徴を効果的に活用するために、固定ウィンドウ自己注意機構と学習可能なプロンプトを用いることで、従来手法よりも高精度な異常検出を実現する。
Résumé
SOWA: 視覚言語モデルを用いた異常検出のための階層的固定ウィンドウ自己注意機構
書誌情報: Hu, Z., Zhang, Z., & Xie, J. (2024). SOWA: Adapting Hierarchical Frozen Window Self-Attention to Visual-Language Models for Better Anomaly Detection. arXiv preprint arXiv:2407.03634v3.
研究目的: 本研究は、産業用途における異常検出の精度向上を目的とし、特に、大規模な視覚言語モデル(VLM)であるCLIPの階層的な特徴を効果的に活用する新しいフレームワークを提案する。
手法: 本研究では、CLIPモデルに基づいたSoldier-Officer Window self-Attention (SOWA) フレームワークを提案する。SOWAは、CLIPのビジョン・トランスフォーマー(ViT)の複数レベルの特徴を処理するために、ウィンドウベースの自己注意機構を採用している。具体的には、CLIPの注意重みをウィンドウ自己注意機構に注入・固定することで、CLIPの特徴抽出能力を継承しつつ、より広範なコンテキストを統合する。さらに、固定されたエンコードされたプロンプトの代わりに、学習可能なプロンプトを採用することで、様々なスケールやコンテキストにわたる異常の検出能力を高めている。
主な結果: 提案手法をMVTec-AD、VisA、BTAD、DAGM、DTD-Syntheticの5つのベンチマークデータセットを用いて評価した結果、既存の最先端技術と比較して、異常分類と異常セグメンテーションの両方において、優れた性能を達成した。
結論: 本研究で提案されたSOWAフレームワークは、視覚言語モデルを用いた異常検出において、従来手法よりも優れた性能を発揮することを示した。特に、階層的な特徴を活用することで、様々なスケールやコンテキストの異常に対して、より正確な検出が可能となった。
今後の研究: 今後の研究として、SOWAフレームワークを他の視覚言語モデルに適用することや、より複雑な産業用途における有効性を検証することが挙げられる。
Stats
提案手法は、5つのベンチマークデータセット(MVTec-AD、VisA、BTAD、DAGM、DTD-Synthetic)において、従来手法と比較して、異常分類と異常セグメンテーションの両方において、優れた性能を達成した。
MVTec-ADデータセットにおいて、提案手法は、最高のAC AUROCスコア96.8±0.3を達成し、WinCLIPを1.6パーセントポイント、April-GANを4.0パーセントポイント上回った。
Visaデータセットにおいて、提案手法は、AC AUROCスコア92.9±0.2を達成し、WinCLIPを5.6パーセントポイント、April-GANを0.3パーセントポイント上回った。
BTADデータセットにおいて、提案手法は、94.8±0.2に達し、WinCLIPより7.8パーセントポイント、April-GANより2.7パーセントポイント高かった。
DAGMデータセットにおいて、提案手法は、99.1という驚異的なスコアを達成し、WinCLIPを5.3パーセントポイント、April-GANを4.5パーセントポイント上回った。
DTD-Syntheticデータセットにおいて、提案手法は、99.1±0.0を記録し、WinCLIPより1.0パーセントポイント、April-GANより0.6パーセントポイント高かった。
DAGMデータセットにおいて、提案手法は、AS PROスコア96.6を達成し、WinCLIPを14.2パーセントポイント、April-GANを20.1パーセントポイント上回った。
BTADデータセットにおいて、提案手法は、16.84 it/sの処理速度を達成し、WinCLIPの3.28 it/s、April-GANの1.82 it/sと比較して高速であった。