核心概念
オブジェクトにとらわれないグローバル-ローカルプロンプト学習とGlocal対照学習を用いることで、従来手法よりも高精度かつ様々なドメインに汎化するゼロショット異常検出を実現する。
要約
GlocalCLIP: オブジェクトにとらわれないグローバル-ローカルプロンプト学習によるゼロショット異常検出
本論文は、事前に異常データの学習を必要としないゼロショット異常検出 (ZSAD) において、特に従来手法では困難であった、学習データとテストデータの分布の差異やデータ不足への対応を目的とする。
事前学習済みVision-LanguageモデルCLIPをベースに、グローバルプロンプトとローカルプロンプトを明示的に分離し、相補的に学習する新たなZSAD手法、GlocalCLIPを提案する。
オブジェクトにとらわれないグローバル-ローカルセマンティックプロンプト設計により、画像内の特定のオブジェクトに依存せず、一般的な正常パターンと異常パターンを効果的に捉える。
テキストエンコーダでは、深層テキストプロンプトチューニングを用いることで、テキストプロンプトを微調整し、より正確な表現を獲得する。
ビジョンエンコーダでは、従来のQKVアテンションをV-Vアテンションに変更することで、局所的な画像特徴をより正確に学習する。
グローバル対照学習を導入し、グローバルプロンプトとローカルプロンプトの相補的な学習を促進することで、様々なドメインにおける異常パターンの検出精度を向上させる。