核心概念
大規模な視覚言語モデル(LVLMs)は、自然言語によって導かれた視覚表現を導出することに非常に熟達している。最近の探索では、LVLMsを利用して、正常および異常状態を示す言語記述(異常プロンプト)を画像にペアリングすることで、ゼロショット視覚異常検出(VAD)の課題に取り組んでいる。しかし、既存のアプローチは、クロスセマンティックの曖昧さに陥りやすい静的な異常プロンプトに依存しており、正確な異常局在化に必要な重要なローカルピクセルレベルの画像テキストアラインメントよりも、グローバルな画像レベルの表現を優先している。
要約
本論文では、これらの課題に取り組むために、統一されたモデルであるALFAを提示する。我々は、大規模言語モデル(LLM)の機能を活用するためのランタイムプロンプト適応戦略を提案する。この戦略は、まず、異常プロンプトを生成して言語モデルの機能を活用し、次に、コンテキストスコアリングメカニズムを用いて、各画像に対してプロンプトを適応的に管理する。さらに、ピクセルレベルの正確な異常局在化を可能にするために、グローバルからローカルのセマンティックスペースへの投影を一般化する新しい細粒度アライナーを導入する。MVTecおよびVisAデータセットでの包括的な評価により、ALFAのゼロショットVADに対する有効性が確認された。ALFAは、ステート・オブ・ザ・アートのゼロショットVADアプローチと比較して、MVTec ADで12.1%、VisAで8.9%のPRO改善を達成した。
統計
正常な木材の画像は、一様な木目パターンと一貫した色調を示す。
異常な木材の画像は、わずかな変色と筋が見られる。
異常な木材の画像には、不規則な汚れが見られる。
引用
「正常な[クラス]の写真」と「異常な[クラス]の写真」という事前定義されたテキストテンプレートを利用して、異常検出を行う。
異常プロンプトは、正常と異常の状態のセマンティックスを明示し、LVLMのビジョンモジュールに、これら2つの状態がどのように定義されているかを示すため、その品質が重要な役割を果たす。