Core Concepts
GPT-4Vの視覚言語グラウンディング能力を活用し、ゼロショット視覚的異常検知タスクにおける性能を評価する。
Abstract
本論文は、GPT-4Vの視覚言語グラウンディング能力を活用し、ゼロショット視覚的異常検知タスクの可能性を探索している。
具体的には以下の3つのコンポーネントから成る「GPT-4V-AD」フレームワークを提案している:
粒度の高い領域分割: 画像を構造的または意味的に類似した領域に分割する。
プロンプト設計: 異常検知に適したプロンプトを設計する。
Text2Segmentation: 領域ごとの異常スコアを出力し、それを元に異常領域のセグメンテーションを行う。
実験では、MVTec AD及びVisAデータセットを用いて定量的・定性的な評価を行った。その結果、GPT-4Vはゼロショット異常検知タスクにおいて一定の性能を発揮できることが示された。特にVisAデータセットでは、一部の指標でSoTAを上回る結果を得た。
一方で、異常検知タスクが要求する画素レベルのグラウンディング能力については、GPT-4Vの性能にはまだ改善の余地があることが明らかになった。今後の課題として、より適切な前処理手法やプロンプト設計、他手法との組み合わせなどが挙げられる。
Stats
異常検知の画像レベルAU-ROCは77.1%、ピクセルレベルAU-ROCは68.0%
VisAデータセットでは画像レベルAU-ROCが88.0%と、SoTAを6.8ポイント上回る結果を得た
Quotes
"GPT-4V can achieve certain results in the zero-shot AD task through a VQA paradigm, such as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec AD and VisA datasets, respectively."
"However, its performance still has a certain gap compared to the state-of-the-art zero-shot method, e.g., WinCLIP and CLIP-AD, and further researches are needed."