Core Concepts
GPT-4V의 시각-언어 융합 능력을 활용하여 이미지 수준 및 픽셀 수준의 제로샷 이상 탐지 기술을 제안하고 평가하였다.
Abstract
이 연구는 GPT-4V의 시각-언어 융합 능력을 활용하여 제로샷 이상 탐지 문제를 해결하고자 하였다. 구체적으로 다음과 같은 내용을 다루었다:
이미지를 세분화된 영역으로 나누는 Granular Region Division 기법을 제안하였다. 이를 통해 GPT-4V의 픽셀 수준 이해 능력을 향상시켰다.
적절한 프롬프트 설계를 통해 GPT-4V의 이상 탐지 성능을 높였다.
Text2Segmentation 기법을 통해 GPT-4V의 출력을 이용하여 최종 이상 영역 검출 결과를 생성하였다.
실험 결과, 제안한 GPT-4V-AD 프레임워크는 MVTec AD와 VisA 데이터셋에서 상당한 성능을 보였다. 특히 VisA 데이터셋에서는 기존 최신 기법을 능가하는 성과를 달성하였다. 그러나 전반적으로 CLIP 기반의 대조 학습 기법에 비해서는 여전히 성능 격차가 있어 추가적인 연구가 필요할 것으로 보인다.
Stats
이미지 수준 AU-ROC: 77.1
픽셀 수준 AU-ROC: 68.0
이미지 수준 AP: 69.9
픽셀 수준 AP: 6.4
이미지 수준 F1-max: 75.1
픽셀 수준 F1-max: 14.6
픽셀 수준 AU-PRO: 31.4
Quotes
"GPT-4V can achieve certain results in the zero-shot AD task through a VQA paradigm, such as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec AD and VisA datasets, respectively."
"However, its performance still has a certain gap compared to the state-of-the-art zero-shot method, e.g., WinCLIP and CLIP-AD, and further researches are needed."