GPT-4V의 시각-언어 융합 능력을 활용하여 이미지 수준 및 픽셀 수준의 제로샷 이상 탐지 기술을 제안하고 평가하였다.
본 논문은 기존 제로샷 이상 탐지 방법의 한계를 극복하기 위해 세부적인 이상 설명과 정확한 위치 파악 기법을 제안한다. 이를 통해 다양한 유형의 이상을 정확하게 탐지하고 위치를 파악할 수 있다.
시각 강화 멀티모달 대규모 언어 모델(VMAD)은 이상 탐지와 설명적 분석을 동시에 제공하여 산업 현장의 유연성과 해석 가능성을 향상시킨다.
이 연구는 사전 훈련된 비전-언어 모델(VLM)을 사용하여 이미지에서 미세한 이상을 탐지하는 새로운 제로샷 이상 탐지 프레임워크인 FAPrompt를 제안합니다.