Alapfogalmak
본 논문은 기존 제로샷 이상 탐지 방법의 한계를 극복하기 위해 세부적인 이상 설명과 정확한 위치 파악 기법을 제안한다. 이를 통해 다양한 유형의 이상을 정확하게 탐지하고 위치를 파악할 수 있다.
Kivonat
본 논문은 제로샷 이상 탐지(ZSAD) 문제를 해결하기 위한 새로운 방법인 FiLo를 제안한다. FiLo는 두 가지 핵심 구성 요소로 이루어져 있다:
- 적응적으로 학습된 세부적인 이상 설명(FG-Des)
- 대형 언어 모델(LLM)을 활용하여 각 물품 카테고리에 대한 세부적인 이상 유형을 생성한다.
- 수동으로 작성한 일반적인 "이상" 설명 대신 세부적인 이상 설명을 사용하여 다양한 유형의 이상을 정확하게 탐지할 수 있다.
- 적응적으로 학습된 텍스트 템플릿을 사용하여 텍스트 특징과 이미지 특징의 정렬을 향상시킨다.
- 위치 정보가 강화된 고품질 위치 파악(HQ-Loc)
- Grounding DINO를 활용하여 이상 영역의 대략적인 위치를 파악하고, 이를 통해 배경 영역의 오탐지를 방지한다.
- 위치 정보를 텍스트 프롬프트에 추가하여 이상 위치에 대한 정확한 설명을 제공한다.
- 다양한 크기와 모양의 이상을 효과적으로 파악하기 위해 Multi-scale Multi-shape Cross-modal Interaction(MMCI) 모듈을 도입한다.
실험 결과, FiLo는 기존 ZSAD 방법들에 비해 이상 탐지와 위치 파악 성능이 크게 향상되었음을 보여준다. VisA 데이터셋에서 이미지 수준 AUC 83.9%, 픽셀 수준 AUC 95.9%를 달성하며 최신 성능을 보였다.
Statisztikák
이미지 수준 AUC가 83.9%로 기존 방법 대비 1.1% 향상되었다.
픽셀 수준 AUC가 95.9%로 기존 방법 대비 0.4% 향상되었다.
Idézetek
"제로샷 이상 탐지 방법은 대상 항목 범주에 대한 정상 또는 비정상 샘플에 대한 접근 없이도 이상을 직접 탐지할 수 있어야 한다."
"기존 접근 방식은 일반적인 '비정상' 설명으로는 다양한 유형의 이상을 정확하게 일치시키기 어렵다."
"개별 패치 간 특징 유사도 계산으로는 다양한 크기와 모양의 이상을 정확하게 위치 파악하기 어렵다."