Kernekoncepter
SOWA 프레임워크는 CLIP 모델에 계층적 고정 윈도우 자기 주의 메커니즘과 학습 가능한 프롬프트를 통합하여 다양한 규모와 맥락에서 이상 탐지 정확도를 향상시킵니다.
Resumé
SOWA: 향상된 이상 탐지를 위한 계층적 고정 윈도우 자기 주의를 시각-언어 모델에 적용
본 연구 논문에서는 산업 제조 분야에서 중요한 작업인 시각적 이상 탐지의 정확성과 효율성을 향상시키는 것을 목표로 합니다. 특히, 기존 방법론들이 가진 정상 데이터셋에 대한 높은 의존성과 작업 특정 모델의 한계를 극복하고자 합니다.
본 논문에서는 CLIP 모델을 기반으로 하여, 학습 가능한 프롬프트를 통해 다단계 특징을 처리하는 Soldier-Officer Window Self-Attention (SOWA) 프레임워크 내에서 새로운 윈도우 자기 주의 메커니즘을 소개합니다.
SOWA 프레임워크
계층적 고정 윈도우 자기 주의 (HFWA): CLIP ViT의 다단계 출력 특징을 캡처하고 균형을 맞춰 이상 패턴에 적용합니다.
듀얼 학습 가능 프롬프트: 이상과 정상의 의미를 통합하는 학습 가능한 텍스트 프롬프트 템플릿을 사용하여 정상 및 비정상을 효과적으로 구분하는 텍스트 임베딩을 생성합니다.
고정 윈도우 자기 주의 (FWA) 어댑터: 이미지 특징을 여러 윈도우로 나누고 각 윈도우 내에서 자기 주의를 적용하여 로컬 특징을 향상시키고, 처리된 윈도우 특징을 다시 결합하여 강력한 글로벌 연관성을 생성합니다.
시각-언어 정렬: Focal Loss와 Dice Loss를 사용하여 클래스 불균형을 해결하고 예측된 분할과 실제 레이블 간의 겹침을 측정하여 모델이 결정 경계를 정확하게 정의하도록 합니다.
퓨샷 추론: 정상 이미지에서 계층적 특징을 추출하여 특징 메모리 뱅크에 저장하고, 검사할 이미지의 특징을 저장된 정상 특징과 비교하여 이상 영역을 식별합니다.