핵심 개념
오염된 데이터에서도 강력한 이상 탐지 성능을 보이는 SoftPatch 알고리즘을 제안한다.
초록
이 논문은 실제 산업 현장에서 발생할 수 있는 오염된 데이터 문제에 초점을 맞추고 있다. 기존의 비지도 이상 탐지 알고리즘들은 깨끗한 학습 데이터를 전제로 하기 때문에, 오염된 데이터가 포함된 경우 성능이 저하된다.
이를 해결하기 위해 제안된 SoftPatch 알고리즘은 다음과 같은 특징을 가진다:
- 패치 단위의 노이즈 식별 기법을 통해 오염된 데이터를 효과적으로 제거한다. 기존 방식의 샘플 단위 제거보다 데이터 활용도가 높다.
- 노이즈 식별 점수를 메모리 뱅크에 저장하여 이상 탐지 과정에서 가중치로 활용함으로써, 오염된 데이터의 영향을 완화한다.
- 다양한 노이즈 식별 기법(최근접 이웃, 다변량 가우시안, LOF)을 제안하고 비교하였으며, LOF 기반 방식이 가장 우수한 성능을 보였다.
실험 결과, SoftPatch는 기존 방식에 비해 오염된 데이터 환경에서도 강력한 이상 탐지 성능을 보였다. 또한 일반적인 환경에서도 최신 기법들과 견줄만한 성능을 달성하였다.
통계
오염된 데이터가 10% 포함된 경우, PatchCore 방식의 이미지 수준 AUROC가 최대 3.7% 감소하였다.
SoftPatch-LOF 방식은 오염 수준이 증가해도 성능 저하가 크지 않았다.
인용구
"오염된 데이터가 포함된 경우 기존 비지도 이상 탐지 방식의 성능이 제한적이다."
"제안한 SoftPatch 방식은 패치 단위 노이즈 식별과 메모리 뱅크 재가중을 통해 오염된 데이터에 강인한 성능을 보였다."