Core Concepts
오염된 데이터에서도 강력한 이상 탐지 성능을 보이는 SoftPatch 알고리즘을 제안한다.
Abstract
이 논문은 실제 산업 현장에서 발생할 수 있는 오염된 데이터 문제에 초점을 맞추고 있다. 기존의 비지도 이상 탐지 알고리즘들은 깨끗한 학습 데이터를 전제로 하기 때문에, 오염된 데이터가 포함된 경우 성능이 저하된다.
이를 해결하기 위해 SoftPatch 알고리즘을 제안한다. SoftPatch는 패치 단위의 노이즈 식별자를 사용하여 오염된 패치를 제거하고, 남은 패치들의 노이즈 점수를 활용하여 이상 탐지 경계를 조절한다. 이를 통해 오염된 데이터에서도 강력한 이상 탐지 성능을 보인다.
구체적으로 SoftPatch는 다음과 같은 과정을 거친다:
패치 단위의 노이즈 식별자(Nearest Neighbor, Gaussian, LOF)를 사용하여 오염된 패치를 식별하고 제거
남은 패치들의 노이즈 점수를 메모리 뱅크에 저장하여 이상 탐지 점수 계산 시 활용
이상 탐지 점수 계산 시 노이즈 점수를 활용하여 오염된 데이터의 영향을 완화
실험 결과, SoftPatch는 기존 방법들에 비해 오염된 데이터 환경에서 월등한 성능을 보였다. 특히 유사한 외관의 이상 샘플이 포함된 경우에도 강건한 성능을 보였다.
Stats
오염된 데이터가 포함된 경우 기존 방법들의 성능이 최대 40% 하락할 수 있다.
SoftPatch는 오염 수준이 증가해도 성능 하락이 미미하다.
Quotes
"오염된 데이터가 학습 데이터에 포함되는 것은 실제 산업 현장에서 피할 수 없는 문제이지만, 이에 대한 연구는 거의 이루어지지 않았다."
"SoftPatch는 패치 단위의 노이즈 식별과 메모리 뱅크의 재가중을 통해 오염된 데이터에서도 강력한 이상 탐지 성능을 보인다."