Khái niệm cốt lõi
SADDE는 제한된 레이블 데이터 환경에서 이상 탐지 시스템의 정확도와 신뢰성을 향상시키기 위해 고안된 프레임워크로, 특히 글로벌 및 로컬 인터프리터를 활용하여 시스템의 예측 이면에 있는 이유를 분석하고 설명함으로써 사용자의 신뢰도를 높입니다.
본 연구 논문에서는 제한된 레이블 데이터 환경에서 이상 탐지 작업을 수행하기 위해 특별히 고안된 새로운 준지도 학습 프레임워크인 SADDE를 제안합니다. SADDE는 두 가지 주요 구성 요소, 즉 글로벌-로컬 지식 연관 메커니즘(KAM)과 2단계 준지도 학습 시스템(ToS)으로 구성됩니다.
연구 목표
제한된 레이블 데이터만 사용 가능한 상황에서 효과적인 이상 탐지 시스템 구축
이상 탐지 시스템의 예측 결과에 대한 신뢰성 있는 설명 제공
방법론
1. 글로벌-로컬 지식 연관 메커니즘 (KAM)
로컬 인터프리터(예: DeepLift)를 사용하여 로컬 모델의 예측을 해석하고, 글로벌 인터프리터(예: PFIE)를 사용하여 글로벌 모델의 예측을 해석합니다.
글로벌 및 로컬 인터프리터에서 해석된 주요 특징 간의 유사성 점수를 계산하여 해석 결과의 신뢰성을 평가합니다.
유사성 점수가 미리 정의된 임계값보다 높으면 해석 결과가 신뢰할 수 있는 것으로 간주합니다.
2. 2단계 준지도 학습 시스템 (ToS)
로컬 머신 러닝 모델(예: MLP)과 글로벌 모델(예: DBSCAN)을 사용하여 레이블이 지정되지 않은 샘플에 대한 고 신뢰도 의사 레이블을 효과적으로 할당합니다.
로컬 모델은 주어진 인스턴스의 특징을 추출하고 예측을 수행하는 반면, 글로벌 모델은 특징 거리에 따라 특징 임베딩을 여러 클러스터로 그룹화합니다.
로컬 모델과 글로벌 모델의 예측을 비교하여 생성된 의사 레이블의 신뢰도를 평가합니다.
신뢰할 수 있는 것으로 확인된 의사 레이블이 지정된 샘플을 사용하여 글로벌 모델과 로컬 모델을 다시 학습합니다.
주요 결과
ISCXTor2016 및 CIC-DoHBrw-2020 네트워크 이상 탐지 데이터 세트를 사용한 실험을 통해 SADDE가 기존 방법보다 우수한 성능을 보여줍니다.
KAM은 높은 충실도, 안정성, 견고성 및 효율성을 달성하여 신뢰할 수 있는 해석 결과를 제공합니다.
ToS는 의사 레이블의 정확도를 효과적으로 향상시켜 전체 이상 탐지 정확도를 향상시킵니다.
연구의 중요성
본 연구는 제한된 레이블 데이터 환경에서 이상 탐지 시스템의 정확성과 신뢰성을 향상시키는 데 기여합니다. 특히, KAM을 통해 시스템의 예측 이면에 있는 이유를 분석하고 설명함으로써 사용자의 신뢰도를 높일 수 있습니다.
제한점 및 향후 연구 방향
본 연구에서는 데이터 포이즈닝/특징 변조 공격에 대한 견고성 평가에 중점을 두었습니다. 모델 포이즈닝 공격과 같은 다른 공격에 대한 SADDE의 견고성을 조사할 수 있습니다.
SADDE의 하이퍼파라미터는 경험적으로 구성되었습니다. 하이퍼파라미터를 구성하기 위한 고급 접근 방식을 설계할 수 있습니다.
본 연구에서는 페이지 제한으로 인해 서로 다른 데이터 분포 불균형 비율을 실험하지 않았습니다. 향후 다양한 불균형 비율의 영향 또는 극단적인 데이터 분포에서 SADDE의 성능에 대한 연구를 수행할 수 있습니다.
SADDE의 일반화 성능을 탐색하기 위해 다양한 모델 조합을 사용하는 더 많은 이상 탐지 시나리오를 테스트할 수 있습니다.
더 나은 다단계 준지도 학습 접근 방식이나 새로운 매칭 전략을 개발하여 레이블이 지정된 샘플이 거의 없는 시나리오에서 SADDE를 사용하는 방법을 모색할 수 있습니다.
Thống kê
ISCXTor2016 데이터 세트에서 정상 트래픽과 비정상 트래픽의 비율은 약 4.85:1입니다.
CIC-DoHBrw-2020 데이터 세트에서 정상 트래픽과 비정상 트래픽의 비율은 약 3.31:1입니다.
ISCXTor2016 데이터 세트에는 28개의 특징이 있습니다.
CIC-DoHBrw-2020 데이터 세트에는 33개의 특징이 있습니다.