Core Concepts
악성코드 탐지 모델의 성능 저하를 야기하는 개념 drift를 예측하고 이를 대응하기 위해 적대적 훈련과 생성적 적대 신경망을 활용한다.
Abstract
이 연구는 악성코드 탐지 모델의 성능 저하를 야기하는 개념 drift 문제를 다룹니다. 개념 drift는 악성코드 작성자들이 탐지를 회피하기 위해 악성코드를 지속적으로 변형시키기 때문에 발생합니다.
연구에서는 두 가지 방법을 제안합니다:
적대적 훈련: 모델에 대한 적대적 예제를 생성하여 훈련 데이터에 포함시켜 모델을 강화한다.
생성적 적대 신경망(GAN): 과거 데이터의 변화 패턴을 학습하여 미래 데이터를 예측하고 이를 훈련 데이터에 포함시킨다.
실험 결과, 적대적 훈련은 모델의 강건성을 높이지만 미래 데이터 예측에는 효과적이지 않은 것으로 나타났습니다. 반면 GAN 기반 예측은 미래 데이터 분포 변화를 효과적으로 모델링할 수 있었고, 이를 통해 정기적으로 재학습하는 모델의 성능을 10%까지 향상시킬 수 있었습니다.
Stats
악성코드 샘플의 특징 벡터 변화로 인해 모델 성능이 최대 15% 저하될 수 있다.
GAN 기반 예측을 통해 정기적으로 재학습하는 모델의 성능을 최대 13% 향상시킬 수 있다.
Quotes
"악성코드 작성자들은 탐지를 회피하기 위해 악성코드를 지속적으로 변형시킨다."
"GAN 기반 예측은 미래 데이터 분포 변화를 효과적으로 모델링할 수 있었고, 이를 통해 정기적으로 재학습하는 모델의 성능을 향상시킬 수 있었다."