핵심 개념
메모리 덤프 분석과 다양한 기계 학습 알고리즘을 활용하여 난독화된 악성코드를 효과적으로 탐지할 수 있다.
초록
이 연구는 인터넷과 스마트 기기의 확산에 따른 악성코드 탐지의 중요성을 다룹니다. 악성코드 제작자들이 점점 더 복잡한 난독화 기법을 사용하면서 기존의 휴리스틱 기반 또는 시그니처 기반 시스템으로는 이를 탐지하기 어려워졌습니다.
이 연구에서는 메모리 덤프 분석과 다양한 기계 학습 알고리즘을 활용하여 난독화된 악성코드를 효과적으로 탐지하는 방법을 제안합니다. CIC-MalMem-2022 데이터셋을 사용하여 실제 상황을 시뮬레이션하고, 의사 결정 트리, 앙상블 방법, 신경망 등의 알고리즘 성능을 평가합니다.
데이터 불균형 문제를 해결하기 위해 언더샘플링(Edited Nearest Neighbor Rule, Near Miss Rule, Random Undersampling, All KNN Undersampling) 및 ADASYN을 통한 오버샘플링 기법을 적용합니다. 이를 통해 다양한 악성코드 유형에 대한 알고리즘의 강점과 한계를 분석합니다.
이 연구는 메모리 분석 기반 난독화된 악성코드 탐지 분야에서 기계 학습 알고리즘의 포괄적인 평가를 제공하며, 사이버 보안 강화와 진화하는 악성코드 위협에 대응하는 데 기여합니다. 또한 연구 결과물의 오픈 소스화를 통해 향후 연구 활동을 지원합니다.
통계
메모리 덤프 데이터셋은 58,596개의 레코드로 구성되어 있으며, 50%는 정상, 50%는 악성입니다. 악성 메모리 덤프는 스파이웨어, 랜섬웨어, 트로이 목마 등 3가지 범주로 구분됩니다.
인용구
"메모리 덤프 분석과 다양한 기계 학습 알고리즘을 활용하여 난독화된 악성코드를 효과적으로 탐지할 수 있다."
"데이터 불균형 문제를 해결하기 위해 언더샘플링 및 오버샘플링 기법을 적용하여 다양한 악성코드 유형에 대한 알고리즘의 강점과 한계를 분석했다."