Core Concepts
제한적인 악성코드 샘플 데이터에도 불구하고 코드 인식 데이터 생성 기법을 통해 효과적으로 새로운 악성코드를 탐지할 수 있다.
Abstract
이 논문은 임베디드 컴퓨팅 시스템에서 발생할 수 있는 악성코드 문제를 다룹니다.
기존 기계학습 기반 악성코드 탐지 기법은 많은 양의 악성코드와 정상 샘플이 필요하지만, 실제로는 새로운 악성코드 샘플을 충분히 확보하기 어려운 문제가 있습니다.
이를 해결하기 위해 제안하는 코드 인식 데이터 생성 기법은 제한적으로 관찰된 악성코드 샘플을 활용하여 유사한 특성을 가진 가짜 샘플을 생성합니다.
이렇게 생성된 데이터를 활용하여 훈련된 분류 모델은 제한적인 실제 데이터에도 불구하고 약 90%의 높은 탐지 정확도를 달성할 수 있습니다.
이는 기존 기법 대비 약 3배 향상된 성능으로, 제한적인 환경에서도 효과적으로 새로운 악성코드를 탐지할 수 있음을 보여줍니다.
Stats
2020년 전 세계적으로 50억 건 이상의 악성코드 공격이 발생했다.
매년 수백만 개의 새로운 악성코드 서명이 생성되고 있다.
Quotes
"악성코드 공격은 기밀 정보 유출, 비밀번호 접근, 수십억 달러의 수익 손실 등 심각한 위협을 초래한다."
"기존 정적 분석과 동적 분석 기법은 시간이 많이 소요되고 은밀한 악성코드 가족을 식별하는 데 효과적이지 않다."