Core Concepts
다양한 로그 표현 기술을 활용하여 로그 기반 이상 탐지 성능을 비교 분석하고, 로그 파싱 및 특징 집계 방법이 이에 미치는 영향을 확인한다.
Abstract
이 연구는 로그 기반 이상 탐지 작업에서 다양한 로그 표현 기술의 효과를 종합적으로 평가하였다. 주요 내용은 다음과 같다:
6가지 대표적인 로그 표현 기술(메시지 카운트 벡터, TF-IDF ID, TF-IDF 텍스트, Word2Vec, FastText, BERT)을 선정하고, 7가지 이상 탐지 모델(SVM, 의사결정트리, 로지스틱 회귀, 랜덤포레스트, MLP, CNN, LSTM)에 적용하여 성능을 비교 분석하였다.
로그 파싱 과정이 로그 표현 기술의 효과에 미치는 영향을 확인하였다. 로그 파싱 오류가 이상 탐지 성능에 미치는 부정적인 영향을 최소화하기 위해 도메인 지식을 활용하여 파싱 정확도를 높였다.
다양한 특징 집계 방법(토큰 수준, 이벤트 수준, 시퀀스 수준)이 로그 표현 기술의 효과에 미치는 영향을 분석하였다. 특징 집계 방법에 따라 로그 표현 기술의 성능이 달라질 수 있음을 확인하였다.
이 연구 결과는 향후 로그 기반 이상 탐지 및 다른 로그 분석 작업을 수행할 때 적절한 로그 표현 기술을 선택하는 데 도움이 될 것으로 기대된다.
Stats
메시지 카운트 벡터 기반 모델의 F1 점수는 0.956으로 가장 높다.
BERT 기반 모델의 F1 점수는 0.999로 가장 높다.
전통적 모델과 딥러닝 모델 간 F1 점수 차이는 최대 0.115이다.
Quotes
"로그 데이터는 소프트웨어 시스템의 실행 상태를 이해하는 데 필수적인 정보원이다."
"자동화된 로그 분석은 소프트웨어 유지보수 및 운영 노력에 중요한 역할을 하고 있다."
"로그 표현 기술은 기계 학습 기반 로그 분석 작업에서 필수적이고 불가결한 단계이다."