본 연구 논문에서는 보안 로그 분석에 특화된 소형 언어 모델인 SecEncoder를 소개하고, 다양한 실제 활용 사례를 제시합니다.
대규모 및 소규모 언어 모델(LM)은 일반적으로 위키피디아, Book Corpus 또는 웹 스크래핑과 같은 공개적으로 접근 가능한 플랫폼에서 가져온 방대한 양의 텍스트를 사용하여 사전 훈련됩니다. 이러한 모델은 광범위한 언어 데이터에 대한 노출로 인해 인상적인 일반화 능력을 보여주며 동시에 여러 작업을 수행할 수 있습니다. 그러나 광범위한 훈련 데이터로 인해 도메인 특정 작업에서는 종종 성능이 저하됩니다.
SecEncoder는 보안 로그를 사용하여 사전 훈련된 특수 소형 언어 모델입니다. SecEncoder는 보안 로그에서 발견되는 고유한 언어 및 패턴에 중점을 두어 일반 LM의 도메인 특정 제한 사항을 해결하도록 설계되었습니다. 실험 결과에 따르면 SecEncoder는 주로 자연어로 사전 훈련된 BERT-large, DeBERTa-v3-large 및 OpenAI의 Embedding(text-embedding-ada-002) 모델과 같은 다른 LM보다 다양한 작업에서 뛰어난 성능을 보입니다. 또한 SecEncoder는 주로 로그 데이터에서 사전 훈련되었지만 인시던트 우선 순위 지정 및 위협 인텔리전스 문서 검색과 같은 로그 분석 이외의 다양한 작업에서 자연어로 사전 훈련된 모델보다 성능이 뛰어납니다. 이는 로그를 사용한 도메인 특정 사전 훈련이 보안에서 LM의 성능을 크게 향상시킬 수 있음을 시사합니다.
SecEncoder는 데이터 처리, 훈련, 평가 및 배포를 포함한 전체 워크플로우를 포괄하는 아키텍처를 가지고 있습니다. Azure Synapse Analytics를 활용하여 데이터 중복 제거를 포함한 데이터 전처리 작업을 효율적으로 수행하고, Byte-Pair Encoding (BPE) 알고리즘을 기반으로 하는 토크나이저를 사용하여 보안 로그의 고유한 특성을 효과적으로 처리합니다. 또한, SecEncoder는 대규모 데이터와 복잡한 계산을 처리할 수 있는 강력하고 확장 가능한 인프라를 보장하기 위해 Azure Machine Learning (AML) 파이프라인을 활용합니다.
SecEncoder는 다양한 크기(base, large, xlarge, xxlarge)로 사전 훈련되었으며, 퍼플렉서티 및 마스크된 토큰 예측 정확도와 같은 내재적 평가 지표를 사용하여 모델의 성능을 평가했습니다. 또한, 로그 유사성, 로그 검색 및 로그 이상 탐지와 같은 다양한 다운스트림 작업에서 SecEncoder의 성능을 평가하기 위해 외재적 평가를 수행했습니다.
본 논문에서는 SecEncoder의 실제 활용 사례로 LogSubsampling 및 LogPatternDetection을 소개합니다. LogSubsampling은 SecEncoder 임베딩을 사용하여 방대한 로그 데이터에서 중요한 정보를 유지하면서 중복되거나 중요하지 않은 데이터를 제거하여 분석에 필요한 로그를 효과적으로 선택합니다. LogPatternDetection은 SecEncoder 임베딩을 특징화 도구로 사용하여 IsolationForest 알고리즘을 통해 로그 데이터에서 비정상적인 패턴을 식별합니다.
SecEncoder는 보안 로그 분석을 위한 특수 목적으로 설계된 소형 언어 모델로, 기존의 범용 언어 모델보다 뛰어난 성능을 보여줍니다. SecEncoder는 로그 데이터의 고유한 특성을 효과적으로 학습하고, 다양한 보안 작업에 활용될 수 있는 가능성을 제시합니다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы