사이버 보안 도메인의 비언어적 요소를 활용한 사전 학습
사이버 보안 정보는 기술적으로 복잡하고 비정형 텍스트로 전달되어 사이버 위협 정보 자동화가 매우 어렵다. 이러한 전문성이 필요한 텍스트 도메인에서 도메인 특화 사전 학습은 언어 모델의 도메인 전문성 향상을 위한 일반적인 방법이다. 그러나 사이버 보안 텍스트에는 URL, 해시 값 등의 비언어적 요소가 포함되어 기존 사전 학습 방법론에 적합하지 않을 수 있다. 본 연구에서는 비언어적 요소를 고려한 다양한 사전 학습 방법을 실험하고 평가하였으며, 선별적 마스킹과 비언어적 요소 토큰 분류를 결합한 방법이 가장 우수한 성능을 보였다.