본 연구 논문에서는 지하 포럼에서 활동하는 주요 해커를 식별하기 위해 고안된 EUREKHA(Enhancing User Representation for Key Hacker Identification in Underground Forums)라는 새로운 방법론을 제시합니다.
사이버 범죄 활동의 온상지인 지하 포럼은 익명성을 제공하며 기존의 온라인 감시를 회피할 수 있는 공간입니다. 이러한 숨겨진 커뮤니티에서 악의적인 행위자들은 불법적인 지식, 도구 및 전략을 교환하며 해킹 기술부터 도난당한 데이터, 악성 코드 및 제로데이 취약점 판매에 이르기까지 다양한 사이버 위협을 주도합니다. 이러한 활동의 배후에 있는 주요 해커를 식별하는 것은 필수적이지만 여전히 복잡한 과제입니다.
EUREKHA는 각 사용자를 텍스트 시퀀스로 모델링하여 주요 해커를 식별하도록 설계되었습니다. 이 시퀀스는 도메인별 적응을 위해 대규모 언어 모델(LLM)을 통해 처리되며, LLM은 특징 추출기 역할을 합니다. 그런 다음 추출된 특징은 그래프 신경망(GNN)에 입력되어 사용자 구조적 관계를 모델링하여 식별 정확도를 크게 향상시킵니다. 또한 BERTopic(Bidirectional Encoder Representations from Transformers Topic Modeling)을 사용하여 사용자 생성 콘텐츠에서 개인화된 주제를 추출하여 사용자당 여러 텍스트 표현을 가능하게 하고 가장 대표적인 시퀀스 선택을 최적화합니다.
본 연구에서는 Hack-Forums 데이터 세트를 사용하여 EUREKHA를 평가했습니다. 실험 결과, 미세 조정된 LLM이 주요 해커를 식별하는 데 있어 기존의 최첨단 방법보다 성능이 우수함을 보여주었습니다. 특히 GNN과 결합했을 때 EUREKHA는 기존 방법보다 정확도와 F1 점수가 각각 약 6% 및 10% 향상되는 등 상당한 개선을 달성했습니다.
EUREKHA는 지하 포럼에서 주요 해커를 식별하는 데 있어 상당한 발전을 이루었습니다. LLM과 GNN을 결합한 혁신적인 접근 방식은 사용자 표현을 풍부하게 하고 복잡한 관계를 포착하여 식별 정확도를 크게 향상시킵니다. 이 연구는 사이버 보안 연구자와 실무자에게 귀중한 통찰력을 제공하여 지하 포럼에서 사이버 범죄 활동을 효과적으로 탐지하고 방지할 수 있도록 지원합니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문