Core Concepts
대규모 언어 모델(LLM)은 실제 악성코드 캠페인에서 사용되는 난독화된 PowerShell 스크립트를 효율적으로 해독할 수 있다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 악성 코드 난독화 해제 능력을 실제 악성코드 캠페인 데이터를 사용하여 평가합니다.
주요 내용은 다음과 같습니다:
악명 높은 Emotet 악성코드 캠페인에서 수집한 2,000개의 난독화된 PowerShell 스크립트를 사용하여 4개의 최신 LLM 모델의 성능을 평가했습니다.
OpenAI의 GPT-4가 가장 우수한 성능을 보였으며, 69.56%의 URL을 정확하게 추출했습니다. 구글의 Gemini Pro는 36.84%, Code Llama는 22.13%, Mixtral은 11.59%의 정확도를 보였습니다.
도메인 수준에서 보면 성능이 더 향상되었는데, GPT-4는 88.78%, Gemini Pro는 54.14%, Code Llama는 35.56%, Mixtral은 30.28%의 정확도를 보였습니다.
그러나 일부 LLM 모델에서는 많은 허구적인 도메인이 생성되는 문제가 발견되었습니다. 이는 LLM의 한계를 보여주며, 이를 해결하기 위한 추가 연구가 필요합니다.
이 연구 결과를 바탕으로 LLM을 기존 악성코드 분석 파이프라인에 통합하는 방안을 제안했습니다. LLM은 기존 도구의 한계를 보완하고 자동화된 위협 정보 추출을 가능하게 할 것입니다.
Stats
2,000개의 난독화된 PowerShell 스크립트에서 총 2,869개의 고유한 URL이 추출되었습니다.
이 URL들은 2,512개의 고유한 도메인에 속합니다.
Quotes
"LLMs do not simply generate code or superficially understand its context. Our extensive results clearly show their ability to process it, identify the relevant parts, and operate on them."
"While this is very relevant for LLMs provided as cloud-based services, the same does not apply to local LLMs. Indeed, the disparity among the two flavours of LLMs is so grave that they could be considered inefficient for this task."