Core Concepts
자연어 설명을 활용하여 PowerShell 공격 코드를 자동으로 생성할 수 있는 AI 기반 코드 생성기를 제안한다.
Abstract
이 연구는 자연어 기반 PowerShell 공격 코드 생성을 위한 AI 모델을 제안한다. 주요 내용은 다음과 같다:
다양한 보안 관련 소스에서 수집한 PowerShell 코드와 자연어 설명으로 구성된 데이터셋을 구축하였다. 이 데이터셋은 MITRE ATT&CK 프레임워크에 기반하여 다양한 공격 기법을 포함한다.
사전 학습과 fine-tuning을 통해 CodeT5+, CodeGPT, CodeGen 모델을 PowerShell 공격 코드 생성에 특화시켰다. 이를 통해 모델의 성능을 크게 향상시켰다.
생성된 코드에 대한 정적/동적 분석을 수행하여 코드의 문법적 정확성과 실행 동작을 평가하였다. 분석 결과, 모델이 생성한 코드가 실제 공격 행위를 잘 모방하는 것으로 나타났다.
공개 AI 모델 ChatGPT와의 비교 분석에서, 본 연구에서 fine-tuning한 모델들이 ChatGPT를 뛰어넘는 성능을 보였다.
이 연구는 자연어 기반 PowerShell 공격 코드 생성을 위한 AI 기술의 가능성을 보여주며, 보안 전문가들의 작업을 지원할 수 있을 것으로 기대된다.
Stats
공격 코드 생성 모델은 MITRE ATT&CK 프레임워크의 12개 전술 중 대부분을 포함하는 1,127개의 PowerShell 코드 샘플을 활용하여 학습되었다.
생성된 코드의 98.23%가 구문적으로 올바른 것으로 나타났다.
생성된 코드의 실행 분석 결과, 정밀도 97.26%, 재현율 80.94%, F1-Score 88.35%를 달성하였다.
Quotes
"자연어 기반 AI 코드 생성기는 보안 전문가들의 작업을 지원할 수 있을 것으로 기대된다."
"본 연구에서 fine-tuning한 모델들은 ChatGPT를 뛰어넘는 성능을 보였다."