Core Concepts
LLM을 활용하여 다양한 유형의 허니토큰을 자동으로 생성하고, 생성된 허니토큰의 품질을 평가하였다.
Abstract
이 연구는 사이버 보안 분야에서 사기 방어 전략의 핵심 요소인 허니토큰 설계의 확장성 문제를 해결하고자 한다. 수동으로 허니토큰을 생성하는 것은 매우 번거로운 작업이며, 기존의 자동화된 생성기는 특정 유형의 허니토큰에 특화되어 있고 적절한 학습 데이터에 크게 의존한다.
이 연구에서는 LLM을 활용하여 다양한 유형의 허니토큰을 생성하는 접근법을 체계적으로 조사하였다. 7가지 다른 유형의 허니토큰(구성 파일, 데이터베이스, 로그 파일 등)을 생성하였으며, 그 중 robots.txt 파일과 honeywords를 사용하여 210개의 다양한 프롬프트 구조를 체계적으로 테스트하였다. 또한 모든 허니토큰을 최신 LLM(GPT-3.5, GPT-4, LLaMA2, Gemini)에 걸쳐 테스트하여 모델 간 성능 차이를 평가하였다.
연구 결과, GPT-3.5에 의해 생성된 honeywords가 이전 방법에 비해 실제 비밀번호와 구분하기 어려운 것으로 나타났다. 전반적으로 이 연구 결과는 범용 LLM이 제시된 프롬프트 구조를 사용하여 다양한 유형의 허니토큰을 생성할 수 있음을 보여준다.
Stats
기존 연구에서 제안된 honeyword 생성 방법의 성공률은 29.29%에서 32.62% 사이였지만, LLM 기반 접근법은 15.15%의 성공률을 보였다.
1000개의 실제 비밀번호와 19개의 LLM 생성 honeywords로 구성된 데이터셋에서, 랜덤 선택 시 실제 비밀번호를 찾을 수 있는 확률은 약 2.667%였다.
Quotes
"LLM을 활용하여 다양한 유형의 허니토큰을 자동으로 생성할 수 있음을 보여준다."
"GPT-3.5에 의해 생성된 honeywords가 이전 방법에 비해 실제 비밀번호와 구분하기 어려운 것으로 나타났다."