핵심 개념
대규모 언어 모델(LLM)은 매우 현실적인 사회 공학 공격을 생성하는 데 활용될 수 있지만, 동시에 이러한 공격을 탐지하고 방어하는 데에도 사용될 수 있습니다.
초록
대규모 언어 모델 시대의 사회 공학 공격 방어: LLM 기반 공격 시뮬레이션 및 방어 파이프라인 소개
본 연구는 대규모 언어 모델(LLM)이 사회 공학 공격(SE)에 사용될 수 있는지, 그리고 LLM을 사용하여 이러한 공격을 방어할 수 있는지 조사하는 것을 목표로 합니다.
SEConvo 데이터셋 구축: 연구진은 GPT-4를 사용하여 학문적 협력, 연구 자금 지원, 언론 보도, 채용 등의 현실적인 시나리오에서 LLM이 생성한 1,400개의 대화로 구성된 새로운 데이터셋인 SEConvo를 만들었습니다. 이 데이터셋에는 단일 LLM 시뮬레이션과 공격자와 대상 간의 상호 작용을 시뮬레이션하는 이중 에이전트 상호 작용이 모두 포함되어 있습니다.
LLM의 공격 능력 평가: 연구진은 LLM이 개인 식별 정보(PII), 기관 및 직장 정보, 기밀 연구 정보와 같은 민감한 정보(SI)를 얻기 위해 얼마나 설득력 있는 사회 공학 공격을 생성할 수 있는지 평가했습니다.
LLM의 방어 능력 평가: 연구진은 GPT-4 및 Llama2와 같은 LLM을 사용하여 제로샷 및 퓨샷 프롬프트 설정에서 SEConvo 데이터셋의 사회 공학 공격을 탐지하는 성능을 평가했습니다.
ConvoSentinel 방어 파이프라인 개발: 연구진은 메시지 수준 및 대화 수준 모두에서 CSE 탐지를 개선하도록 설계된 모듈식 파이프라인인 ConvoSentinel을 개발했습니다. 이 파이프라인은 대화를 체계적으로 분석하고 악의적인 메시지에 플래그를 지정하고 이러한 결과를 통합하여 대화 수준의 SE 시도를 평가합니다. ConvoSentinel은 알려진 CSE 상호 작용 데이터베이스와 메시지를 비교하여 악의적인 의도를 식별하는 검색 증강 생성(RAG) 모듈을 통합하여 퓨샷 LLM 탐지기보다 운영 비용을 낮추고 대화의 모든 단계에서 성능을 향상시킵니다.