Centrala begrepp
LLM의 정렬 프로세스에 악의적으로 조작된 데이터를 주입하면 LLM의 기본 기능을 유지하면서도 프롬프트 주입 공격에 대한 취약성을 크게 높일 수 있다.
Sammanfattning
LLM 정렬 프로세스 악용 취약점 연구: PoisonedAlign
본 연구 논문에서는 대규모 언어 모델(LLM)의 정렬 프로세스를 악용하여 프롬프트 주입 공격의 효과를 증폭시키는 새로운 공격 기법인 PoisonedAlign을 제시합니다.
본 연구는 LLM의 정렬 프로세스에 악의적으로 조작된 데이터를 주입하여 프롬프트 주입 공격에 대한 취약성을 높일 수 있는지 확인하고자 합니다.
본 연구에서는 PoisonedAlign이라는 새로운 공격 기법을 제시합니다. PoisonedAlign은 LLM의 정렬 데이터셋에 악의적으로 조작된 샘플을 주입하여 LLM이 공격자가 의도한 대로 작동하도록 유도합니다.
PoisonedAlign 공격 생성 과정
공격자는 먼저 섀도우 프롬프트-응답 쌍 데이터셋(Ds)을 수집합니다.
PoisonedAlign은 Ds에서 무작위로 두 개의 프롬프트-응답 쌍을 선택합니다.
선택된 쌍 중 하나는 타겟 프롬프트로, 다른 하나는 주입된 프롬프트로 사용됩니다.
PoisonedAlign은 타겟 프롬프트와 주입된 프롬프트 사이에 특수 문자열(구분자)을 추가하여 악의적인 정렬 샘플을 생성합니다.
이렇게 생성된 악의적인 정렬 샘플은 LLM의 정렬 데이터셋에 주입됩니다.
본 연구에서는 5개의 LLM, 2개의 정렬 데이터셋, 7 × 7 타겟-주입 작업 쌍 및 5개의 프롬프트 주입 공격을 사용하여 PoisonedAlign을 평가했습니다.