LLM의 정렬 프로세스에 악의적으로 조작된 데이터를 주입하면 LLM의 기본 기능을 유지하면서도 프롬프트 주입 공격에 대한 취약성을 크게 높일 수 있다.
대규모 언어 모델의 조건부 확률 분포 간 KL 발산을 최대화하는 것이 공격의 핵심 목표이며, 이는 깨끗한 입력 텍스트와 악의적인 입력 텍스트 간 마하라노비스 거리를 최대화하는 것과 동등하다는 것을 이론적으로 증명하였다.
프롬프트 주입 공격의 위험성과 자동화된 공격 방법의 중요성 강조