프롬프트 주입 공격의 위험성과 자동화된 공격 방법의 중요성 강조
대규모 언어 모델의 조건부 확률 분포 간 KL 발산을 최대화하는 것이 공격의 핵심 목표이며, 이는 깨끗한 입력 텍스트와 악의적인 입력 텍스트 간 마하라노비스 거리를 최대화하는 것과 동등하다는 것을 이론적으로 증명하였다.