이 논문은 대규모 언어 모델(LLM)에 대한 목표 지향적 생성 프롬프트 주입 공격 방법을 제안한다.
공격의 목표를 깨끗한 텍스트와 악의적인 텍스트의 조건부 확률 분포 간 KL 발산을 최대화하는 것으로 재정의하였다.
조건부 확률이 가우시안 분포를 따른다는 가정 하에, KL 발산 최대화 문제가 깨끗한 텍스트와 악의적인 텍스트 간 마하라노비스 거리를 최대화하는 문제와 동등함을 이론적으로 증명하였다.
이를 바탕으로 근사적으로 최적의 악의적인 프롬프트를 생성하는 간단하고 효과적인 공격 전략을 설계하였다.
7개의 LLM 모델과 4개의 데이터셋에 대한 실험 결과, 제안한 공격 방법의 효과성을 검증하였다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы