프롬프트 주입 공격은 대규모 언어 모델에 대한 중요한 위협으로 작용합니다. 이러한 공격을 완화하기 위한 방어 기법 중 하나는 paraphrasing이 있습니다. 이 방어 기법은 백엔드 언어 모델을 사용하여 문장을 다시 구성하여 외부 데이터와 함께 주어진 프롬프트로 처리하는 것입니다. 또한 retokenization이라는 방어 기법은 토큰을 더 작은 단위로 분할하는 것을 포함합니다. 또한 데이터 프롬프트 격리, 지시 방지, 샌드위치 방지와 같은 방어 기법들도 사용됩니다. 이러한 방어 기법들은 악의적인 입력 데이터를 격리하고 중화하는 데 중점을 두어 공격을 우회하거나 무력화하는 것을 목표로 합니다.
0
Оглавление
대형 언어 모델에 대한 자동 및 보편적 프롬프트 주입 공격
Automatic and Universal Prompt Injection Attacks against Large Language Models