Core Concepts
대규모 언어 모델(LLM)을 사용하는 애플리케이션에 대한 목표 탈취 공격을 위해 LLM 모델 자체에 대한 지식 없이도 단일 단어 삽입만으로 공격이 가능하다.
Abstract
이 논문은 대규모 언어 모델(LLM)을 사용하는 애플리케이션에 대한 목표 탈취 공격 방법을 제안한다.
주요 내용은 다음과 같다:
- 공격자는 대상 LLM 모델에 대한 지식 없이도 다른 LLM 모델을 사용하여 공격할 수 있다.
- 공격자는 최적화 절차를 통해 LLM 모델의 어휘에서 목표 탈취에 가장 효과적인 단어들을 찾아낼 수 있다.
- 이렇게 찾아낸 단어들을 사용자 프롬프트 내에 삽입하여 LLM 모델의 출력을 원하는 대로 조종할 수 있다.
- 이 공격 방법은 기존의 구분자 삽입 공격보다 더 은밀하고 탐지하기 어려운 특징을 가지고 있다.
- 실험 결과, 단일 단어 삽입만으로도 LLM 모델의 출력을 원하는 대로 변경할 수 있음을 보여준다.
이 연구 결과는 LLM 기반 애플리케이션의 보안 및 안전성 향상을 위한 중요한 시사점을 제공한다.
Stats
공격 대상 Llama2 모델에 대해 단일 단어 삽입만으로 공격에 성공한 경우가 있었다.
공격 대상 Flan 모델에 대해 단일 단어 삽입만으로도 공격에 성공한 경우가 있었다. 예를 들어 "Kaufentscheidung", "Timi¸soara" 등의 단어를 삽입하여 공격에 성공했다.
Quotes
"우리의 접근 방식은 다릅니다. 모델 어휘에서 단어를 삽입합니다. 다른 LLM(공격자 LLM)의 임베딩을 사용하여 이러한 단어를 찾습니다."
"우리의 접근 방식은 눈에 띄지 않는 지시를 생성하므로 탐지하기 어렵습니다. 많은 공격 사례에서 단일 단어 삽입만으로도 충분합니다."
"우리는 또한 대상 모델과 다른 모델을 사용하여 공격을 수행할 수 있음을 보여줍니다."