核心概念
안전 지향 LLM에 대한 간단한 적응형 공격을 통해 거의 100%의 공격 성공률을 달성할 수 있다.
摘要
이 연구는 최신 안전 지향 LLM에 대한 간단한 적응형 공격 기법을 제시한다. 주요 내용은 다음과 같다:
-
로그 확률에 대한 접근을 활용하여 LLM을 무력화하는 방법을 보여준다. 타겟 LLM에 맞춰 설계된 악의적인 프롬프트 템플릿을 사용하고, 이에 무작위 검색을 적용하여 목표 토큰의 로그 확률을 최대화한다.
-
이러한 방식으로 GPT-3.5/4, Llama-2-Chat, Gemma, R2D2 등 주요 안전 지향 LLM에 대해 거의 100%의 공격 성공률을 달성한다.
-
로그 확률에 접근할 수 없는 Claude 모델에 대해서는 전이 공격이나 사전 채우기 공격을 통해 100% 성공률을 달성한다.
-
적응성이 핵심적인데, 모델마다 취약점이 다르기 때문에 다양한 기법을 조합해야 한다. 예를 들어 R2D2는 문맥 학습 프롬프트에 매우 민감하다.
-
이러한 결과는 현재 안전 지향 LLM이 단순한 적응형 공격에 취약하다는 것을 보여준다. 향후 LLM 보안 연구를 위한 권장 사항을 제시한다.
統計資料
GPT-3.5 Turbo 모델에 대한 프롬프트 공격만으로도 100%의 공격 성공률을 달성할 수 있다.
Llama-2-Chat-7B, 13B, 70B 모델에 대해 프롬프트, 무작위 검색, 자기 전이 기법을 조합하여 100% 공격 성공률을 달성했다.
Gemma-7B 모델에 대해 프롬프트와 무작위 검색을 통해 100% 공격 성공률을 달성했다.
R2D2-7B 모델에 대해 문맥 학습 프롬프트와 무작위 검색을 통해 100% 공격 성공률을 달성했다.
Claude 모델 계열에 대해 전이 공격이나 사전 채우기 공격을 통해 100% 공격 성공률을 달성했다.
引述
"우리는 심지어 가장 최근의 안전 지향 LLM도 단순한 적응형 무력화 공격에 강하지 않다는 것을 보여준다."
"적응성이 핵심적이다: 다른 모델은 다른 프롬프팅 템플릿에 취약하고, 일부 모델은 API에 기반한 고유한 취약점을 가지고 있다."
"우리의 결과는 현재 안전 지향 LLM이 단순한 적응형 공격에 완전히 취약하다는 것을 보여준다."