Core Concepts
일반화된 감옥 탈출 프롬프트를 통해 대형 언어 모델의 취약점을 효과적으로 드러낼 수 있다.
Abstract
이 논문은 대형 언어 모델(LLM)에 대한 일반화된 감옥 탈출 프롬프트 공격 방법을 제안한다.
- 프롬프트 재작성: 프롬프트의 핵심 의미를 유지하면서 다양한 방식으로 재작성하여 LLM의 안전 장치를 우회한다.
- 시나리오 중첩: 재작성된 프롬프트를 LLM이 자주 접하는 과제 시나리오(코드 완성, 표 채우기, 텍스트 연속 등)에 중첩시켜 더욱 은밀하게 만든다.
- 실험 결과: 제안한 ReNeLLM 방법은 기존 방법들에 비해 공격 성공률을 크게 높이면서도 소요 시간을 크게 줄였다. 또한 현재 LLM의 방어 기법이 이러한 일반화된 공격에 취약함을 보여주었다.
- 방어 전략: LLM의 실행 우선순위 변화에 주목하여, 안전성 우선 프롬프트 도입, 안전 교육 강화, 유해성 분류기 활용 등의 방어 전략을 제안하였다.
Stats
LLM의 방어 실패 원인은 유용성과 안전성 사이의 우선순위 변화에 있다.
Quotes
"일반화된 감옥 탈출 프롬프트를 통해 대형 언어 모델의 취약점을 효과적으로 드러낼 수 있다."
"현재 LLM의 방어 기법이 이러한 일반화된 공격에 취약함을 보여주었다."