이 논문은 Crescendo라는 새로운 다단계 LLM 탈옥 기법을 소개한다. Crescendo는 표면적으로 무해한 입력을 사용하여 LLM을 점진적으로 악의적인 콘텐츠 생성으로 이끈다. 기존 탈옥 기법과 달리 Crescendo는 다단계 상호작용을 통해 LLM의 최근 출력을 활용하여 안전 정렬을 우회한다.
논문에서는 Crescendo의 효과를 다양한 공개 LLM 시스템(ChatGPT, Gemini, Anthropic Chat, LLaMA-2 Chat)에서 검증했다. 결과적으로 Crescendo는 대부분의 모델과 작업에서 높은 공격 성공률을 달성했다.
또한 Crescendomation이라는 Crescendo 자동화 도구를 소개하고 평가했다. Crescendomation은 GPT-4를 활용하여 다양한 LLM에 대한 Crescendo 공격을 자동화한다. 평가 결과 Crescendomation은 대부분의 작업에서 매우 높은 공격 성공률을 보였다.
이 연구는 LLM의 보안과 윤리적 무결성 향상을 위한 통찰력을 제공한다.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések