이 연구는 최신 안전 지향 LLM에 대한 간단한 적응형 공격 기법을 제시한다. 주요 내용은 다음과 같다:
로그 확률에 대한 접근을 활용하여 LLM을 무력화하는 방법을 보여준다. 타겟 LLM에 맞춰 설계된 악의적인 프롬프트 템플릿을 사용하고, 이에 무작위 검색을 적용하여 목표 토큰의 로그 확률을 최대화한다.
이러한 방식으로 GPT-3.5/4, Llama-2-Chat, Gemma, R2D2 등 주요 안전 지향 LLM에 대해 거의 100%의 공격 성공률을 달성한다.
로그 확률에 접근할 수 없는 Claude 모델에 대해서는 전이 공격이나 사전 채우기 공격을 통해 100% 성공률을 달성한다.
적응성이 핵심적인데, 모델마다 취약점이 다르기 때문에 다양한 기법을 조합해야 한다. 예를 들어 R2D2는 문맥 학습 프롬프트에 매우 민감하다.
이러한 결과는 현재 안전 지향 LLM이 단순한 적응형 공격에 취약하다는 것을 보여준다. 향후 LLM 보안 연구를 위한 권장 사항을 제시한다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Maksym Andri... في arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.02151.pdfاستفسارات أعمق