본 논문에서는 대규모 언어 모델(LLM)이 문자열 변환을 이용한 탈옥 공격에 취약하며, 특히 다양한 인코딩 조합으로 구성된 공격에 효과적으로 대응하지 못한다는 것을 보여줍니다.
AttnGCG라는 새로운 공격 전략은 LLM의 어텐션 메커니즘을 조작하여 탈옥 성공률을 높입니다.
Crescendo는 LLM의 안전 정렬을 우회하여 악의적인 작업을 수행하도록 하는 새로운 다단계 탈옥 기법이다.