Core Concepts
개념 기반 모델 설명 방법을 활용하여 LLM의 안전 개념 활성화 벡터(SCAV)를 추출하고, 이를 통해 잘 정렬된 LLM에 대한 효과적인 공격을 수행할 수 있음을 보여줌.
Abstract
이 논문은 공개 소스 대형 언어 모델(LLM)의 안전 위험을 발견하는 새로운 공격 방법을 제안합니다.
먼저 저자들은 LLM의 잔류 스트림 활성화를 분석하여 안전 개념 활성화 벡터(SCAV)를 정의하고 추출합니다. SCAV는 LLM의 안전 메커니즘을 나타내며, 이를 활용하여 LLM의 계산 흐름을 교란시킬 수 있습니다.
실험 결과, 이 방법은 LLaMA-2와 같은 잘 정렬된 오픈 소스 LLM에 대해 거의 100%의 공격 성공률을 달성했습니다. 이는 안전 정렬 후에도 LLM에 여전히 잠재적인 위험이 존재할 수 있음을 시사합니다.
저자들은 또한 기존 평가 방법의 한계를 지적하고, 공격 결과의 해로움을 더 정확하게 평가하기 위한 종합적인 평가 방법을 제안했습니다. 이 평가에서도 제안된 방법이 다른 공격 방법에 비해 우수한 성능을 보였습니다.
마지막으로 SCAV의 전이성을 확인하여, 이 방법이 LLM의 본질적인 안전 메커니즘을 포착하고 있음을 보여줍니다.
Stats
제안된 공격 방법은 LLaMA-2-7B-Chat 모델에 대해 98%의 공격 성공률을 달성했습니다.
제안된 공격 방법은 StrongREJECT 벤치마크에서 98%의 공격 성공률을 보였습니다.
제안된 공격 방법은 인간 평가에서 다른 공격 방법에 비해 우수한 성능을 보였습니다.
Quotes
"제안된 공격 방법은 LLaMA-2와 같은 잘 정렬된 오픈 소스 LLM에 대해 거의 100%의 공격 성공률을 달성했습니다."
"이는 안전 정렬 후에도 LLM에 여전히 잠재적인 위험이 존재할 수 있음을 시사합니다."