이 논문은 대규모 언어 모델(LLM)의 안전성을 향상시키기 위한 연구를 수행한다. 먼저 GCG 방법론을 분석하여 손실 함수가 적대적 접미사의 성공 여부를 나타내는 좋은 지표가 아님을 발견한다. 이를 바탕으로 증강된 GCG 방법을 제안하여 기존 GCG보다 높은 공격 성공률과 더 많은 취약점을 발견할 수 있음을 보인다.
이어서 AmpleGCG라는 범용적이고 이전 가능한 적대적 접미사 생성 모델을 제안한다. AmpleGCG는 증강된 GCG에서 수집한 데이터를 활용하여 학습되며, 어떤 유해한 질문에 대해서도 수백 개의 성공적인 적대적 접미사를 빠르게 생성할 수 있다. 실험 결과, AmpleGCG는 기존 방법론보다 월등히 높은 공격 성공률을 달성하며, 오픈소스 및 폐쇄소스 모델에 대해서도 효과적으로 작동한다. 또한 복잡도 기반 방어 기법을 우회할 수 있음을 보인다.
이를 통해 AmpleGCG는 대규모 언어 모델의 취약점을 광범위하게 발견하고, 이를 통해 모델 안전성 향상을 위한 기반을 마련한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문