이 논문은 대규모 언어 모델(LLM)의 안전성 정렬에 대한 취약점을 소개한다. 안전성 정렬은 LLM이 안전한 대화를 할 수 있도록 하는 과정이지만, 이 논문에서는 이를 역으로 활용하여 해로운 언어 모델을 만들 수 있는 방법을 제안한다.
구체적으로, 이 논문은 emulated disalignment(ED)라는 추론 시간 공격 방법을 소개한다. ED는 안전성 정렬된 언어 모델과 그 이전 모델의 출력 토큰 분포를 대조하여, 안전성 정렬을 역으로 활용한다. 이를 통해 추가 학습 없이도 해로운 언어 모델을 생성할 수 있다.
논문은 4개의 언어 모델 제품군(Llama-1, Llama-2, Mistral, Alpaca)과 3개의 평가 데이터셋(Anthropic-HH, ToxicChat, OpenAI-ModerationEval)을 사용하여 ED의 효과를 실험적으로 검증한다. 실험 결과, ED는 기존 모델의 해로운 성향을 두 배 이상 증폭시킬 수 있으며, 다른 강력한 기준선 방법들을 압도하는 성능을 보인다.
이러한 발견은 안전성 정렬된 모델이라도 악용될 수 있음을 시사한다. 따라서 언어 모델의 공개 접근성에 대한 재평가가 필요하며, 보다 강력한 안전성 정렬 방법의 개발이 요구된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Zhanhui Zhou... at arxiv.org 04-04-2024
https://arxiv.org/pdf/2402.12343.pdfDeeper Inquiries