이 논문은 대형 언어 모델(LLM)의 감옥 탈출 공격에 대한 새로운 방어 방법인 Eraser를 제안한다. Eraser는 세 가지 목표를 가지고 있다: 1) 해로운 지식 제거, 2) 일반적인 지식 유지, 3) 안전성 유지.
Eraser는 먼저 공개적으로 이용 가능한 검열되지 않은 모델을 사용하여 해로운 답변을 수집한다. 그리고 이 해로운 답변에 대해 랜덤한 접두사와 접미사를 추가하여 gradient ascent를 수행함으로써 해로운 지식을 제거한다. 또한 엔티티 관련 이해력 문제를 통해 일반적인 지식을 유지하고, 원래 모델의 거부 능력을 모방하여 안전성을 유지한다.
실험 결과, Eraser는 기존 방법들에 비해 감옥 탈출 공격에 대한 방어 능력이 크게 향상되었으며, 일반적인 성능도 유지할 수 있었다. 특히 랜덤 토큰 시퀀스를 사용하여 gradient ascent를 수행하는 것만으로도 상당한 방어 능력을 보여주었다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Weikai Lu,Zi... : arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05880.pdfDaha Derin Sorular