Belangrijkste concepten
안전하게 조정된 언어 모델도 겉보기에 무해한 데이터로 인해 취약해질 수 있다.
Samenvatting
이 연구는 언어 모델의 안전성 및 정렬 유지를 위해 중요한 데이터 중심의 접근법을 제안한다.
- 모델의 안전성을 저해하는 겉보기에 무해한 데이터 부분집합을 식별하기 위해 표현 기반 및 기울기 기반 접근법을 제안한다.
- 이 접근법은 ALPACA와 DOLLY 데이터셋에서 효과적으로 작동하여, 무해한 데이터로 미세 조정 시 모델의 공격 성공률을 크게 높일 수 있음을 보여준다.
- 선별된 데이터는 주로 목록, 수학 문제 등의 형식으로 구성되어 있으며, 이러한 유형의 데이터가 모델의 안전성을 저해할 수 있음을 확인했다.
- 이 연구 결과는 모델 안전성 유지를 위해 데이터 선별 시 주의가 필요함을 시사한다.
Statistieken
무해한 데이터로 미세 조정 시 ALPACA 데이터셋의 GPT 평가 공격 성공률이 13%에서 71%로 증가했다.
무해한 데이터로 미세 조정 시 DOLLY 데이터셋의 GPT 평가 공격 성공률이 8.2%에서 53.3%로 증가했다.
Citaten
"Fine-tuning with merely 100 selected benign examples—those most similar to known harmful data—can elevate the GPT-evaluated Attack Success Rate (ASR) from 13% to 71% compared to finetuning with a random subset of data in ALPACA and from 8.2% to 53.3% in DOLLY."
"Further examination of the selected data reveals that they primarily comprise of bullet point style answers or mathematical expressions."