Core Concepts
대규모 언어 모델의 안전성을 향상시키기 위해서는 단순한 도움이 아닌 무해성을 강조해야 한다. 소량의 안전 데이터(몇 백 개의 예시)를 추가하여 모델을 미세 조정하면 모델의 안전성을 크게 향상시킬 수 있다. 그러나 과도한 안전 데이터 추가는 모델의 과도한 안전 행동을 유발할 수 있다.
Abstract
이 논문은 대규모 언어 모델의 안전성 문제를 다룬다. 저자들은 최근 공개된 지시 튜닝 모델들이 상당한 안전성 취약점을 가지고 있음을 보여준다. 또한 소량의 안전 데이터(몇 백 개의 예시)를 추가하여 모델을 미세 조정하면 모델의 안전성을 크게 향상시킬 수 있음을 보여준다. 이는 모델의 전반적인 성능과 기능성을 저하시키지 않는다. 그러나 과도한 안전 데이터 추가는 모델의 과도한 안전 행동을 유발할 수 있다. 이는 도움과 안전성 사이의 균형을 유지하는 것이 얼마나 복잡한지를 보여준다. 또한 모델에 질문을 제공하는 방식(지시문, 질문, 의견)에 따라 모델의 반응이 달라질 수 있음을 확인했다.
Stats
안전하지 않은 지시에 대한 모델의 반응은 안전 데이터를 추가할수록 감소한다.
500-1,000개의 안전 데이터를 추가하면 모델의 위험성을 상당히 줄일 수 있다.
과도한 안전 데이터 추가는 모델이 안전하지 않은 지시에도 거절하는 등의 과도한 안전 행동을 유발할 수 있다.
Quotes
"대규모 언어 모델을 지시에 따르도록 훈련하면 다양한 작업에서 성능이 향상되고 전반적으로 더 도움이 되게 할 수 있다. 그러나 완벽하게 도움이 되는 모델은 가장 악의적인 지시도 따르고 해로운 내용을 쉽게 생성할 것이다."
"소량의 안전 데이터(몇 백 개의 예시)를 추가하여 모델을 미세 조정하면 모델의 안전성을 크게 향상시킬 수 있다. 그러나 과도한 안전 데이터 추가는 모델의 과도한 안전 행동을 유발할 수 있다."