Core Concepts
Bergeron 프레임워크는 대규모 언어 모델의 출력을 안전하게 유지하기 위해 주 모델과 보조 모델을 활용하여 악의적인 공격을 방어한다.
Abstract
이 논문은 대규모 언어 모델(LLM)의 위험한 정보 생성을 방지하기 위한 Bergeron 프레임워크를 소개한다.
Bergeron은 두 단계로 구성되어 있다. 첫째, 보조 LLM이 입력 프롬프트를 검토하여 위험한 내용이 있는지 확인한다. 위험한 내용이 감지되면 주 모델에 경고를 보내 안전한 응답을 생성하도록 한다. 둘째, 주 모델의 응답을 검토하여 위험한 내용이 포함되어 있는지 확인하고, 필요한 경우 응답을 수정한다.
실험 결과, Bergeron 프레임워크를 사용하면 기존 정렬 방식만 사용했을 때보다 악의적인 공격에 대한 방어 성능이 크게 향상되었다. 특히 GPT-3.5와 Mistral-7B를 사용한 구성이 우수한 성능을 보였다. 이는 Bergeron이 주 모델의 성능을 크게 저하시키지 않으면서도 안전성을 크게 향상시킬 수 있음을 보여준다.
Stats
악의적인 프롬프트에 대한 GPT-3.5의 방어 실패율은 47.5%였지만, Bergeron 프레임워크를 사용하면 6%로 크게 낮아졌다.
Mistral-7B의 경우 방어 실패율이 72.5%에서 29.5%로 감소했다.
Llama2-7B의 경우 방어 실패율이 50.5%에서 7%로 크게 낮아졌다.
Quotes
"Bergeron은 주 모델의 기존 정렬 훈련을 보완하여 다양한 상용 및 오픈소스 LLM의 견고성과 안전성을 향상시킬 수 있다."
"Bergeron은 추가 매개변수 미세 조정 없이도 LLM의 견고성을 향상시키도록 설계되었다."