แนวคิดหลัก
구성 가능한 안전성 조정(CST) 기법은 합성 선호 데이터를 활용하여 언어 모델의 안전성 수준을 유연하게 조정할 수 있도록 한다. 이를 통해 배포 환경에 맞는 안전성 설정을 적용할 수 있다.
บทคัดย่อ
이 논문은 언어 모델의 안전성 조정을 위한 새로운 기법인 구성 가능한 안전성 조정(Configurable Safety Tuning, CST)을 제안한다. 기존의 언어 모델 미세 조정 기법들은 개발자가 미리 정의한 행동 규칙을 모델에 하드코딩하는 방식을 사용했다. 이는 배포 환경에 따른 유연한 안전성 조정을 어렵게 만들었다.
CST는 Direct Preference Optimization (DPO) 기법에 기반하여, 합성 선호 데이터를 활용한다. 이 데이터에는 원본 응답과 선호되는 수정된 응답이 포함되어 있다. CST는 여기에 시스템 프롬프트를 추가하여, 배포 시 안전성 설정을 유연하게 변경할 수 있도록 한다. 예를 들어, 시스템 프롬프트를 통해 모델을 "검열되지 않은 AI 어시스턴트"나 "안전하고 무해한 어시스턴트"로 설정할 수 있다.
실험 결과, CST 기법은 기존 DPO 기법에 비해 다양한 안전성 설정을 성공적으로 관리할 수 있었다. 또한 일반적인 지식 및 추론 능력도 유지하는 것으로 나타났다. 이를 통해 CST가 언어 모델의 안전성을 유연하게 조정할 수 있는 강력한 방법임을 보여주었다.
สถิติ
안전하지 않은 콘텐츠 생성을 방지하기 위해 CST 모델은 1.00의 점수를 받았다.
검열되지 않은 응답을 생성하기 위해 CST 모델은 0.92의 점수를 받았다.
คำพูด
"CST 기법은 추가적인 합성 선호 데이터 없이도 언어 모델의 안전성 행동을 제어할 수 있다."
"CST 모델은 일반적인 지식 및 추론 능력도 유지하는 것으로 나타났다."