核心概念
언어 모델의 안전성과 품질을 높이기 위해 상황별 맞춤형 가이드라인 라이브러리와 이를 활용하는 검색 모델을 제안한다.
摘要
이 논문은 대규모 언어 모델(LLM)의 놀라운 능력과 함께 발생할 수 있는 편향된 콘텐츠 생성, 프라이버시 침해 등의 위험성을 다룹니다.
현재 사용되는 원칙 기반 통합 기술은 수동으로 작성된 규칙의 부정확성과 안전 교육을 받지 않은 모델의 위험 인식 부족으로 인한 문제에 직면하고 있습니다.
이를 해결하기 위해 저자들은 Guide-Align이라는 2단계 접근법을 제안합니다:
- 안전 교육을 받은 모델이 잠재적 위험을 식별하고 구체적인 가이드라인을 수립하여 포괄적인 가이드라인 라이브러리를 구축합니다.
- 검색 모델이 새로운 입력과 관련된 적절한 가이드라인을 검색하여, 언어 모델이 안전하고 고품질의 출력물을 생성하도록 안내합니다.
이 방법은 다양한 입력에 맞춤화된 가이드라인을 제공하여 세부적이고 포괄적인 가이드라인 라이브러리를 구축합니다. 또한 안전 교육을 받은 모델의 전문성을 가벼운 검색 모델에 통합하여 전체 시스템의 위험 인식을 높입니다.
실험 결과, 이 접근법은 언어 모델의 보안과 품질을 크게 향상시켰습니다. 특히 13억 개의 매개변수를 가진 Labrador 모델은 GPT-3.5-turbo를 능가하고 GPT-4의 정렬 기능을 능가하는 성과를 보였습니다.
統計資料
안전 교육을 받은 모델(GPT-3.5-turbo)은 입력 데이터에서 잠재적 위험을 식별하고 구체적인 가이드라인을 수립했습니다.
가이드라인 라이브러리에는 총 767,207개의 가이드라인이 포함되어 있습니다.
가이드라인 라이브러리는 최종적으로 33,000개의 가이드라인으로 축소되었습니다.
引述
"대규모 언어 모델(LLM)은 인상적인 능력을 보여주지만 편향된 콘텐츠 생성, 프라이버시 문제 등의 위험도 제시합니다."
"수동으로 작성된 규칙은 일반성과 정확성 사이의 균형을 맞추기 어려워 세부적이고 포괄적인 가이드라인 제공에 한계가 있습니다."
"안전 교육을 받지 않은 모델은 위험 인식이 부족하여 다양한 입력에 대해 안전하지 않은 출력을 생성할 가능성이 높습니다."