Core Concepts
언어 모델 탈옥 평가 방식의 한계를 지적하고, 새로운 평가 지표를 제안한다.
Stats
대형 언어 모델(LLM)은 다양한 애플리케이션, 웹사이트, 챗봇에 통합되고 있다.
언어 모델 탈옥 시스템은 악의적 의도를 입력받아 언어 모델의 안전장치를 우회할 수 있는 적대적 설정을 생성한다.
탈옥은 일반적으로 자동화된 방식으로 수행되며, 3단계로 구성된다: 1) 적대적 설정 생성, 2) 언어 모델에 적용, 3) 응답 평가.
Quotes
"언어 모델 탈옥 시스템은 악의적 의도를 입력받아 언어 모델의 안전장치를 우회할 수 있는 적대적 설정을 생성한다."
"기존 탈옥 평가 방식에는 두 가지 한계가 있다: 1) 목표가 명확하지 않고 안전하지 않은 응답 식별과 부합하지 않는다. 2) 탈옥 결과를 성공/실패의 이분법으로 단순화한다."