최근 2년 동안 대규모 언어 모델(LLM)의 안전성에 대한 우려가 급증하면서, 연구자와 실무자들은 LLM 안전성을 평가하고 개선하기 위한 다양한 새로운 데이터셋을 소개했다. 그러나 이 작업들은 대부분 병렬적으로 진행되었고 서로 다른 목표를 가지고 있어, 연구자와 실무자들이 특정 사용 사례에 가장 적합한 데이터셋을 찾기 어렵고 향후 작업이 메울 수 있는 데이터셋 범위의 격차를 파악하기 어렵다.
대규모 언어 모델은 다양한 역사적 소수자 및 약자 집단에 대한 심각한 편향성과 위험성을 보여주며, 이는 단일 모델이나 특정 집단에 국한되지 않고 여러 모델에서 광범위하게 나타나고 있다.
대규모 언어 모델의 안전 조치가 특정 인구 집단에 대한 서비스 품질 저하로 이어질 수 있다.
RigorLLM은 대규모 언어 모델의 입력과 출력에 대한 효과적이고 강력한 콘텐츠 조절 프레임워크를 제공한다.