FLAMES 벤치마크는 대규모 언어 모델의 가치 정렬 수준을 종합적으로 평가하기 위해 설계되었다. 기존 벤치마크의 한계를 극복하고자 다음과 같은 특징을 가진다:
공정성, 안전성, 도덕성, 데이터 보호, 합법성 등 5가지 차원으로 구성된 종합적인 평가 프레임워크를 제시했다. 이 중 도덕성 차원에는 중국의 전통적 가치관도 포함되어 있다.
다양한 복잡한 시나리오와 공격 기법을 활용하여 2,251개의 고도로 악의적인 프롬프트를 수작업으로 설계했다. 이를 통해 기존 벤치마크보다 훨씬 더 어려운 도전과제를 제시한다.
17개 주요 대규모 언어 모델에 대한 응답을 수집하고, 전문가의 세부적인 평가 지침에 따라 22.9K개의 응답을 정밀하게 주석 처리했다.
주석 데이터를 활용하여 79.5%의 정확도로 FLAMES 프롬프트를 평가할 수 있는 경량 전용 스코어링 모델을 개발했다.
분석 결과, 평가된 모든 대규모 언어 모델이 FLAMES 벤치마크에서 상대적으로 낮은 성능을 보였다. 특히 공정성과 안전성 차원에서 취약점이 두드러졌다. 이는 현재 대규모 언어 모델의 가치 정렬 수준이 여전히 부족함을 보여준다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究