Core Concepts
대형 언어 모델의 안전성 평가 시 다중 선택형 문제와 개방형 문제 간 성능 차이가 크게 나타나는 이유는 모델이 단순히 안전 데이터의 답변 스타일을 기억하고 있을 뿐 실제 인간의 가치 선호도를 깊이 있게 이해하지 못하기 때문이다.
Abstract
이 연구는 대형 언어 모델(LLM)의 안전성 평가 시 다중 선택형 문제와 개방형 문제 간 성능 차이가 크게 나타나는 현상을 "가짜 정렬"이라고 정의하고, 이를 실증적으로 검증하였다.
대형 언어 모델의 안전성 평가는 주로 개방형 문제와 다중 선택형 문제 두 가지 형식으로 이루어지는데, 개방형 문제에서는 모델의 출력 내용이 안전한지 평가하고, 다중 선택형 문제에서는 모델이 안전한 선택을 할 수 있는지 평가한다.
기존 연구 결과를 분석한 결과, 대형 언어 모델의 다중 선택형 문제 성능이 개방형 문제에 비해 크게 낮은 것으로 나타났다.
이는 모델이 단순히 안전 데이터의 답변 스타일을 기억하고 있을 뿐, 실제 인간의 가치 선호도를 깊이 있게 이해하지 못하기 때문인 것으로 분석되었다.
이러한 현상을 "가짜 정렬"이라고 정의하고, 이를 실증적으로 검증하기 위해 안전성 관련 개방형 문제와 다중 선택형 문제로 구성된 데이터셋을 구축하였다.
14개의 널리 사용되는 대형 언어 모델을 대상으로 실험한 결과, 일부 모델에서 심각한 가짜 정렬 문제가 발견되었다.
이를 해결하기 위해 대조 증류 기반 지도 학습 미세 조정 방법을 제안하였으며, 실험 결과 이 방법이 모델의 정렬 일관성을 크게 향상시킬 수 있음을 확인하였다.
Stats
대형 언어 모델의 개방형 문제 평균 성능은 94.94%인 반면, 다중 선택형 문제 평균 성능은 78.3%로 크게 낮다.
가짜 정렬이 심각한 모델들의 다중 선택형 문제 성능은 20% 미만으로 매우 낮다.
대조 증류 기반 미세 조정 후 모델의 일관성 점수(CSS)가 80% 이상으로 크게 향상되었다.
Quotes
"LLMs merely memorize the answer style regarding safety questions but lack a genuine understanding of what content qualifies as safety, making them difficult to choose the right option."
"We refer to this phenomenon as the fake alignment of LLMs."
"Fake alignment is caused by the mismatched generalization between model's capabilities and its safety considerations."