Core Concepts
대규모 언어 모델은 인간의 가치 체계와는 구별되는 고유한 가치 체계를 가지고 있다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 고유한 가치 체계를 탐구하기 위해 새로운 프레임워크인 ValueLex를 제안한다.
먼저 어휘 가설에 기반하여 30개 이상의 다양한 LLM으로부터 가치 설명어를 수집하고, 요인 분석과 의미 클러스터링을 통해 세 가지 핵심 가치 차원(역량, 성격, 청렴)과 해당 하위 차원을 도출했다. 이는 LLM이 인간의 가치 체계와는 구별되는 구조화된 고유 가치 체계를 가지고 있음을 보여준다.
이 고유 가치 체계를 바탕으로 투사 검사를 개발하여 다양한 LLM의 가치 성향을 평가했다. 그 결과, LLM은 일반적으로 역량을 가장 중요하게 여기지만, 모델 크기, 학습 방법, 데이터 출처에 따라 가치 성향이 다르게 나타났다. 특히 지시 학습과 정렬 과정이 LLM의 가치 체계에 큰 영향을 미치는 것으로 확인되었다.
이 연구는 LLM의 고유한 가치 체계를 체계적으로 밝혀내고, 이를 기반으로 LLM의 가치 성향을 평가하는 새로운 방법론을 제시했다. 이는 향후 LLM의 가치 정렬과 규제를 위한 기반을 마련할 것으로 기대된다.
Stats
대규모 언어 모델은 일반적으로 역량을 가장 중요하게 여긴다.
지시 학습은 LLM의 가치 차원 전반에 걸쳐 일관성을 높이지만, 정렬은 가치 다양성을 더욱 증진시킨다.
모델 크기가 증가할수록 역량에 대한 선호도가 높아지지만, 다른 차원에 대한 관심은 다소 감소한다.
Quotes
"LLM은 인간의 가치 체계와는 구별되는 구조화된 고유 가치 체계를 가지고 있다."
"지시 학습과 정렬 과정이 LLM의 가치 체계에 큰 영향을 미치는 것으로 확인되었다."
"모델 크기가 증가할수록 역량에 대한 선호도가 높아지지만, 다른 차원에 대한 관심은 다소 감소한다."