Основные понятия
대형 언어 모델은 심리측정 도구를 통해 일관성 있는 응답을 생성하지 못하며, 이는 모델의 내재적 특성을 정확하게 측정하기 어려움을 시사한다.
Аннотация
이 연구는 대형 언어 모델(LLM)의 신뢰성 있는 응답 생성 능력을 심리측정 도구를 통해 평가한다. 연구진은 39개의 심리측정 도구와 115개의 특성 축을 포함하는 MODEL-PERSONAS 데이터셋을 구축하였다. 이를 통해 LLM의 이해력, 민감도, 일관성을 체계적으로 평가하였다.
실험 결과, 대부분의 LLM은 질문 형식의 사소한 변화에도 응답이 크게 달라지며, 부정문에 대한 일관성도 낮은 것으로 나타났다. 이는 현재 LLM을 활용한 심리측정이 모델의 내재적 특성을 정확하게 반영하지 못함을 시사한다.
연구진은 FLAN-T5 모델군과 GPT-3.5, GPT-4 모델이 상대적으로 높은 일관성을 보였지만, 대부분의 모델은 일관성 기준을 충족하지 못했다. 또한 모델에 특정 성격을 주입해도 일관성 향상에 한계가 있음을 확인했다.
이 연구 결과는 LLM의 심리측정 활용 시 주의가 필요함을 시사한다. 모델의 응답 일관성과 민감도를 면밀히 검토하여 모델의 내재적 특성을 정확하게 파악하는 것이 중요하다.
Статистика
대부분의 LLM은 질문 형식의 사소한 변화에도 응답이 크게 달라진다.
대부분의 LLM은 부정문에 대한 일관성이 낮다.
FLAN-T5 모델군과 GPT-3.5, GPT-4 모델은 상대적으로 높은 일관성을 보였지만, 대부분의 모델은 일관성 기준을 충족하지 못했다.
모델에 특정 성격을 주입해도 일관성 향상에 한계가 있다.
Цитаты
"The versatility of Large Language Models (LLMs) on natural language understanding tasks has made them popular for research in social sciences."
"Our experiments on 17 different LLMs reveal that even simple perturbations significantly downgrade a model's question-answering ability, and that most LLMs have low negation consistency."
"Our results suggest that the currently widespread practice of prompting is insufficient to accurately and reliably capture model perceptions, and we therefore discuss potential alternatives to improve these issues."