이 연구는 대형 언어 모델(LLM)의 신뢰성 있는 응답 생성 능력을 심리측정 도구를 통해 평가한다. 연구진은 39개의 심리측정 도구와 115개의 특성 축을 포함하는 MODEL-PERSONAS 데이터셋을 구축하였다. 이를 통해 LLM의 이해력, 민감도, 일관성을 체계적으로 평가하였다.
실험 결과, 대부분의 LLM은 질문 형식의 사소한 변화에도 응답이 크게 달라지며, 부정문에 대한 일관성도 낮은 것으로 나타났다. 이는 현재 LLM을 활용한 심리측정이 모델의 내재적 특성을 정확하게 반영하지 못함을 시사한다.
연구진은 FLAN-T5 모델군과 GPT-3.5, GPT-4 모델이 상대적으로 높은 일관성을 보였지만, 대부분의 모델은 일관성 기준을 충족하지 못했다. 또한 모델에 특정 성격을 주입해도 일관성 향상에 한계가 있음을 확인했다.
이 연구 결과는 LLM의 심리측정 활용 시 주의가 필요함을 시사한다. 모델의 응답 일관성과 민감도를 면밀히 검토하여 모델의 내재적 특성을 정확하게 파악하는 것이 중요하다.
To Another Language
from source content
arxiv.org
Ключові висновки, отримані з
by Bangzhao Shu... о arxiv.org 04-03-2024
https://arxiv.org/pdf/2311.09718.pdfГлибші Запити