Core Concepts
대규모 언어 모델의 감정 인지 및 표현 능력을 평가하여 인간과의 감정 정렬 수준을 분석하고 개선 방향을 제시한다.
Abstract
이 연구는 대규모 언어 모델(LLM)의 감정 인지 및 표현 능력을 평가하기 위해 EmotionBench 프레임워크를 제안한다. 먼저 심리학 분야의 감정 평가 이론을 바탕으로 8가지 부정적 감정을 유발하는 428개의 상황을 수집하고 36개의 요인으로 분류하였다. 이후 1,266명의 다양한 배경의 피험자를 대상으로 설문 조사를 진행하여 인간의 감정 반응에 대한 기준선을 마련하였다.
실험 결과, LLM은 특정 상황에 대해 적절한 감정 반응을 보이지만 인간의 감정 행동과는 여전히 상당한 차이가 있음을 확인하였다. 특히 gpt-3.5-turbo는 긍정적 상황에서 더 높은 감정 정렬을 보였으며, LLaMA-2 모델은 감정 변화의 강도가 더 크게 나타났다. 그러나 LLM은 복잡한 설문 문항에서 감정 변화를 정확히 반영하지 못하는 한계를 보였다.
이 연구는 LLM의 감정 이해 및 표현 능력 향상을 위한 기반을 마련하였으며, 향후 긍정적 감정에 대한 체계적인 평가와 LLM의 실제 대화 행동 분석이 필요할 것으로 보인다.
Stats
대규모 언어 모델은 특정 상황에 대해 인간보다 더 강한 감정 변화를 보인다.
gpt-3.5-turbo는 긍정적 상황에서 더 높은 감정 정렬을 보였다.
LLaMA-2 모델은 감정 변화의 강도가 더 크게 나타났다.
LLM은 복잡한 설문 문항에서 감정 변화를 정확히 반영하지 못하는 한계를 보였다.
Quotes
"LLMs have showcased their capabilities across various tasks, including sentence revision (Wu et al., 2023), text translation (Jiao et al., 2023), program repair (Fan et al., 2023), and program testing (Deng et al., 2023; Kang et al., 2023)."
"LLMs also facilitate the emergence of AI companion applications, including Yuna3, Pimento4, and Luzia5."
"Consequently, there is a growing need for evaluating LLMs' communicative dynamics compared to human behaviors, beyond mere performance on downstream tasks."