Core Concepts
FEEL은 대화형 언어 모델을 활용하여 감정 지원 대화의 다양한 측면을 체계적으로 평가하는 프레임워크이다.
Abstract
FEEL은 감정 지원 대화 평가를 위해 다음과 같은 방법을 제안한다:
감정 지원 기술과 텍스트 품질의 6가지 평가 측면을 정의하였다. 이는 심리치료 대화 연구를 바탕으로 구체화되었다.
사람의 평가 결과를 담은 ESCEval 데이터셋을 구축하였다. 이를 통해 대화형 언어 모델의 평가 성능을 측정하고 가중치를 결정할 수 있었다.
3개의 대화형 언어 모델(ERNIE-Bot 4.0, GLM-4, GPT-3.5-Turbo)을 활용하여 앙상블 학습 방식으로 FEEL을 구현하였다. 이를 통해 개별 모델의 장점을 효과적으로 활용할 수 있었다.
실험 결과, FEEL은 기존의 자동 평가 지표에 비해 사람의 평가 결과와 더 높은 상관관계를 보였다. 이는 FEEL이 감정 지원 대화의 복잡한 특성을 보다 잘 포착할 수 있음을 시사한다.
Stats
감정 지원 대화 평가에서 FEEL의 Spearman 상관계수는 0.404~0.509로 나타났다.
FEEL의 Kendall's tau 계수는 0.300~0.377로 나타났다.
FEEL의 RMSE는 2.049, MAE는 1.657로 나타났다.
Quotes
"FEEL은 대화형 언어 모델을 활용하여 감정 지원 대화의 다양한 측면을 체계적으로 평가하는 프레임워크이다."
"FEEL은 기존의 자동 평가 지표에 비해 사람의 평가 결과와 더 높은 상관관계를 보였다."