대화 시스템과 챗봇이 일상적인 상호작용에 점점 더 통합됨에 따라 효율적이고 정확한 평가 방법이 필수적이 되고 있다. 이 연구는 일련의 대화 시나리오에 걸쳐 인간과 AI 평가의 비교 성능을 탐구한다.
사용자 피드백은 대화 시스템 평가에 중요한 영향을 미치며, 크라우드워커와 LLM의 평가에 차이를 가져온다.