แนวคิดหลัก
사용자 피드백은 대화 시스템 평가에 중요한 영향을 미치며, 크라우드워커와 LLM의 평가에 차이를 가져온다.
บทคัดย่อ
이 연구는 사용자 피드백이 대화 시스템 평가에 미치는 영향을 조사한다. 두 가지 실험 조건을 설정하여 크라우드워커와 LLM의 평가 라벨을 수집하였다:
- 사용자의 후속 발화를 제공하지 않는 조건
- 사용자의 후속 발화를 제공하는 조건
연구 결과:
- 사용자 피드백은 크라우드워커와 LLM의 평가에 유의미한 차이를 가져온다.
- 크라우드워커는 유용성과 흥미로움 평가에서 사용자 피드백의 영향을 더 많이 받는 반면, LLM은 흥미로움과 관련성 평가에서 더 큰 영향을 받는다.
- 사용자 피드백은 크라우드워커의 유용성 평가를 사용자 관점에 더 부합하도록 개선한다.
- 모호하거나 복잡한 사용자 요청에서 사용자 피드백은 크라우드워커 간 합의도를 높인다.
이러한 결과는 사용자 피드백이 시스템 평가를 개선하는 데 중요하며, 향후 자동화된 피드백 통합의 가능성을 시사한다.
สถิติ
사용자 피드백이 없는 경우 크라우드워커의 유용성 평가가 관련성 평가와 유사한 분포를 보인다.
사용자 피드백이 있는 경우 크라우드워커의 유용성 평가 점수가 전반적으로 낮아진다.
LLM은 크라우드워커에 비해 일관적으로 유용성 점수를 낮게 평가한다.
คำพูด
"사용자 피드백은 크라우드워커의 유용성 평가를 사용자 관점에 더 부합하도록 개선한다."
"모호하거나 복잡한 사용자 요청에서 사용자 피드백은 크라우드워커 간 합의도를 높인다."