Centrala begrepp
참조 기반 평가 지표와 참조 없는 평가 지표의 성능을 다양한 분석 방법을 통해 종합적으로 평가하였다. 참조 없는 지표가 인간 평가와 더 높은 상관관계를 보이고 언어 품질 결함에 더 민감하지만, 성능은 과제와 입력 텍스트 품질에 따라 달라진다.
Sammanfattning
이 연구는 자연어 생성 시스템 평가를 위한 자동 평가 지표의 적절한 활용 방안을 제시한다.
실험 결과:
- 참조 없는 평가 지표가 참조 기반 지표에 비해 인간 평가와 더 높은 상관관계를 보이며, 언어 품질 결함에 더 민감하다.
- 그러나 참조 없는 지표의 성능은 과제와 입력 텍스트 품질에 따라 달라진다. 대화 과제에서는 참조 기반 지표가 더 나은 성능을 보인다.
- 참조 없는 지표는 저품질 텍스트를 잘 식별하지만, 고품질 텍스트를 평가하는 데는 한계가 있다.
따라서 새로운 과제에 자동 평가 지표를 적용하기 전에 사전 평가를 수행하고, 과제 특화 미세 조정이 필요할 수 있다. 또한 문맥 정보와 무관한 기준에 대해서는 참조 없는 소스 프리 지표를 활용하는 것이 효과적일 수 있다.
Statistik
참조 없는 지표가 참조 기반 지표에 비해 인간 평가와 더 높은 상관관계를 보인다.
참조 없는 지표는 언어 품질 결함을 더 잘 식별한다.
참조 없는 지표의 성능은 과제와 입력 텍스트 품질에 따라 달라진다.
Citat
"참조 없는 지표는 저품질 텍스트를 잘 식별하지만, 고품질 텍스트를 평가하는 데는 한계가 있다."
"새로운 과제에 자동 평가 지표를 적용하기 전에 사전 평가를 수행하고, 과제 특화 미세 조정이 필요할 수 있다."
"문맥 정보와 무관한 기준에 대해서는 참조 없는 소스 프리 지표를 활용하는 것이 효과적일 수 있다."