이 연구는 회의 요약에 사용되는 자동 평가 지표들의 성능을 분석하였다. 먼저 회의 요약 과정에서 나타나는 주요 과제와 오류 유형을 문헌 조사를 통해 정의하였다. 이를 바탕으로 인간 평가자가 실제 회의 요약문에서 관찰한 오류 유형과 자동 평가 지표 간의 상관관계를 분석하였다.
분석 결과, 현재 널리 사용되는 자동 평가 지표들은 회의 요약문의 특성을 충분히 반영하지 못하는 것으로 나타났다. 예를 들어 ROUGE 지표는 누락된 정보를 잘 포착하지만, 구조적 비일관성 오류에는 둔감한 것으로 나타났다. 또한 일부 모델 기반 지표들은 잘못된 참조나 허구적 내용을 오히려 긍정적으로 평가하는 경향이 있었다.
이러한 결과는 회의 요약 평가를 위해서는 기존 지표들의 한계를 보완할 수 있는 새로운 평가 방법이 필요함을 시사한다. 예를 들어 언어 모델 기반의 지표와 인간 평가자의 피드백을 결합하는 등의 접근이 고려될 수 있다. 또한 회의 요약 과정의 특성을 반영할 수 있는 오류 유형 및 평가 기준을 추가로 개발할 필요가 있다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询