단일 참조 문장만을 사용하는 기존 평가 방식의 한계를 극복하기 위해, 대규모 언어 모델을 활용하여 다양한 참조 문장을 생성하고 이를 활용함으로써 자동 평가 지표와 인간 평가 간의 상관관계를 크게 향상시킬 수 있다.
참조 기반 평가 지표와 참조 없는 평가 지표의 성능을 다양한 분석 방법을 통해 종합적으로 평가하였다. 참조 없는 지표가 인간 평가와 더 높은 상관관계를 보이고 언어 품질 결함에 더 민감하지만, 성능은 과제와 입력 텍스트 품질에 따라 달라진다.