Alapfogalmak
LLM 기반 애플리케이션의 평가는 사용자 경험과 유용성을 우선시해야 한다. 본 연구에서는 사용자 중심의 평가 지표인 "수정 거리"를 제안하여, LLM 생성 텍스트의 품질을 사용자 관점에서 평가할 수 있다.
Kivonat
본 연구는 LLM 기반 작문 지원 애플리케이션의 텍스트 평가에 초점을 맞추고 있다. 기존의 평가 지표들은 주로 모델 개발을 위해 설계되어 사용자 경험을 반영하지 못하는 한계가 있다. 이에 본 연구에서는 사용자 중심의 평가 지표인 "수정 거리"를 제안한다.
"수정 거리" 지표는 LLM을 사용자의 대리인으로 활용하여, LLM이 생성한 텍스트를 사용자가 수정하는 과정을 모방한다. 이를 통해 텍스트의 품질을 사용자 관점에서 평가할 수 있다.
실험 결과, "수정 거리" 지표는 기존 지표와 일관된 결과를 보이며, 특히 복잡한 학술 작문 과제에서 다른 지표들이 어려움을 겪는 상황에서도 안정적이고 신뢰할 수 있는 평가 결과를 제공한다. 또한 참조 텍스트가 없는 상황에서도 "수정 거리" 지표가 사용자 선호도와 잘 부합하는 것으로 나타났다.
"수정 거리" 지표는 LLM 생성 텍스트의 품질을 사용자 관점에서 평가할 수 있으며, 수정 편집 내역을 통해 사용자에게 투명하고 상세한 피드백을 제공할 수 있다는 장점이 있다.
Statisztikák
LLM 기반 작문 지원 애플리케이션의 경우, 생성된 텍스트는 사용자의 추가 수정이 필요한 경우가 많다.
"수정 거리" 지표는 사용자가 LLM 생성 텍스트를 이상적인 형태로 수정하는 데 필요한 편집 횟수를 측정한다.
Idézetek
"You can't manage what you can't measure well."
Cruz-Cázares et al. 2013