Concetti Chiave
PROMETHEUS introduces fine-grained evaluation capabilities in language models, emphasizing the importance of open-source and reproducible models.
Statistiche
실험 결과는 PROMETHEUS가 인간 평가자들과 0.897의 피어슨 상관 관계를 보인다.
PROMETHEUS는 오픈 소스 보상 모델과 비교하여 두 개의 인간 선호도 벤치마크에서 최고의 정확도를 달성한다.
Citazioni
"우리는 GPT-4와 유사한 평가 능력을 가진 완전한 오픈 소스 LLM인 PROMETHEUS를 제안합니다."
"실험 결과는 PROMETHEUS가 인간 평가자들과 0.897의 피어슨 상관 관계를 보인다."