본 연구 논문은 머신러닝 분야, 특히 강화 학습에서 인간의 피드백을 통한 강화 학습 (RLHF)에서 중요한 역할을 하는 보상 모델(RM)의 평가 방법에 대한 연구를 다룹니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Xueru Wen, J... a las arxiv.org 10-10-2024
https://arxiv.org/pdf/2410.05584.pdfConsultas más profundas