이 논문은 보상 추론 없이 인간 피드백을 활용하여 일반적인 강화 학습 문제를 해결하는 두 가지 알고리즘을 제안한다.
두 알고리즘 모두 정책 네트워크 매개변수의 통계적 정점에 수렴하는 수렴 속도를 보장한다. 이는 보상 추론 없이도 일반적인 강화 학습 문제를 효율적으로 해결할 수 있음을 보여준다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Qining Zhang... alle arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17401.pdfDomande più approfondite