이 논문은 보상 추론 없이 인간 피드백을 활용하여 일반적인 강화 학습 문제를 해결하는 두 가지 알고리즘을 제안한다. 이 알고리즘들은 정책 네트워크 매개변수의 국소적인 가치 함수 차이를 추정하고 이를 바탕으로 제로 순서 정책 경사도를 근사한다.