핵심 개념
이 논문은 보상 추론 없이 인간 피드백을 활용하여 일반적인 강화 학습 문제를 해결하는 두 가지 알고리즘을 제안한다. 이 알고리즘들은 정책 네트워크 매개변수의 국소적인 가치 함수 차이를 추정하고 이를 바탕으로 제로 순서 정책 경사도를 근사한다.
초록
이 논문은 보상 추론 없이 인간 피드백을 활용하여 일반적인 강화 학습 문제를 해결하는 두 가지 알고리즘을 제안한다.
- 제로 순서 정책 경사도(ZPG):
- 현재 정책 πθt와 교란된 정책 πθt+μvt 간의 트레이젝토리 쌍을 샘플링하고 인간 선호도 피드백을 수집한다.
- 이를 통해 두 정책의 가치 함수 차이를 추정하고, 이를 바탕으로 제로 순서 정책 경사도를 구한다.
- 이 경사도를 사용하여 정책 네트워크 매개변수를 업데이트한다.
- 제로 순서 블록 좌표 정책 경사도(ZBCPG):
- ZPG와 유사하지만, 정책 네트워크 매개변수의 부분 집합을 무작위로 선택하여 교란시킨다.
- 이를 통해 계산 복잡도를 낮추고 병렬 최적화를 가능하게 한다.
두 알고리즘 모두 정책 네트워크 매개변수의 통계적 정점에 수렴하는 수렴 속도를 보장한다. 이는 보상 추론 없이도 일반적인 강화 학습 문제를 효율적으로 해결할 수 있음을 보여준다.
통계
정책 네트워크 매개변수의 차원 d
계획 수평선 H
정책 경사도 반복 횟수 T
각 반복 단계에서의 정책 교란 샘플 수 N
각 트레이젝토리 쌍에 대한 인간 선호도 질의 수 M