Grunnleggende konsepter
오프-정책 정책 경사 방법의 높은 분산 문제를 해결하기 위해 최적 행동 의존 기준선을 제안하고, 이를 활용한 오프-정책 정책 경사 방법 Off-OAB를 소개한다.
Sammendrag
이 논문은 오프-정책 정책 경사 방법의 높은 분산 문제를 해결하기 위해 최적 행동 의존 기준선을 제안한다.
먼저, 편향 없는 행동 의존 기준선을 제안하고, 이 기준선의 최적 형태를 이론적으로 도출한다. 이 최적 행동 의존 기준선은 오프-정책 정책 경사 추정량의 분산을 최소화할 수 있다.
이어서 실용적인 계산 효율성을 위해 근사된 최적 행동 의존 기준선을 제안한다. 이 근사 기준선을 활용하여 오프-정책 정책 경사 방법 Off-OAB를 소개한다.
실험 결과, Off-OAB 방법은 다양한 연속 제어 과제에서 기존 최신 방법들을 능가하는 성능을 보였다. 특히 샘플 효율성과 정책 경사 분산 감소 측면에서 우수한 성과를 달성했다.
Statistikk
오프-정책 정책 경사 추정량의 분산은 몬테카를로 기법과 중요도 샘플링 비율로 인해 높다.
상태 의존 기준선을 사용하는 오프-정책 액터-크리틱 방법은 행동 정보를 활용하지 못해 정확한 평균 성능 예측이 어렵다.
Sitater
"오프-정책 정책 경사 방법은 오프-정책 데이터를 활용할 수 있어 중요하지만, 오프-정책 정책 경사 추정량의 높은 분산으로 인해 샘플 효율이 낮다."
"본 논문에서는 오프-정책 정책 경사 추정량의 분산을 효과적으로 줄이기 위해 최적 행동 의존 기준선을 제안한다."