이 연구는 대화형 강화 학습에서 가치 함수 학습 시 발생하는 벨만 오차의 비대칭성 문제를 해결하기 위해 제안되었다.
가치 함수는 최소 제곱법을 통해 학습되는데, 이 방법은 오차 분포가 정규 분포를 따른다는 가정을 전제로 한다. 그러나 벨만 연산자의 특성으로 인해 오차 분포가 비대칭적이 되어 이 가정을 위반하게 된다.
이를 해결하기 위해 본 연구에서는 목표값에 0 평균 잡음을 추가하여 오차 분포를 대칭적으로 만드는 방법을 제안했다. 잡음 분포는 역 오차 분포를 따르도록 학습되며, 이를 통해 오차 분포의 왜도를 감소시켜 정규 분포에 가깝게 만들 수 있다.
제안 방법은 Soft Actor-Critic (SAC)과 Randomized Ensemble Double Q-learning (REDQ) 알고리즘에 통합되어 평가되었다. MuJoCo 벤치마크 과제에서 기존 최신 방법들과 비교했을 때 동등하거나 더 나은 샘플 효율성을 보였다. 또한 학습 과정에서 오차 분포가 대칭적으로 교정되는 것을 확인할 수 있었다.
To Another Language
from source content
arxiv.org
Дополнительные вопросы