Core Concepts
강화학습 에이전트의 정책 최적화(PO) 및 Q-러닝(QL) 알고리즘은 정책 엔트로피 측면에서 일관된 차이를 보이며, 이는 각 접근법이 사용하는 학습 목표에 기인한다.
Abstract
이 연구는 강화학습 시스템의 행동을 개인화 환경에서 조사하고, 사용된 학습 알고리즘 유형에 따른 정책 엔트로피의 차이를 자세히 설명한다.
정책 최적화(PO) 에이전트는 종종 학습 중 낮은 엔트로피 정책을 가지며, 이로 인해 특정 행동을 우선시하고 다른 행동을 회피하는 경향이 있다. 반면, Q-러닝(QL) 에이전트는 이러한 행동에 덜 취약하며 전반적으로 높은 엔트로피 정책을 유지한다.
이러한 차이는 각 접근법이 사용하는 학습 목표의 차이에서 비롯된다. PO 에이전트의 정책 업데이트는 행동 선택 확률에 직접적으로 의존하는 반면, QL 에이전트의 업데이트는 그렇지 않다. 이러한 차이로 인해 PO 에이전트는 일부 행동을 선호하게 되어 정책 엔트로피가 낮아지는 것으로 나타났다.
다양한 개인화 작업에 대한 실험적 결과와 이론적 분석을 통해 이러한 현상을 입증하였다.
Stats
정책 최적화 에이전트는 학습 과정에서 일관적으로 낮은 엔트로피 정책을 가진다.
Q-러닝 에이전트는 전반적으로 높은 엔트로피 정책을 유지한다.
이러한 차이는 각 접근법이 사용하는 학습 목표의 차이에서 비롯된다.
Quotes
"정책 최적화 에이전트는 종종 학습 중 낮은 엔트로피 정책을 가지며, 이로 인해 특정 행동을 우선시하고 다른 행동을 회피하는 경향이 있다."
"Q-러닝 에이전트는 이러한 행동에 덜 취약하며 전반적으로 높은 엔트로피 정책을 유지한다."
"이러한 차이는 각 접근법이 사용하는 학습 목표의 차이에서 비롯된다."