Khái niệm cốt lõi
본 논문에서는 연속적인 행동 공간에서 작업 수행에 무관한 행동을 제외함으로써 강화 학습의 효율성을 향상시키는 방법을 제시합니다.
Tóm tắt
무관한 행동 마스킹을 통한 강화 학습 집중: 연속 행동 공간에서의 효율적인 학습
본 연구는 연속 행동 공간을 가진 강화 학습에서 작업 수행에 무관한 행동을 효과적으로 마스킹하여 학습 효율성을 향상시키는 것을 목표로 합니다.
본 논문에서는 연속 행동 공간을 상태 의존적인 관련 행동 집합으로 매핑하는 세 가지 연속 행동 마스킹 방법을 제안합니다.
생성기 마스크 (Generator Mask): 관련 행동 집합을 나타내는 Zonotope의 생성기 표현을 활용합니다.
레이 마스크 (Ray Mask): 방사형 방향을 기반으로 행동을 관련 행동 집합으로 투영합니다.
분포 마스크 (Distributional Mask): 정책 분포를 관련 행동 집합으로 자릅니다.
제안된 방법들은 PPO (Proximal Policy Optimization) 알고리즘을 사용하여 Seeker Reach-Avoid, 2D Quadrotor, 3D Quadrotor, Mujoco Walker2D 등 네 가지 벤치마크 환경에서 평가되었습니다. 각 환경에서 관련 행동 집합은 시스템 역학 및 관련 상태 집합을 기반으로 계산되었습니다.