정책 경사 부공간 식별
정책 경사 방법은 복잡한 연속 제어 과제를 해결하는 데 큰 잠재력을 가지고 있지만, 최적화 문제 내부의 구조를 활용하여 학습 효율을 높일 수 있다. 이 논문에서는 두 가지 널리 사용되는 심층 정책 경사 방법에 대해 다양한 시뮬레이션 벤치마크 과제에서 이러한 경사 부공간의 존재를 철저히 평가한다. 결과는 강화 학습의 지속적으로 변화하는 데이터 분포에도 불구하고 이러한 경사 부공간이 존재함을 보여준다. 이러한 발견은 매개변수 공간 탐색 개선 또는 2차 최적화 활성화와 같은 더 효율적인 강화 학습을 위한 유망한 방향을 드러낸다.