연속 제어 환경에서 심층 강화학습 에이전트는 시간에 따른 성능 변동성이 크게 나타나는데, 이는 정책 매개변수에 대한 수익 지형도의 불연속성에 기인한다. 정책 업데이트 후 수익 분포를 분석하면 동일한 평균 수익을 가진 정책들 간에도 분포 특성이 크게 다르며, 이는 에이전트의 행동 양상 차이로 이어진다.
상태 정보만을 활용한 데모 데이터를 통해 각 상태-행동 쌍의 중요도를 간접적으로 추정하여, 이를 기반으로 한 부드러운 가이드 보상 함수를 설계함으로써 스파스 보상 환경에서의 정책 최적화를 달성한다.
라플라시안 표현은 상태 탐색, 일반화, 전이 등의 문제를 해결하는 데 도움이 되는 유용한 상태 인코딩을 제공한다. 기존의 최적화 목적함수는 고정 계수에 의존하거나 임의의 회전을 허용하는 등의 한계가 있었다. 본 논문에서는 이러한 문제를 해결하는 이론적으로 타당한 목적함수와 최적화 알고리즘을 제안한다.
본 논문에서는 비선형 함수 근사를 이용한 Q-learning 문제를 해결하기 위해 가우스-뉴턴 시간차 학습(GNTD) 알고리즘을 제안한다. GNTD 알고리즘은 각 반복 단계에서 평균 제곱 벨만 오차(MSBE)의 변형된 형태를 최적화하기 위해 가우스-뉴턴 단계를 수행한다. 다양한 비선형 함수 근사에 대해 GNTD 알고리즘의 유한 샘플 수렴성을 보이며, 특히 ReLU 활성화 함수를 사용하는 신경망 모델에 대해 기존 신경망 기반 시간차 학습 방법보다 향상된 샘플 복잡도를 달성한다.
부분적으로 관찰 가능한 마르코프 의사결정 과정(POMDP)에서 상태 전이 행렬의 저차원 구조를 활용하여 표현 학습과 정책 최적화를 통합한 효율적인 강화학습 알고리즘 Embed to Control(ETC)을 제안한다.
신경망 기반 액터-크리틱 알고리즘은 표현 학습을 통해 최적의 정책을 효율적으로 찾을 수 있음을 보여준다.
이 논문은 선형 MDP 환경에서 효율적인 탐험을 통해 정책 최적화를 수행하는 OPPO 알고리즘을 제안한다. OPPO는 정책 개선 단계와 정책 평가 단계로 구성되며, 불확실성을 고려한 최적주의적 접근법을 통해 √d2H3T 수준의 regret을 달성한다.
강건 마르코프 의사결정 과정에서 관찰된 전이 데이터를 활용하여 주어진 평가 정책의 최선/최악의 가치를 효율적이고 강건하게 추정하는 방법을 제안한다.
강화학습 에이전트가 2차원과 3차원 환경에서 어떻게 적응하고 성능을 발휘하는지 탐구한다.
본 연구에서는 SVRG와 TD-SVRG 알고리즘의 수렴 속도를 개선하여 기존 연구 대비 더 나은 성능을 달성하였다. 특히 조건 수 의존성을 제곱에서 선형으로 낮추고 부가적인 요인들을 제거하여 SVRG와 동일한 수렴 속도를 달성하였다.