이 논문은 평균 보상 반감 마르코프 의사결정 과정에서 사용되는 비동기 확률적 근사 알고리즘의 안정성과 수렴성을 연구한다. 또한 이러한 이론적 결과를 활용하여 새로운 상대 가치 반복 Q-러닝 알고리즘을 제안하고 그 수렴성을 입증한다.
최적 수송 프레임워크를 활용하여 과제 난이도를 점진적으로 높이는 커리큘럼을 생성함으로써 강화 학습 에이전트의 성능을 향상시킬 수 있다.
제안된 방법은 정책 매개변수에 따라 조정되는 차별화 가능한 제어기를 사용하여 관심 영역을 향한 탐색을 안내하고 학습 과정에서 탐색 크기를 동적으로 조정합니다.
역방향 커리큘럼과 전방 커리큘럼의 결합을 통해 극단적인 데모 및 샘플 효율성을 달성할 수 있다.
강화 학습 에이전트의 성능 향상을 위해 설명 기반 리파이닝 기법인 RICE를 제안한다. RICE는 에이전트의 행동을 설명하여 중요한 상태를 식별하고, 이를 활용해 에이전트의 탐험을 유도함으로써 학습 병목 현상을 돌파한다.
위험 민감 다중 에이전트 강화 학습에서 균형 편향 문제를 해결하기 위해 새로운 regret 개념을 제안하고, 이를 바탕으로 근사 최적 알고리즘을 개발하였다.
연속 분포 강화 학습 알고리즘 CTD4는 연속 행동 공간에서 효율적이고 안정적인 정책 학습을 위해 다중 분포 크리틱의 칼만 융합을 활용한다.
본 연구는 강건한 조건부 가치 위험 기반 강화 학습 문제를 다룹니다. 고정된 불확실성 예산과 결정론적 불확실성을 모두 고려하여 최적의 강건한 정책을 도출합니다.
그리디-GQ 알고리즘은 선형 함수 근사를 사용하는 최적 제어 문제에서 빠르게 수렴하며, 이 논문에서는 이에 대한 가장 엄밀한 유한 시간 오차 한계를 제시한다.
제약 정규화 흐름 정책은 해석 가능하고 안전한 정책 모델을 제공하여 강화 학습 문제의 안전성과 해석 가능성을 높인다.