본 연구는 지연 적응형 기법을 활용하여 비동기 연합 강화 학습 프레임워크 AFedPG를 제안합니다. AFedPG는 N개의 에이전트가 정책 경사 업데이트를 통해 협력적으로 글로벌 모델을 구축합니다. 이를 통해 비동기 설정에서의 지연된 정책 문제를 효과적으로 해결하고, 이론적 수렴 보장과 함께 샘플 복잡도와 시간 복잡도 측면에서 성능 향상을 달성합니다.
지연 실행 환경에서도 마르코프 정책만으로 최적 성능을 달성할 수 있다는 것을 보여주며, 이를 기반으로 한 DEZ 알고리즘을 제안한다.
본 논문은 무한한 관측 및 상태 공간을 가지는 부분 관측 마르코프 결정 과정에 대해 선형 함수 근사를 활용한 강화 학습 알고리즘을 제안하고, 이의 표본 효율성을 이론적으로 분석한다. 제안된 알고리즘은 관측 및 상태 공간의 크기와 무관하게 다항식 수준의 표본 복잡도를 달성한다.
본 논문은 재현 커널 힐버트 공간에서 정의된 새로운 비모수 벨만 매핑을 제안하여, 통계적 가정 없이 데이터 기반으로 아웃라이어에 강건한 적응형 필터링 문제를 해결하는 강화 학습 기법을 제시한다.
본 연구는 모델 없는 환경에서 엔트로피 정규화 역강화 학습 문제를 해결하는 단일 루프 알고리즘을 제안하고, 회수된 보상과 최적 정책에 대한 강력한 수렴 보장을 제공한다.