이 논문은 연속 시간 선형-2차 강화 학습 문제를 다루고 있다. 저자들은 상태 및 제어 변수에 의존하는 확산 계수를 가진 문제를 고려한다. 이러한 문제는 기존 연구에서 다루지 않았던 것이다.
저자들은 모델 정보를 알지 못하는 상황에서 문제를 해결하기 위해 모델 프리 접근법을 사용한다. 구체적으로 정책 경사 기반 액터-크리틱 알고리즘을 제안한다. 이 알고리즘은 정책 매개변수의 수렴 속도와 아 하위 선형 후회 한계를 제공한다.
논문의 주요 기여는 다음과 같다:
논문은 이론적 분석과 함께 수치 실험 결과를 제시하여 제안된 알고리즘의 성능을 입증하고 있다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Yilie Huang,... alle arxiv.org 09-24-2024
https://arxiv.org/pdf/2407.17226.pdfDomande più approfondite