이 논문은 최적 정지 문제에 대한 강화 학습 접근법을 제안합니다.
먼저, 탐색을 장려하기 위해 확률적 정지 시간을 도입합니다. 이는 결정 제어자의 제어를 정지 확률로 나타내는 것입니다. 이를 통해 최적 정지 문제를 (n+1)차원 퇴화 특이 확률 제어 문제로 정식화합니다.
이후 성과 기준에 누적 잔여 엔트로피를 도입하여 문제를 정규화합니다. 이는 탐색을 장려하고 학습을 촉진하는 역할을 합니다. 정규화된 문제는 동적 계획법 원리를 통해 분석되며, 최적 제어 전략이 반사 형태임이 밝혀집니다.
특히 실물 옵션 문제에 대해서는 반사 경계의 반해석적 해가 도출되며, 엔트로피 정규화의 영향과 소멸 한계가 분석됩니다.
마지막으로 정책 반복 알고리즘 기반의 강화 학습 프레임워크가 제안됩니다. 이는 모델 기반 및 모델 없는 버전으로 구성되며, 정책 개선과 수렴 결과가 증명됩니다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Jodi Dianett... alle arxiv.org 10-03-2024
https://arxiv.org/pdf/2408.09335.pdfDomande più approfondite