Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
몬테카를로 비평가 기반 탐색 최적화
몬테카를로 비평가 최적화를 통한 강화 학습에서의 안내된 탐색
제안된 방법은 정책 매개변수에 따라 조정되는 차별화 가능한 제어기를 사용하여 관심 영역을 향한 탐색을 안내하고 학습 과정에서 탐색 크기를 동적으로 조정합니다.
1