Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
오프-정책 평가
저 분산 오프-정책 평가를 위한 상태 기반 중요도 샘플링
상태 기반 중요도 샘플링 기법은 중요도 가중치 계산에서 "무시할 수 있는 상태"를 제거함으로써 분산을 줄일 수 있다.
1