Linnk AI 다운로드
•
리서치 어시스턴트
>
로그인
통찰
-
일관성 있는 오프-정책 평가를 위한 상태 추상화
일관성 있는 오프-정책 평가를 위한 상태 추상화 활용: 추상 보상 프로세스
상태 추상화를 활용하여 복잡한 연속 문제를 간단한 이산 모델인 추상 보상 프로세스로 변환함으로써, 오프-정책 데이터로부터 일관성 있는 정책 성능 예측이 가능하다.
1