Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
다중 행동 시나리오에서의 최적 정책 학습: 추정
최적 정책 학습: 다중 행동 시나리오에서의 관찰 데이터 활용
이 논문은 다중 행동(또는 다중 팔) 설정에서 관찰 데이터를 활용한 최적 정책 학습(OPL)에 대해 다룹니다. 추정, 위험 선호, 잠재적 실패 등 3가지 측면을 논의합니다.
1