이 논문에서는 마르코프 의사결정 과정(MDP)에서 에이전트의 행동을 모델링하기 위해 보상 함수와 효용 함수의 두 가지 구성 요소를 제안한다. 보상 함수는 에이전트의 목표를 나타내고, 효용 함수는 에이전트의 위험 태도를 나타낸다.
이러한 모델을 바탕으로 효용 학습(UL) 문제를 정의하고, 효용 함수의 부분 식별 가능성을 분석한다. 또한 유한 데이터 환경에서 효율적으로 UL 문제를 해결하기 위한 두 가지 알고리즘인 CATY-UL과 TRACTOR-UL을 제안하고 이론적 보장을 제공한다.
마지막으로 실제 데이터를 사용한 실험을 통해 제안된 모델과 알고리즘을 검증한다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Filippo Lazz... a las arxiv.org 09-27-2024
https://arxiv.org/pdf/2409.17355.pdfConsultas más profundas