이 논문은 적대적 마르코프 의사결정 프로세스(AMDP)에서 온라인 학습 문제를 다룬다. AMDP는 로봇공학, 추천 시스템 등의 의사결정 응용 분야에서 알려지지 않고 변화하는 과제를 다루는 학습 프레임워크이다.
AMDP의 주요 한계는 비관적 후회 분석 결과이다. 비용 함수가 에피소드마다 변경될 수 있지만, 많은 경우 환경의 변화가 반드시 적대적이지는 않다. 이를 해결하기 위해, 저자들은 비용 예측기 집합을 활용하여 후회를 최소화하는 AMDP의 새로운 변형을 소개하고 연구한다.
이 설정에 대해, 저자들은 비용 예측기의 예측 능력에 따라 후회 한계가 점진적으로 감소하는 새로운 정책 탐색 방법을 개발한다. 이러한 낙관적 후회 한계를 확립하는 것은 (i) 기존 중요도 가중 비용 추정기로는 낙관적 한계를 달성할 수 없고, (ii) AMDP의 피드백 모델이 기존 낙관적 온라인 학습 연구와 다르기 때문에 비자명하다.
제안된 방법의 핵심은 비용 예측기를 활용하여 낙관적으로 편향된 새로운 비용 추정기를 개발하는 것이다. 이를 통해 제약적 가정 없이 높은 확률로 후회 분석을 수행할 수 있다. 또한 실용적 확장 방안과 수치 실험 결과를 제시한다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문