核心概念
본 논문에서는 마르코프 결정 과정(MDP)에서 미니맥스 리그렛에 대한 정보 이론적 한계를 유도하고, 쌍대성 원리를 사용하여 미니맥스 리그렛과 최소 베이지안 리그렛 간의 관계를 규명합니다.
要約
정보 이론적 쌍대성에 기반한 강화 학습을 위한 미니맥스 리그렛 한계 분석
제목: 정보 이론적 쌍대성에 기반한 강화 학습을 위한 미니맥스 리그렛 한계
저자: Raghav Bongole, Amaury Gouverneur, Borja Rodr´ıguez-G´alvez, Tobias J. Oechtering, and Mikael Skoglund
기관: KTH Royal Institute of Technology
게재일: 2024년 10월 21일
분류: 컴퓨터 과학, 머신러닝
본 연구는 알려지지 않은 환경에서 작동하는 에이전트가 모든 가능한 환경에서 높은 누적 보상을 달성하는 강력한 정책을 찾는 것을 목표로 합니다. 이를 위해 다양한 환경 매개변수에 대한 최대 리그렛을 최소화하는 미니맥스 리그렛에 대한 정보 이론적 한계를 유도합니다.