Core Concepts
강화학습 에이전트가 미래 보상 정보를 활용하면 더 높은 보상을 얻을 수 있다. 이 논문은 보상 예측 정보의 가치를 경쟁 분석 관점에서 분석한다.
Abstract
이 논문은 강화학습 에이전트가 미래 보상 정보를 활용할 때 얻을 수 있는 가치를 경쟁 분석 관점에서 분석한다.
주요 내용은 다음과 같다:
에이전트가 L-단계 미래 보상 정보를 관찰할 수 있는 경우, 최악의 보상 분포와 기대값에 대한 경쟁 비율을 분석한다.
최악의 보상 분포에서는 에이전트가 미래 보상이 실현될 때 최적으로 행동할 수 있도록 상태 분포를 유지하는 것이 중요하다.
최악의 보상 기대값에 대한 경쟁 비율은 오프라인 강화학습과 보상 없는 탐험 문제에서 등장하는 농밀도 계수와 밀접한 관련이 있다.
트리 구조의 환경에서는 지연 메커니즘을 사용하면 최악에 가까운 경쟁 비율을 달성할 수 있다.
체인 MDP와 격자 MDP 등 다양한 환경에 대한 경쟁 비율을 분석하여 통찰을 제공한다.
Stats
강화학습 에이전트의 누적 보상 기대값은 상태-행동 방문 확률과 보상 기대값의 내적으로 표현할 수 있다.
최악의 보상 분포에서는 에이전트가 미래 보상이 실현될 때 최적으로 행동할 수 있도록 상태 분포를 유지하는 것이 중요하다.
최악의 보상 기대값에 대한 경쟁 비율은 오프라인 강화학습과 보상 없는 탐험 문제에서 등장하는 농밀도 계수와 밀접한 관련이 있다.
Quotes
"In reinforcement learning (RL), agents sequentially interact with changing environments while aiming to maximize the obtained rewards. Usually, rewards are observed only after acting, and so the goal is to maximize the expected cumulative reward. Yet, in many practical settings, reward information is observed in advance – prices are observed before performing transactions; nearby traffic information is partially known; and goals are oftentimes given to agents prior to the interaction."
"As an illustration, consider a driving problem where an agent travels between two locations, aiming to collect as much reward as possible. In one such scenario, rewards are given only when traveling free roads. It would then be reasonable to assume that agents see whether there is traffic before deciding in which way to turn at every intersection ('one-step lookahead'). In an alternative scenario, the agent participates in ride-sharing and gains a reward when picking up a passenger. In this case, agents gain information on nearby passengers along the path, not necessarily just in the closest intersection ('multi-step lookahead'). Finally, the destination might be revealed only at the beginning of the interaction, and reward is only gained when reaching it ('full lookahead')."