Core Concepts
알려지지 않은 마르코프 전이 확률을 가진 다중 팔 밴딧 문제에서 기대 총 할인 보상을 최대화하는 최적 정책을 학습하기 위해 표 기반 및 심층 강화 학습 기반 깃틴스 지수 학습 알고리즘을 제안한다.
Abstract
이 논문은 다중 팔 밴딧 문제에서 기대 총 할인 보상을 최대화하는 최적 정책을 학습하는 방법을 제안한다. 다중 팔 밴딧 문제에서 깃틴스 지수 정책은 최적 정책으로 알려져 있지만, 마르코프 전이 확률을 알아야 한다는 한계가 있다.
저자들은 은퇴 정식화를 기반으로 한 표 기반 QGI 알고리즘과 심층 강화 학습 기반 DGN 알고리즘을 제안한다. 이 알고리즘들은 기존 강화 학습 알고리즘에 비해 실행 시간이 짧고, 저장 공간이 적으며, 깃틴스 지수에 더 잘 수렴하는 특징이 있다.
저자들은 이 알고리즘들을 알려지지 않은 서비스 시간 분포를 가진 일괄 작업 스케줄링 문제에 적용하여 평균 대기 시간을 최소화하는 최적 스케줄링 정책을 학습하는 것을 보여준다. 실험 결과, 제안된 알고리즘이 기존 방법보다 우수한 성능을 보인다.
Stats
다중 팔 밴딧 문제에서 깃틴스 지수 정책은 기대 총 할인 보상을 최대화하는 최적 정책이다.
깃틴스 지수를 계산하려면 마르코프 전이 확률을 알아야 하지만, 대부분의 실제 상황에서는 이를 알 수 없다.
강화 학습 알고리즘을 사용하면 상태 공간을 탐색하여 이 지수를 학습할 수 있다.
Quotes
"In the realm of multi-arm bandit problems, the Gittins index policy is known to be optimal in maximizing the expected total discounted reward obtained from pulling the Markovian arms."
"In most realistic scenarios however, the Markovian state transition probabilities are unknown and therefore the Gittins indices cannot be computed."