Keskeiset käsitteet
본 연구는 마르코프 결정 과정(MDP) 및 마르코프 게임(MG)에서 저차원 전이 확률 모델을 가정하고, 대조적 자기지도 학습을 통해 효과적인 특징 표현을 추출하여 온라인 강화학습 알고리즘의 샘플 효율성을 향상시킨다.
Tiivistelmä
본 연구는 마르코프 결정 과정(MDP) 및 마르코프 게임(MG) 환경에서 저차원 전이 확률 모델을 가정하고, 대조적 자기지도 학습을 통해 효과적인 특징 표현을 추출하는 방법을 제안한다.
구체적으로:
- MDP와 MG 환경에서 대조적 자기지도 학습을 통해 전이 확률 모델의 잠재 특징 표현을 학습한다.
- 학습된 특징 표현을 활용하여 UCB(Upper Confidence Bound) 기반의 온라인 강화학습 알고리즘을 제안한다.
- 이론적으로 제안한 알고리즘이 전이 확률 모델의 잠재 특징을 정확히 복구하고, 최적 정책 및 내쉬 균형에 대한 샘플 효율성을 달성함을 증명한다.
- 실험을 통해 제안한 대조적 자기지도 학습 기반 강화학습 알고리즘의 효과를 입증한다.
Tilastot
마르코프 결정 과정(MDP)에서 전이 확률 모델의 근사 오차 ζk
h는 O(log(kH|F|/δ)/k)로 bounded 됨.
마르코프 게임(MG)에서 전이 확률 모델의 근사 오차 ξk
h는 O(log(kH|F|/δ)/k)로 bounded 됨.
Lainaukset
"본 연구는 대조적 자기지도 학습을 통해 강화학습의 샘플 효율성을 향상시키는 첫 번째 이론적 결과를 제공한다."
"제안한 UCB 기반 대조적 학습 알고리즘은 MDP와 MG 환경에서 최적 정책 및 내쉬 균형에 대해 O(1/ε^2) 샘플 복잡도를 달성한다."