Core Concepts
오프라인 강화학습 알고리즘에 불확실성 모델을 통합하여 데이터셋 내 행동에 가까운 정책을 학습할 수 있도록 한다.
Abstract
이 논문은 오프라인 강화학습 알고리즘인 TD3-BST를 제안한다. TD3-BST는 불확실성 모델을 사용하여 정책 목적 함수를 동적으로 조정함으로써 데이터셋 내 행동에 가까운 정책을 학습할 수 있다.
주요 내용은 다음과 같다:
- 모스 신경망(Morse neural network)을 사용하여 데이터셋 내 행동과 외부 행동을 구분하는 불확실성 모델을 학습한다.
- 이 불확실성 모델을 정책 목적 함수에 포함하여 데이터셋 내 행동에 가까운 정책을 학습한다.
- 이를 통해 기존 방법들에 비해 D4RL 벤치마크에서 우수한 성능을 달성한다.
- 특히 복잡한 Antmaze 과제에서 가장 좋은 성능을 보인다.
- 불확실성 모델과 앙상블 기반 방법을 결합하면 성능이 더 향상될 수 있음을 보인다.
Stats
오프라인 강화학습 데이터셋 D는 상태-행동-보상-다음 상태 튜플 {s, a, r, s'}로 구성된다.
모스 신경망은 D에 있는 상태-행동 쌍 {s, a}에 대해 Mϕ(s, a) = 1을 만족하도록 학습된다.
정책 목적 함수에서 1 - Mϕ(s, a)는 상태-행동 쌍 (s, a)의 불확실성을 나타낸다.
Quotes
"오프라인 강화학습 알고리즘은 정적 데이터셋에서 성능이 좋고 일반화가 잘되는 정책을 학습하는 데 사용된다."
"기존 방법들은 데이터셋별 하이퍼파라미터 튜닝이 필요하다는 단점이 있다."
"TD3-BST는 불확실성 모델을 사용하여 데이터셋 내 행동에 가까운 정책을 학습할 수 있다."